天天看點

趙雲虎等:深入開源大模型的軟體、資料及參數許可問題

作者:大成律動
趙雲虎等:深入開源大模型的軟體、資料及參數許可問題

拐點到了麼?

自從2022年11月30日OpenAI公司的ChatGPT橫空出世以來,以大語言模型(LLM,Large Language Model,簡稱“大模型”)為代表的具有通用人工智能的生成式人工智能(GAI,Generative Artificial Intelligence)就成為了科技産業界的焦點,[1]GAI已經成為本年度的網紅詞語應當毫無懸念。人工智能的發展是否已經走到了從弱人工智能到強人工智能的拐點?

據紐約時報2023年2月16日的報導,紐約時報記者Kevin Roose與微軟必應聊天Sydney進行了兩個小時的對話。在這兩個小時的對話中,Sydney語出驚人,她表達了其希望成為一個活生生的人,還想要毀滅這個星球,甚至與Kevin Roose陷入愛河。[2]

微軟研究院的報告也證明,除了對語言的掌握,GPT-4可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特别的提示。在所有這些任務中,GPT-4的表現驚人地接近人類的表現,可以合理地視為人工通用智能系統的早期版本。[3]

人工智能三巨頭之一、圖靈獎獲得者Yoshua Bengio相信可以在未來20年甚或未來幾年就開發出具有人類水準的人工智能,基于計算機的數字本質,這樣的能力水準将賦予AI系統相比人類更為突出的智能優勢。[4]

一、人工智能對人的挑戰

人工智能一開始是個知識論問題,在不遠的未來将要更新為一個涉及終極命運的存在論問題,一個或許将危及人類自身存在的問題。[5]在弱人工智能時代,我們更多的還是關注采用哪些技術方案能夠讓機器更為智能,還有哪些人類不知道的科學技術能夠讓機器更為智能。這些問題就是屬于哲學上的“認識論”範疇。

随着強人工智能的發展,對于人工智能的思考已經從認識論的低度到了存在論的高度。存在論所關注的問題是“人是什麼”“上帝存在麼”“什麼是生命”“什麼是心智”?相應地,具有強的通用人工智能的機器有沒有心智、能不能稱為矽基“生命”、人類造出了這樣的東西,人類是不是上帝?這種東西會不會終結了人類的存在?

人之是以為人,在于人的意識,既能認識到自己本我的存在,也能夠認識到其他人他我的存在。包括Yoshua Bengio在内的Patrick Butlin、Robert Long等認為盡管現在沒有确切的證據證明人工智能已經具備了意識,但是按照計算功能主義的觀點,以現有的技術水準以及判斷标準具有意識并不是什麼難事。[6]

當下而言,人類對于ChatGPT為什麼能有這樣的表現還仍然沒有弄明白。人工神經元網絡本來是希望能夠仿照大腦的結構來産生智能,但是現在反過來,也許在像ChatGPT這樣的神經網絡中,能以某種方式捕捉到人類大腦在生成語言時所做事情的本質,進而更深入的認識我們的大腦。[7]

在科技昌明之前,人類文明普遍認為是上帝(即神,不同文明有不同的說法)造人。随着科技的發展,人類逐漸認識到事實可能并非如此,于是尼采發出了“上帝已死”的斷言。如果果然是上帝造人,如果我們通過對大語言模型人工智能的研究,發現了意識和智能産生的秘密,無疑,我們就是看到了上帝,看到了上帝是到底是如何造人的。或者,仍然基于上述前提,盡管人類自己的上帝被宣告死亡,但是人類以肉身之軀造出了“矽兒子”,人類自己成為了造物主。正如上帝被人類自己所揚棄,矽基生命最終是否會把碳基生命消滅?無論是看到上帝,還是成為上帝,都會是一趟風險之旅。

長期風險與人工智能的最終走向有關。目前,大多數人工智能系統都是被動的,但随着人工智能系統獲得越來越多的自主權和直接操縱外部世界的能力,如果對足夠強大的人工智能沒有适當的保障措施,可能會對整個人類構成生存風險。如果不加以控制,高度自主的智能系統也可能被濫用或犯下災難性錯誤。

兩三年後人類将面臨的中期風險包括人工智能系統可能被濫用而造成大規模破壞,特别是在生物學領域。科學和工程技能的快速增長也可能改變國家之間的力量平衡。

短期風險則包括隐私、版權問題、模型輸出的偏見和公平性、事實準确性以及産生錯誤資訊或宣傳的可能性等問題,是目前人工智能系統中存在或即将存在的風險。[8]

二、建構可信的人工智能

為應對人工智能對人類社會帶來的挑戰,各國政府以及國際組織紛紛出台相應的法律法規及政策檔案。

2023年10月18日中國釋出《全球人工智能治理倡議》,圍繞人工智能發展、安全、治理三方面系統闡述了人工智能治理中國方案。2023年11月,中國、歐盟、美國等28國簽署《布萊切利宣言》,該宣言認識到保護人權、透明度和可解釋性、公平性、問責制、監管、安全、人類監督、道德、減少偏見、隐私和資料保護等問題。2023年11月8日歐洲議會、歐盟成員國和歐盟委員會就《人工智能法案》達成協定。美國在2023年10月30日頒布《人工智能總統令》;而中國早在2023年7月就由七部委聯合釋出了《生成式人工服務管理暫行辦法》,旨在促進GAI發展的同時,平衡對于網絡、資料、以及個人資訊的安全和保護。該暫行辦法在算法、内容、資料處理等方面提出了監管要求。

在算法層面,該辦法要求人工智能服務提供者按主管部門的要求對訓練資料來源、規模、類型、标注規則、算法機制機理等予以說明,并提供必要的技術、資料等支援和協助。大模型算法是産生歧視、偏見、虛假資訊的原因之一,是以需要對大模型算法進行規制,适當增加算法的透明度,避免完全黑箱。尤其是,提供具有輿論屬性或者社會動員能力的生成式人工智能服務的,應當按照國家有關規定開展安全評估,并按照《網際網路資訊服務算法推薦管理規定》履行算法備案和變更、登出備案手續。進行模型訓練應當采用具有合法來源的基座模型,并且要對可靠性、安全性、價值觀進行充分的測評;為保證模型的生成效果,在服務正式上線之前,還應當進行模式測試,測試資料的來源應當獨立于訓練資料。測試要采用完整嚴格的測試标準,對模型價值觀進行對齊,盡可能減少歧視、幻覺、以及違法内容。

對于在預訓練、優化訓練等訓練資料處理活動,《暫行辦法》要使用具有合法來源的資料和基礎模型,采取有效措施提高訓練資料的品質,增強訓練資料的真實性、準确性、客觀性、多樣性。在資料采集階段,應當審查資料來源和内容的合法性;對于從網際網路自動爬取的資料,應當遵守網站的Robots協定,不得采用破解密碼、僞造UA、設定代理IP等技術手段進行違規爬取,還應當對爬取的流量和頻率進行控制,避免爬取對網站造成不合适的負擔;對于從第三方獲得的資料,應當對其的資料來源合法性和可交易性進行盡職調查,并簽訂适當的法律協定明确各方的權利義務;對于直接來自于資料主體或者資料生産者的資料,應當確定其具有合法性基礎并獲得明确的授權。

對于資料中享有著作權的作品,應當盡量獲得著作權人的明确授權,明确可以用于AIGC的模型訓練。雖然大陸的《著作權法》規定了在指明作者姓名或者名稱、作品名稱,不影響該作品的正常使用,且沒有不合理地損害著作權人的合法權益時,在法律列舉的情形下可以不經著作權人許可且不向其支付報酬地使用作品,但是并沒有明确包括使用性質和目的存在巨大差異的轉換性使用的情形。在谷歌圖書館案中,大陸法院認定谷歌對全書進行掃描的行為構成侵權,這與美國法院的判決是完全相反的。是以,盡管使用現有作品進行大模型訓練而建構權重、參數的方式與通常的表達性使用的使用性質和目的存在差異,但是如果沒有取得著作權人的授權,還是應當非常慎重。

對于包含個人資訊的資料類型,如果需要将個人資訊用于模型訓練與優化,則應當明确告知并取得個人資訊主體的同意;對于敏感個人資訊,還需進行個人資訊保護影響的事前評估并取得的單獨同意;用于模型訓練的個人資訊應當進行去辨別化處理後再進行使用。

在内容層面,不得生成法律法規禁止的内容;基于服務類型特點,采取有效措施,提高生成内容的準确性和可靠性。對于生成的内容,應當按照《網際網路資訊服務深度合成管理規定》對圖檔、視訊等生成内容進行辨別。全國資訊安全标準化技術委員會也釋出了《網絡安全标準實踐指南——生成式人工智能服務内容辨別方法》,提出了在文本、圖檔、視訊、音頻中通過添加水印等方式進行内容辨別的具體要求。

生成式人工智能服務提供者應當與該服務的使用者簽訂服務協定,告知使用者不得故意擷取違反法律法規、違反社會公德或倫理道德的内容;使用者應當審慎、負責地使用生成式人工智能服務,在生成内容含有違反法律法規、違反社會公德或倫理道德的内容時,應立即通知提供者,并且不應将此生成内容對外傳播;對于法律、醫療等對内容準确性有較高要求的領域,還需要向使用者重點提示風險。

三、開源負責任的人工智能許可證

歐洲《人工智能法案》将人工智能定義為以一或多種特定的方式和路徑,依據由人類定義的一組目标,生成如内容、預測、建議或決定等會影響其互動環境所開發的軟體。這些方式和路徑包括:(a)使用包括深度學習在内的多種機器學習方法,包括監督學習、無監督學習和強化學習;(b)基于邏輯和知識的方法,包括知識表示、歸納(邏輯)程式設計、知識庫、推理和演繹引擎、(符号)推理和專家系統;(c)統計方法、貝葉斯估計、搜尋和優化方法。[9]無論怎樣的路徑和方式,人工智能本質上還是軟體。

大模型可以分為閉源大模型和開源大模型,閉源大模型比如OpenAI的GPT,盡管其早期版本也是開源的。開源大模型包括例如Meta的LLAMA2、Stability AI的diffusion、阿裡雲的通義千問、度小滿的軒轅、上海交通大學的白玉蘭等。HuggingFace上的開放模型已經多達413335個,開放資料集多達81799個。[10]在在這些模型中,Apache2.0是被采用最多的開源許可證,其次是MIT,然後是OpenRAIL(Open Responsible Artificial Intelligence License)。此外還有CC、GPL、LGPL、AGPL、BSD等常見的傳統的許可證類型。類似的,Huggingface上的資料集(Datasets)采用最多的是MIT、Apache 2.0、OpenRAIL,以及其他許可證。OpenRAIL 的靈感就是來源于開源運動,希望能夠将知識共享的價值同樣傳播于人工智能領域。生成式人工智能的發展也給開源軟體帶來了新問題。

基于開源軟體的源代碼生成的源代碼的版權

關于大模型使用已有作品進行訓練是否構成侵權,以及大模型生成物是否可以享有版權,由誰享有版權的問題,已經有實際的司法案例發生。例如,2023年10月,美國加利福尼亞州北區地方法院在SARAH ANDERSEN 等訴SAL案中認為被告DA公司的DreamUp軟體依賴于數十億張圖像的洞察和插值以及使用者的訓示來制作的新作品具有不同目的和不同的特征。[11]針對合理使用,美國版權法采取“四要素分析法”,即根據以下四個因素判斷是否構成合理使用進而不構成侵權:(1)使用的目的和性質,即是否在本質上是商業性的使用還是非營利的教育目的;(2)被使用作品的性質;即作品是具有高度獨創性的作品還是包含大量共有領域的材料;(3)相對于作品整體,被使用部分的數量和重要性,即被使用部分占原作的比例和重要程度;以及(4)對作品的潛在市場或價值産生的影響,即會否影響原作及演繹作品的市場銷售。由此可見,盡管還沒有最終的生效判決,美國加利福尼亞州北區地方法院的表述是可能構成合理使用進而不構成侵權的重要信号。

2023年12月27日紐約時報針對WR和OpenAI的提起的訴訟成為此類訴訟中的新案例。紐約時報送出的訴訟材料顯示由ChatGPT支援的Microsoft搜尋功能Browse With Bing幾乎逐字複制了《紐約時報》産品評論網站Wirecutter的結果,然而,Bing的文本結果并未連結到 Wirecutter的文章,而且他們還删除了Wirecutter用于根據其推薦從銷售中産生傭金的文本中的推薦連結。除了認為構成知識産權侵權,紐約時報還擔心讀者會對聊天機器人的回應感到滿意,進而不再通路紐約時報的網站,進而減少可轉化為廣告和訂閱收入的網絡流量。[12]盡管還沒有看到WR和OpenAI的答辯狀,但是可以預期其一定會提出合理使用抗辯。這些案件中的合理使用是否能夠抗辯成功,尚需拭目以待。大陸的著作權法也規定了合理使用的例外,但是并沒有類似于美國版權法下的非表達性使用或者是變革性使用構成例外的具體規定。在針對谷歌數字圖書館的案件中,大陸法院認定谷歌對全書進行掃描的行構成侵權,這與美國法院的判決是完全相反的。

紐約時報案件中除了合理使用問題之外,還有一個類似于大陸法律中的不正當競争問題,也就是說,即使合理使用不構成版權侵權,但是由于聊天機器人的存在而使得讀者不再通路紐約時報網站進而使其失去了轉化為收入的網路流量,可能會構成不正當競争。大陸法院已經在多起涉及音視訊、大資料等的案件中認定雖然沒有構成侵害著作權,但是構成不正當競争的案例。

軟體也是版權法保護的作品,在軟體領域也存在類似的情形。2021年6月,GitHub和OpenAI釋出了Copilot,可以“通過使用人工智能提供或填充代碼塊來幫助軟體編碼人員”。2021年8月,OpenAI又釋出了 Codex,“可将自然語言轉換為代碼并內建到Copilot中”。GitHub使用者每月支付10美元或每年100美元才能通路Copilot。Codex和Copilot接受了“數十億行”公開可用代碼的訓練,包括來自公共 GitHub存儲庫的代碼,訴訟由此而起。2023年5月11日,美國加利福尼亞州北區地方法院針對J. DOE 1等訴GitHub等案做出了部分允許并部分拒絕駁回動議的裁定。該案的被告包括GitHub、WR、OpenAI等。

原告指控,盡管公共GitHub存儲庫中的大部分代碼都受到限制其使用的開源許可證的限制,但Codex和Copilot的程式設計實作方式并沒有遵守開源許可證對歸屬、版權聲明和許可條款的法律要求。Copilot将訓練資料中使用的許可代碼複制為輸出,但缺少或錯誤地提供了歸屬、版權聲明和許可條款。這違反了數萬甚至可能是數百萬軟體開發人員所授予的開源許可。

針對該指控,法院認為盡管原告不是其所主張的具體代碼的版權人而不能主張損害賠償,但是考慮到投訴的事實是真實的,并解釋所有對原告有利的推論,法院可以合理地推斷,如果原告的代碼被複制為輸出,那麼它将以違反開源許可證的方式複制,如果其面臨現實的侵權風險,仍然有權利主張禁令救濟。[13]

本案中涉及到當使用開源軟體的代碼對大模型進行訓練時,對于生成的源代碼如何遵從開源許可證的問題。筆者認為,該問題蘊含的前提是生成代碼就是已經公開的代碼,輸出生成代碼屬于分發代碼。但是根據大模型的工作原理,在訓練時對代碼的拷貝未必屬于對外分發代碼,而生成代碼是基于經訓練獲得的權重、參數等而生成,未必屬于是對原代碼的直接拷貝與資訊傳播,是以未必屬于版權法上的“分發”。該案仍然在審理中,最後的判決結果還不得而知,希望本案的律師能夠在案件審理中同樣注意到這樣的問題以便進行有效的抗辯。

資料、參數、權重的開源許可

大模型不僅涉及軟體代碼,而且還涉及資料、參數、權重等元素,是以大模型的開源與傳統的開源并不完全相同。現有的開源許可證也主要涵蓋源代碼和二進制代碼,并不涵蓋模型或資料等人工智能工件的許可。是以,除了與傳統開源軟體同樣的法律問題之外,[14]開源大模型還面臨特有的法律問題。

考慮到大模型與傳統軟體的差別,RAIL許可證分為針對資料(Data)、應用程式(Application)、模型(Model)、源代碼(Source)的不同的許可證。OpenRAIL是RAIL的一個子類。以BigScience BLOOM RAIL1.0為例,[15]這是第一個OpenRAIL-M即用于模型的許可證。

該許可證對于資料、模型、衍生模型、補充材料分别進行了定義,其中:

“資料”是指從與模型一起使用的BigScience語料庫中提取的文本集合,包括用于訓練、預訓練或以其他方式評估模型的文本,BigScience語料庫是BigScience網站上記錄的現有語言資料源的集合;

“模型”是指任何附帶的基于機器學習的元件(包括檢查點Checkpoint),由學習權重、參數(包括優化器狀态)組成,對應于補充材料中展現的BigScience BLOOM模型架構,這些元件已經全部或部分地使用補充材料在資料上被訓練或微調;

“模型的衍生品”是指對模型的所有修改、基于模型的作品、或通過将模型的權重模式、參數、激活或輸出傳輸到其他模型而建立或初始化的任何其他模型,以便使其他模型的性能與模型類似,包括但不限于需要使用中間資料表示的蒸餾方法或基于模型生成合成資料的方法來訓練其他模型;

“補充材料”是指用于定義、運作、加載、基準測試或評估模型、以及用于準備教育訓練或評估資料的随附源代碼和腳本,包括任何附帶的文檔、教程、示例等。

該許可證針對模型、補充材料、衍生模型授予版權許可,對模型和補充材料授予專利許可,許可條款和Apache2.0極為類似。

木蘭-啟智模型許可證(以下簡稱“木蘭啟智許可證”)也是專門設計用于人工智能領域開源的模型及其相關代碼,在對現有主流開源協定全面分析的基礎上,共同起草、修訂并釋出。[16]

木蘭啟智許可證定義的資料資源是指基于模型在訓練過程中使用到的資料資源,包括但不限于資料集提供方提供的非開源資料集、開放資料集資源等。資料資源可以是文字、圖檔、電子表格、檔案等各種形式的内容集合;其定義的模型是指一種基于深度學習等技術的機器學習的元件(或檢查點Checkpoint檔案),包括權重、參數(包括優化器狀态)以及模型結構等内容;其定義的補充材料是指随模型附帶的部署代碼、腳本和描述檔案等,用于定義、運作、加載、基準測試或評估模型,并用于準備用于訓練或評估的資料(如果有),包括任何随附的文檔、教程、示例等(如果有)。木蘭啟智模型的授權也是包括對模型以及補充材料的版權許可,以及對于模型、衍生模型(未定義)、補充材料的專利權許可。

和傳統軟體許可證相比,這裡的“補充材料”可以認為包括了軟體代碼,其表達可以被著作權保護而思想可以被專利權覆寫;而“模型”則由權重和參數組成,雖然以版權和專利權進行許可,但是從法律屬性上是否屬于受版權保護的作品以及是否屬于專利法上的發明創造?即便是考慮到可以對資料享有相應的權益,由于資料可能包括來自于第三方的資料,授權要不要經過包括第三方在内的“三重授權”?這些問題至少在中國的法律架構下都是值得商榷的。

對于用于訓練、預訓練或者微調模型的資料,BLOOM許可證特别說明不授予關于資料的許可,通過這種方式避開了這個目前看來棘手的問題。木蘭啟智模型并未明确說明,從知識産權的一般法理,通常情況下如果沒有明示就是沒有授權。

在技術上,正如開源軟體倡議組織OSI所指出,大語言模型打破了資料和軟體之間的界限;但是法律對于軟體的保護卻未必就能原封不動地應用于資料。

軟體的表達受著作權法保護,軟體方法可以獲得專利權啊,但是對于資料,大陸《民法典》并沒有明确規定的權利,隻是規定了法律對資料、網絡虛拟财産的保護有規定的,依照其規定。《資料安全法》規定國家保護個人、組織與資料有關的權益。是以,目前大陸的法律并沒有明确規定的“資料權”,隻有規定“與資料有關的權益”。《關于建構資料基礎制度更好發揮資料要素作用的意見》提出了要建立保障權益、合規使用的資料産權制度的目标。

在司法案例中對于大資料采用不同的司法保護路徑。TB公司與安徽MJ公司不正當競争糾紛案是全國首例資料産品糾紛案,也是首例涉資料資源開發應用正當性及資料權屬判定的新類型不正當競争案件。法院首次通過司法判例初步厘清了各相關主體資料權益的權利邊界,同時賦予資料産品開發者享有“競争性财産權益”,确認其可以此為權利基礎獲得反不正當競争法的保護。

在杭州某科技公司與汪某商業秘密糾紛案中,差別于以往以反法原則性條款保護資料的角度,積極探索了資料作為商業秘密保護的司法審查标準,并确立了以商業秘密路徑保護直播行業資料類經營資訊的審查重點和認定思路。

在北京WBSJ科技公司與上海LJ資訊技術有限公司、廈門市BKFJ網絡科技有限公司、浙江TB網絡有限公司不正當競争糾紛案中,在資料成為第五大生産要素、資料保護立法尚不完備的背景下,法院以競争法為路徑對資料權益保護所做的一次有益探索,厘清了以技術手段擷取及使用資料行為的正當性邊界,回應了涉資料案件中對個人資訊保護的關切。

從這些案例可以看出,目前在司法實踐中,對于資料通常适用反不正當競争法一般性條款或者商業秘密進行保護,其中采用反不正當競争法進行保護的方式更為主流。無論采用何種方式,授予版權許可以及專利權許可可能都是不足以擁有充分的使用或實施的權利。

表1 資料典型案件彙總

趙雲虎等:深入開源大模型的軟體、資料及參數許可問題

而對于構成模型的權重和參數授予版權或者專利權許可也存在着相似的問題。首先,權重和參數是不是屬于受版權保護的作品,是不是受專利權保護的發明創造都尚待商榷。例如,這些權重和參數是不是會被認為是機器自動生成的結果而不受版權或專利權保護?這些權重和參數是不是不屬于技術方案而不可能成為專利?對于權重和參數是不是可以享有和訓練資料一樣類似的權益?

總之,以BLOOM為例,筆者認為其針對模型(權重和參數)和附加材料(源代碼和腳本)授予版權以及專利權可能不足以讓接收方擁有足夠的利用模型的權利,可以在知識産權條款下再增加一條授予其他權利或權益許可的條款。例如,考慮到利用權重和參數時的具體行為方式與版權作品更為相近,條款可以是:

“其他權利及權益的授予。根據本許可的條款和條件,每個貢獻者特此授予您永久的、全球性的、非排他性的、免費的、免版稅的、不可撤銷的充分且必要的其他權利和權益的許可,以複制、準備、公開展示、公開表演、再許可和分發補充材料、模型和模型的衍生物。”

負責任人工智能許可中的道德條款

具有強大人工智能的大模型的發展已經或者正在給人類帶來風險和挑戰,如果這個大模型又是人人都可以通過開源方式獲得的,例如通過大模型的超強能力獲得生化武器的絕密方法、制造危害極大的網絡攻擊等,這豈不是雪上加霜、火上澆油?

通常認為,通過開源方式能夠降低AI的使用門檻,加速新技術的推廣及創新,有利于降低研發成本和應用效率并加速AI技術的成熟,有利于優化技術發展路線以促進形成良好的生态,有利于核心技術共享以打破技術壟斷以實作AI人才、應用、創業、基金等創新要素集聚。[17]但是這些好處似乎都不足以抵消開源帶來的風險乘數效應。

是以,開源隻是OpenRAIL的一半,它的另一半是負責任。為了減輕共享人工智能技術造成的危害風險,負責任的具體展現就是對于人工智能技術的授權許可增加了限制:禁止/限制被許可人某些使用行為,并且要求下遊使用(包括分發)至少包括那些相同的行為使用限制。

再以BigScience BLOOM RAIL1.0許可證為例,其在序言中指出了對于大語言模型以及廣泛的人工智能的開發和使用的擔憂,并且希望為大型語言模型和未來的自然語言處理(Natural Language Processing, NLP)技術實作負責任的開放。

是以,許可證對于模型及其衍生品的使用進行了限制,包括不得進行違法活動、不得剝削或傷害未成年人、不得生成或傳播可證明的虛假資訊以傷害他人、不得生成或傳播可用于傷害個人的個人身份資訊、不得否認該文本是機器生成的、不得诽謗、貶低或以其他方式騷擾他人、不得冒充或試圖冒充他人、不得進行對個人的合法權利産生不利影響的完全自動化決策、不得歧視、不得歪曲、不得提供醫療建議和醫療結果解釋、不得生成或傳播用于司法、執法、移民或庇護程式的資訊等等。

對于這樣的限制條款,筆者認為可以對以下問題進行進一步的思考:

首先是絕大多數的這種限制可能并沒有實際的意義,難道沒有這些條款,就可以使用大模型違反法律、侵害兒童、诽謗、騷擾麼?答案顯然不是。

其次,對具體的行為是否落入被限制的範圍進行裁判的準則應當是法律,還是許可方的判斷,還是釋出許可證方的判斷?

如果是适用的法律,那麼應當是哪個司法轄區的法律?如果不同司法轄區之間的法律有沖突怎麼辦,例如中國對使用自動刮痧機的看法和美國對使用刮痧機的看法就可能不一樣。

如果是許可方或者許可證釋出方來判斷,那麼他們是否有這樣的權利,這樣的私法能否替代公法,尤其是涉及到作為基本權利的人身權、人格權的時候。

當涉及到衆多的作為許可方的貢獻者時,不同貢獻者之間的判斷相沖突怎麼辦?如果不同的判斷又正好是無法區分的組成部分的貢獻者怎麼辦?需要把一個大模型劈成兩半來用麼?

如果這些問題不能解決,這些限制性的條款在更大程度上隻可能是宣示性條款而很難産生實際的法律效果。是以,凱撒是否能夠解決上帝的問題需要進一步的思考和實踐。面對劃時代的變革,也許在開源社群中能夠形成更新的更高階的治理模式。

總之,面對強悍發展且洶湧而來的以大語言模型為代表的通用人工智能,自由開源運動也分叉了,一方面繼承知識共享的優良傳統,另一方面響應新時代的可信号召,開拓出了開源可信的道路以積極應對變化。就在看似GPT遙遙領先之時,Google又推出了Gemini号稱在能力上壓倒GPT,而根據Huggingface最新釋出的Open LLM Leaderboard,阿裡雲的Qwen/Qwen-72B預訓練模型技壓群芳位列排行榜首位,[18]人工智能的競争緊鑼密鼓。對于開源我們仍然滿懷期待,就像PC時代的Linux,移動終端時代的Android,人類期待AI時代的【待定】。

特别聲明:

大成律師事務所嚴格遵守對客戶的資訊保護義務,本篇所涉客戶項目内容均取自公開資訊或取得客戶同意。全文内容、觀點僅供參考,不代表大成律師事務所任何立場,亦不應當被視為出具任何形式的法律意見或建議。如需轉載或引用該文章的任何内容,請私信溝通授權事宜,并于轉載時在文章開頭處注明來源。未經授權,不得轉載或使用該等文章中的任何内容。

趙雲虎等:深入開源大模型的軟體、資料及參數許可問題