天天看點

朱恬骅等:人工智能開源,離公衆有多遠?

作者:上觀新聞
朱恬骅等:人工智能開源,離公衆有多遠?

2021年,上海,一次青少年人工智能與程式設計實踐活動。澎湃新聞記者 周平浪 圖

“開源”,總有一天會到來?

在剛開幕的2023世界人工智能大會上,2018年圖靈獎得主、Meta AI基礎人工智能研究院團隊首席人工智能科學家楊立昆(Yann LeCun)遠端連線,參與了圓桌對談。對話中,他認為:嚴格監管人工智能并不能使人工智能平台安全、良善、實用,而“長遠來看”,達到這一目的的唯一方法就是開源。

“開源”展現了對人工智能技術細節加以公開的訴求。事實上,2022年,國家網信辦等四機關聯合公布了《網際網路資訊服務算法推薦管理規定》,标志中國成為最早在法律層面上要求公開人工智能技術細節的國家之一。《規定》要求,相關服務提供者公開算法推薦服務相關規則,并設立了網際網路資訊服務算法備案系統,向公衆公示。

但在首批公示的30個“算法”中,一般公衆并不能如預期般從可浏覽的資訊裡找到關于資料如何得到處理的具體說明(如不同類型資料的評估權重排序),而隻有頗為籠統的資訊收集類項與最終結果的描述。這些内容在依照相關法規訂立的“隐私條款”和軟體的使用者界面上,本來就有明确說明并直覺顯現。從算法作為确定的資料處理方式這一基本意義來看,這些公示的描述,離“算法”可謂南轅北轍。

與公示相比,“開源”的要求無疑更進一步。2023年4月,推特公司聲稱,在網際網路上公開了其推薦算法的代碼。馬斯克強調,這是為了“提升平台的透明度、增強使用者、客戶和媒體的信任”。不過,研究人員細加研判後指出,其中的代碼并不詳盡,尤其是省略了至關重要的底層模型。推特公司回應稱,這是為了“確定使用者的安全和隐私得到保護”,盡管描述底層模型結構的代碼并不會包含任何使用者資料。

另一方面,正如微軟沒有開源其語音合成模型VALL-E,OpenAI沒有開源ChatGPT一樣,楊立昆作為一名主攻視覺的科學家,同樣沒有公開其最新力作“SAM”(Segment Anything Model,意即“分割一切”)的訓練方法。或許,楊立昆所使用的“長遠來看”一語,正是在暗示“開源”之路的遙遙無期。

談論“開源”無法離開現實語境

作為一個“極客範”的術語,“開源”一詞正在不同領域流行起來。而塑造這一潮流的中堅人物,仍然當屬Richard Stallman和他的自由軟體基金會。圍繞二者的争議不可謂不多,但其在倡導開源運動上的貢獻,仍然是不可否定的。

但當我們将目光稍加放寬,從計算機技術的發展史看,不難發現,“開源”本是天經地義之事。在計算機系統硬體架構“百家争鳴”的階段,各個機構所擁有的計算機系統,都存在不同程度的差别。為使程式能夠在不同系統上運作,源代碼就成為傳遞軟體産品的必經之路:隻有提供了源代碼,身為專家的使用者才能解決他們在自己系統上所遇到的問題。

但自上世紀70年代之後,硬體的标準化、個人電腦的普及,使得計算機産業發生了巨大變化。使用者不再是技術專家,而軟體産品則成為一門蓬勃興旺的生意。巨量的利益空間需要法律的庇護。1974-1981年間,美國确立了一系列與軟體相關的法律,确認了軟體作品受著作權保護,同時規定了适用專利的情形。在此背景下,1983年,IBM提出了“僅目标代碼”(即隻提供在計算機上可運作的代碼,而非源代碼)的傳遞政策。自此,幾乎所有軟體公司都不再在傳遞軟體産品時提供源代碼。

朱恬骅等:人工智能開源,離公衆有多遠?

截圖自Word的“關于”視窗

“開源”運動的展開,某種程度上是對這一變化的抗議。同樣在1983年,Stallman開始專職從事自由軟體基金會的工作。基于保護軟體著作權的法律條文,自由軟體基金會創造性地提出了GPL許可協定,意圖使源代碼重新成為軟體傳遞中不可或缺的一部分。

如此看來,“開源”是在特定的技術和法律語境中産生的,并和這一語境息息相關。一旦脫離這段曆史事實,将“開源”直接移置到其他領域,其結果或者是平凡無奇的,或者将意義不明。

同時,僅僅倡導“開源”的理想,也不能自動導向問題的解決。實際上,為使“開源”落地生根,開源項目普遍需要良好的組織管理。而如何維持一個團隊的可持續運作,向來也是一項困難重重的事業。一些過去作為大公司“恩惠”的開源項目,因為利益的需求而轉為閉源,往往帶來巨大的連鎖反應。

人工智能模型面臨類似的境況。它們通常隻是軟體的一部分,模型的開源并沒有強力的要求,并且可以說,這一美好理想與研發機構的利益從根本上相背離。很難想象,僅僅依靠一種“向善”的願望,就能驅動追逐回報的研發企業主動選擇“開源”——或許,能使之走上開源之路的,恰恰是楊立昆所預先排除的監管。

封閉的代碼,公開的思想

在楊立昆描繪人工智能“開源”前景的同時,也有批評意見認為,開源并不能真正解決人工智能技術所面臨的信任危機。打一個或有失恰當的比方:放射性的危險并不能因為它“開源”就會消失,如果一個社會中每個人都能使用放射性,這種危險隻會放大。這個比方并非天方夜譚——20世紀50年代,X射線的使用範圍從患者自己治療頭痛到用來為顧客挑選合适的鞋子。X射線在日常生活中的不當應用帶來了廣泛惡果,方才促使人們采取防護措施并制定操作規範。

楊立昆把“開源”作為一個解決方式加以提出,更加需要關注的是它背後所要回答的問題。“開源”之是以會有意義,是因為它提供了一種表達方式,為人們在建構某種“向善”的人工智能模型過程中,提供了對于實際發生的技術過程的洞見。

但是,為了擷取這種洞見,源代碼或許并非不可替代。事實上,“開源”所強調的源代碼,本身隻是一種傳達思想的手段。另一方面,對軟體代碼的保護并不延及表達方式(程式代碼)之上的思想、處理過程、操作方法或數學概念。

近年來,在一些關于“平台經濟”的研究中,出現了運用算法描述解釋個體感覺與系統行為的嘗試,有理有據地具體闡述了平台方的價值訴求,是如何一步步嵌入程式的自動控制之中的。這為了解人工智能技術在社會中的作用,提供了可取的途徑。對于公開算法細節的呼籲,則讓我們看到,推廣此類基于設計思想的批評,仍然是有所希望的。

要真正達到類似層面對人工智能技術的了解,人們需要的既不是“遺漏”關鍵内容的大量代碼,也不是籠統到隻涉及輸入與輸出兩端的“描述”。相比出于種種原因而保持封閉的代碼,思想的公開,實際是更為重要的:對技術細節的了解主要不是面向代碼,而不外乎是“過程、方法和概念”。

當然,這裡所說的了解,并沒有涉及更深層面人工智能技術本身的可解釋性問題。不過,從公衆利益的角度,這一位于技術深處的可解釋性,或許也隻是一種障眼法:畢竟,人們無需知道開槍時發生的一切實體過程,就能了解槍擊的危險,而槍支本身的設計也不構成豁免的理由。同樣,如果人工智能模型給他人帶來了損害,關鍵仍然在于如何追究那些決定了它如何設計的人。如此,人工智能模型、算法、代碼等層出不窮的技術要素,才不至于成為一種又一種制造資訊壁壘、逃避應負責任的障眼法,而楊立昆借“開源”描繪的未來,才有可能真的到來。

(朱恬骅,上海社會科學院文學研究所助理研究員;

陳涵洋,獨立軟體開發者)

繼續閱讀