天天看點

Linux 一社群封殺大模型代碼!“shit”7 次出現在小作文

作者:InfoQ

作者 | 褚杏娟、核子可樂

Gentoo Linux 發行版已經正式叫停由 AI 生成及輔助編寫的代碼貢獻。

4 月 14 日,Gentoo 理事會一緻通過了一項新的 AI 政策:明令禁止向 Gentoo 提供任何借助 AI 自然語言處理工具建立的内容。如果此類工具不涉及版權、道德和品質問題,則可重新讨論這一動議。

這項政策限制了 Gentoo 代碼貢獻與官方 Gentoo 項目,但并不禁止為 AI 相關軟體或上遊借助 AI 工具開發的軟體添加軟體包。

Gentoo Linux 是一種 Linux 作業系統,基于 Portage 包管理系統,而擁有幾乎無限制的适應性特性,被官方稱作元發行版(meta-distribution)。Gentoo 理事會是專門管理該 Linux 發行版的民選委員會。

禁止 AI 代碼貢獻最初是由 Gentoo 理事會成員 Michał Górny 于 2 月 27 日提出的建議。他在郵件裡表示:

鑒于近來“AI”泡沫的迅速蔓延,Gentoo Linux 項目組也開始認真考慮由此帶來的相關問題。在我看來,目前唯一合理的行動方針就是徹底禁止由“AI”創作的項目貢獻。具體來講,應明确禁止人們使用 ChatGPT、Bard、GitHub Copilot 等建立 Gentoo Linux 所使用的 ebuild、代碼、文檔、消息及錯誤報告等。

需要澄清一點,這裡讨論的僅為 Gentoo Linux 項目的“原創”内容;對于上遊項目使用 AI 技術的行為,我們無法幹涉。

理由如下:

1. 版權問題。目前,生成内容的版權歸屬仍不夠明确。而且可以肯定的是,幾乎所有大語言模型都接受過大量版權保護素材的訓練,而目前在市面上具有知名度的各“AI”廠商顯然并不關心版權侵犯問題。而這些 AI 工具的生成結果,很可能根本無法為我們所合法使用。

2. 品質問題。大語言模型特别擅長輸出看似合理的廢話。我認為隻要足夠小心,大模型确實能夠提供有效幫助,但也不可能指望 Gentoo Linux 項目的所有貢獻者都具備敏銳的風險意識。

3. 道德問題。如前所述,“AI”廠商既不關心版權,也不關心人的權益。AI 泡沫正在造成巨大的能源浪費,這又反過來成為裁員和進一步剝削 IT 從業者的借口。AI 技術正在推動網際網路内容的垃圾化,如今各種垃圾郵件及欺詐内容正又以前所未有的速度湧現。

Gentoo 始終擁有自己的價值判斷,希望為那些缺少主流發行版可用的人們提供支援。我認為由“真人純手工開發”将成為 Gentoo Linux 項目的一大特色和優勢,同時也将制定适當政策以確定不會有垃圾内容(英文原文為“shit”)流入項目。

Michał Górny 還在郵件裡列出了 AI 垃圾内容示例連結,在連結的示例中,出現了很多描述錯誤:

Linux 一社群封殺大模型代碼!“shit”7 次出現在小作文

來源:https://github.com/pkgxdev/pantry/issues/5358

除了禁止送出 AI 生成的代碼之外,Górny 還希望 Gentoo 能為整個 Linux 社群做出其他獨特的貢獻。

Górny 在采訪中表示,“我認為這正好是個宣傳項目的好機會。目前很多項目都熱衷于采用 AI,而我發現 Gentoo 的很多使用者其實更欣賞傳統的軟體工程方法,就是說人要比‘生産力’更重要。”

此番禁令屬于提前防範,Gentoo 社群中并未出現由 AI 生成代碼引發的具體問題。Górny 解釋稱,“我們是在采取早期預防措施。”

AI 被全面禁止,但後續可能放開

版權無疑正成為 AI 模型領域的一個長期挑戰。這些模型大多在訓練期間使用到受版權保護的素材,就連英偉達都面臨着起訴糾紛。此外,衆所周知,AI 會生成各種無意義的文本和代碼,甚至有人觀察到其會出于“幻覺”而輸出整個軟體包。

該委員會最初于 3 月 10 日在預定的月度會議上讨論了 Górny 的禁令提議。但由于禁令的具體條款尚未确定,是以多位理事會成員希望讨論更多細節,且暫時不采取實際行動。該禁令最終在 4 月 14 日的理事會會議上頒布,會議以 6 比 0 票數通過,隻有一名成員因故缺席投票。

Górny 表示,“我的個人觀點是,我們才剛剛開始關注這個議題。等到禁令實際公布并與廣大使用者見面時,應該會有更多使用者回報供我們參考。”

Gentoo 社群還讨論了在電子郵件線程與 IRC 聊天室中剔除 AI 的潛在禁令。Górny 指出,大家一緻認為應當實施“某些限制”。随着禁令的全面生效,未來可能會有更多 Gentoo 社群成員分享自己對于 AI 技術的觀點。

當然,這項禁令的執行也将充滿挑戰,畢竟區分真人編寫的代碼與機器生成的代碼并非易事。在 Górny 看來,禁令的最大意義并不在于實際效果。

他提到,“我們的主要目标是要明确哪些行為可以接受、哪些不行不能接受,同時禮貌地要求貢獻者們尊重社群規範。”具體來講,AI 禁令主要是對現行版權保護代碼規則的延伸。

Górny 補充稱,“如果我們收到的貢獻中包含‘怪異’的錯誤,那這種錯誤似乎不可能由人為引發。我們會就此提出問題,而且恐怕也隻能做到這個程度了。”

值得一提的是,該項禁令中明确包含相關條款,規定未來政策内容可進行重新審查,這反映了部分理事會成員的前瞻性關注。董事會成員 Sam James 表示,“事情可能會在一年之間發生重大變化,當然也可能原地踏步,這個沒人能夠準确預測。”

該理事會已經預見到了未來可能出現的情況,并考慮在必要時向 AI 敞開大門,利用 Gentoo 代碼作為素材訓練相應的模型。這在理論上既能消除對版權侵犯問題的擔憂,也将帶來品質更高的代碼。

網友:明智!

“看了連結線程後,我完全同意 Gentoo 的觀點。”這是 Hacker News 上的熱門評論。有網友跟帖稱,“文章裡内容真是讓我難以置信,人們怎麼會認為自動生成的無意義描述會比根本不描述更好?”

“抛棄毫無意義的描述是非常明智的,嘗試制定某種政策來預防也是明智的。”有網友表示。人們确實已經厭倦了大模型的廢話。像 Górny 就在 2 月 27 日的原文郵件裡,7 次使用了“shit”一詞,雖然被有些網友說他有些情緒化,但也可以看出他對大模型問題的反感。

當然,也有人認為“禁止 LLM 内容”是一種錯誤的努力。“如果你想確定代碼的品質,則應該專注于確定代碼審查和合并過程更徹底,能更有效地過濾低于标準的貢獻,而不是浪費時間來嘗試執行根本無法執行的政策,這隻會給人一種虛假的信任感和安全感。”網友 Tooster 表示,這是一種合理的擔憂,但也應該是在組織層面解決的問題。

而對于大模型和版權的讨論,大多數都圍繞着“學習意味着什麼”這一核心問題。簡單來說就是:人腦記憶學習不侵犯版權,那麼算法抓取學習侵犯版權嗎?Gentoo 的禁用公告讓人們再次讨論起這個話題。

有網友認為,“公平的是,任何人都不能逐字使用複制的版權代碼,無論是通過人類記憶某些内容還是通過計算機複制它。”但禁止人類、AI 或其他智能體學習網際網路上的自由共享代碼學習,違背了開源精神。

人類通過閱讀代碼學習并不侵犯版權(通過某種方式将知識複制到人的大腦中),但通過處理從 GitHub 等公共資源抓取的代碼标記來學習的深度學習算法,卻不具有同樣的明顯性。“人腦難道是一種版權洗白機器?”網友“zdimension ”提出疑問。他認為算法抓取學習,也是一種學習行為,不應該被禁止,但他不否認這樣做的後果,“我們已經看到 GPT 民主化帶來了很多不好的結果。”

事實表明,這個問題還是無解。

反觀 Linux 作業系統的創始人、開源運動的上司者 Linus Torvalds,卻是對這個問題很樂觀。Torvalds 曾在今年 2 月份的訪談中表示,不把大型語言模型當作一種威脅,而是一種有益的工具。像審查代碼、維護子系統就是大模型可以大顯身手的一個領域,可以發現那些明顯的愚蠢錯誤。

“我們大多數人的工作方式,其實在某種程度上都是強效版的自動校正。我把它當作一個可以幫助我們做得更好的工具。”Torvalds 說道。他也不為人工智能的炒作所困擾,而是堅持自己對低層次硬體的熱情。

對于大模型幻覺和錯誤内容,Torvalds 也很樂觀,“我每天都看到沒有大型語言模型的情況下也會出現的錯誤。是以我可能不太擔心這個問題。我覺得我們自己已經做得不錯了。”想到他時不時會為社群裡送出的一些錯誤發飙,也就不難了解他的說法了。

原文連結:Linux 一社群封殺大模型代碼!“shit”7次出現在小作文,網友:此舉非常明智!_AI&大模型_褚杏娟_InfoQ精選文章