作者 | 褚杏娟、核子可樂

Gentoo Linux 發行版已經正式叫停由 AI 生成及輔助編寫的代碼貢獻。

4 月 14 日，Gentoo 理事會一緻通過了一項新的 AI 政策：明令禁止向 Gentoo 提供任何借助 AI 自然語言處理工具建立的内容。如果此類工具不涉及版權、道德和品質問題，則可重新讨論這一動議。

這項政策限制了 Gentoo 代碼貢獻與官方 Gentoo 項目，但并不禁止為 AI 相關軟體或上遊借助 AI 工具開發的軟體添加軟體包。

Gentoo Linux 是一種 Linux 作業系統，基于 Portage 包管理系統，而擁有幾乎無限制的适應性特性，被官方稱作元發行版（meta-distribution）。Gentoo 理事會是專門管理該 Linux 發行版的民選委員會。

禁止 AI 代碼貢獻最初是由 Gentoo 理事會成員 Michał Górny 于 2 月 27 日提出的建議。他在郵件裡表示：

鑒于近來“AI”泡沫的迅速蔓延，Gentoo Linux 項目組也開始認真考慮由此帶來的相關問題。在我看來，目前唯一合理的行動方針就是徹底禁止由“AI”創作的項目貢獻。具體來講，應明确禁止人們使用 ChatGPT、Bard、GitHub Copilot 等建立 Gentoo Linux 所使用的 ebuild、代碼、文檔、消息及錯誤報告等。

需要澄清一點，這裡讨論的僅為 Gentoo Linux 項目的“原創”内容；對于上遊項目使用 AI 技術的行為，我們無法幹涉。

理由如下：

1. 版權問題。目前，生成内容的版權歸屬仍不夠明确。而且可以肯定的是，幾乎所有大語言模型都接受過大量版權保護素材的訓練，而目前在市面上具有知名度的各“AI”廠商顯然并不關心版權侵犯問題。而這些 AI 工具的生成結果，很可能根本無法為我們所合法使用。

2. 品質問題。大語言模型特别擅長輸出看似合理的廢話。我認為隻要足夠小心，大模型确實能夠提供有效幫助，但也不可能指望 Gentoo Linux 項目的所有貢獻者都具備敏銳的風險意識。

3. 道德問題。如前所述，“AI”廠商既不關心版權，也不關心人的權益。AI 泡沫正在造成巨大的能源浪費，這又反過來成為裁員和進一步剝削 IT 從業者的借口。AI 技術正在推動網際網路内容的垃圾化，如今各種垃圾郵件及欺詐内容正又以前所未有的速度湧現。

Gentoo 始終擁有自己的價值判斷，希望為那些缺少主流發行版可用的人們提供支援。我認為由“真人純手工開發”将成為 Gentoo Linux 項目的一大特色和優勢，同時也将制定适當政策以確定不會有垃圾内容（英文原文為“shit”）流入項目。

Michał Górny 還在郵件裡列出了 AI 垃圾内容示例連結，在連結的示例中，出現了很多描述錯誤：

來源：https://github.com/pkgxdev/pantry/issues/5358

除了禁止送出 AI 生成的代碼之外，Górny 還希望 Gentoo 能為整個 Linux 社群做出其他獨特的貢獻。

Górny 在采訪中表示，“我認為這正好是個宣傳項目的好機會。目前很多項目都熱衷于采用 AI，而我發現 Gentoo 的很多使用者其實更欣賞傳統的軟體工程方法，就是說人要比‘生産力’更重要。”

此番禁令屬于提前防範，Gentoo 社群中并未出現由 AI 生成代碼引發的具體問題。Górny 解釋稱，“我們是在采取早期預防措施。”

AI 被全面禁止，但後續可能放開

版權無疑正成為 AI 模型領域的一個長期挑戰。這些模型大多在訓練期間使用到受版權保護的素材，就連英偉達都面臨着起訴糾紛。此外，衆所周知，AI 會生成各種無意義的文本和代碼，甚至有人觀察到其會出于“幻覺”而輸出整個軟體包。

該委員會最初于 3 月 10 日在預定的月度會議上讨論了 Górny 的禁令提議。但由于禁令的具體條款尚未确定，是以多位理事會成員希望讨論更多細節，且暫時不采取實際行動。該禁令最終在 4 月 14 日的理事會會議上頒布，會議以 6 比 0 票數通過，隻有一名成員因故缺席投票。

Górny 表示，“我的個人觀點是，我們才剛剛開始關注這個議題。等到禁令實際公布并與廣大使用者見面時，應該會有更多使用者回報供我們參考。”

Gentoo 社群還讨論了在電子郵件線程與 IRC 聊天室中剔除 AI 的潛在禁令。Górny 指出，大家一緻認為應當實施“某些限制”。随着禁令的全面生效，未來可能會有更多 Gentoo 社群成員分享自己對于 AI 技術的觀點。

當然，這項禁令的執行也将充滿挑戰，畢竟區分真人編寫的代碼與機器生成的代碼并非易事。在 Górny 看來，禁令的最大意義并不在于實際效果。

他提到，“我們的主要目标是要明确哪些行為可以接受、哪些不行不能接受，同時禮貌地要求貢獻者們尊重社群規範。”具體來講，AI 禁令主要是對現行版權保護代碼規則的延伸。

Górny 補充稱，“如果我們收到的貢獻中包含‘怪異’的錯誤，那這種錯誤似乎不可能由人為引發。我們會就此提出問題，而且恐怕也隻能做到這個程度了。”

值得一提的是，該項禁令中明确包含相關條款，規定未來政策内容可進行重新審查，這反映了部分理事會成員的前瞻性關注。董事會成員 Sam James 表示，“事情可能會在一年之間發生重大變化，當然也可能原地踏步，這個沒人能夠準确預測。”

該理事會已經預見到了未來可能出現的情況，并考慮在必要時向 AI 敞開大門，利用 Gentoo 代碼作為素材訓練相應的模型。這在理論上既能消除對版權侵犯問題的擔憂，也将帶來品質更高的代碼。

網友：明智！

“看了連結線程後，我完全同意 Gentoo 的觀點。”這是 Hacker News 上的熱門評論。有網友跟帖稱，“文章裡内容真是讓我難以置信，人們怎麼會認為自動生成的無意義描述會比根本不描述更好？”

“抛棄毫無意義的描述是非常明智的，嘗試制定某種政策來預防也是明智的。”有網友表示。人們确實已經厭倦了大模型的廢話。像 Górny 就在 2 月 27 日的原文郵件裡，7 次使用了“shit”一詞，雖然被有些網友說他有些情緒化，但也可以看出他對大模型問題的反感。

當然，也有人認為“禁止 LLM 内容”是一種錯誤的努力。“如果你想確定代碼的品質，則應該專注于確定代碼審查和合并過程更徹底，能更有效地過濾低于标準的貢獻，而不是浪費時間來嘗試執行根本無法執行的政策，這隻會給人一種虛假的信任感和安全感。”網友 Tooster 表示，這是一種合理的擔憂，但也應該是在組織層面解決的問題。

而對于大模型和版權的讨論，大多數都圍繞着“學習意味着什麼”這一核心問題。簡單來說就是：人腦記憶學習不侵犯版權，那麼算法抓取學習侵犯版權嗎？Gentoo 的禁用公告讓人們再次讨論起這個話題。

有網友認為，“公平的是，任何人都不能逐字使用複制的版權代碼，無論是通過人類記憶某些内容還是通過計算機複制它。”但禁止人類、AI 或其他智能體學習網際網路上的自由共享代碼學習，違背了開源精神。

人類通過閱讀代碼學習并不侵犯版權（通過某種方式将知識複制到人的大腦中），但通過處理從 GitHub 等公共資源抓取的代碼标記來學習的深度學習算法，卻不具有同樣的明顯性。“人腦難道是一種版權洗白機器？”網友“zdimension ”提出疑問。他認為算法抓取學習，也是一種學習行為，不應該被禁止，但他不否認這樣做的後果，“我們已經看到 GPT 民主化帶來了很多不好的結果。”

事實表明，這個問題還是無解。

反觀 Linux 作業系統的創始人、開源運動的上司者 Linus Torvalds，卻是對這個問題很樂觀。Torvalds 曾在今年 2 月份的訪談中表示，不把大型語言模型當作一種威脅，而是一種有益的工具。像審查代碼、維護子系統就是大模型可以大顯身手的一個領域，可以發現那些明顯的愚蠢錯誤。

“我們大多數人的工作方式，其實在某種程度上都是強效版的自動校正。我把它當作一個可以幫助我們做得更好的工具。”Torvalds 說道。他也不為人工智能的炒作所困擾，而是堅持自己對低層次硬體的熱情。

對于大模型幻覺和錯誤内容，Torvalds 也很樂觀，“我每天都看到沒有大型語言模型的情況下也會出現的錯誤。是以我可能不太擔心這個問題。我覺得我們自己已經做得不錯了。”想到他時不時會為社群裡送出的一些錯誤發飙，也就不難了解他的說法了。

原文連結：Linux 一社群封殺大模型代碼！“shit”7次出現在小作文，網友：此舉非常明智！_AI&大模型_褚杏娟_InfoQ精選文章

Linux 一社群封殺大模型代碼！“shit”7 次出現在小作文

AI 被全面禁止，但後續可能放開

網友：明智！

繼續閱讀

五力模型，提升個人核心能力

卷瘋了！Meta AI釋出了最強開源大模型Llama 3，提供了8B和70B版?

怎麼用AI大模型解決實際問題？

大模型時代，資料中台現在過氣了嗎？

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型

有效溝通表達的13個模型

一天吃透一條産業鍊:NO.37 AI大模型産業鍊

10款國産大模型大戰弱智吧——中文了解能力測評

最全解讀MoE混合專家模型：揭秘關鍵技術與挑戰

全面超越！開源！百度最強SOTA：基于擴散模型的3DGS！

沖刺2024“半年紅” | 六成AI企業實作盈利增長，大模型企業賺錢了？