豐色 Alex 發自 凹非寺
量子位 | 公衆号 QbitAI
距離正式釋出才剛4個月,GitHub Copilot即将迎來一場集體訴訟!
發起人是一位幹了20多年的程式員,來自美國的馬修·巴特裡克(Matthew Butterick)。
他早在今年6月就“捶”了Copilot的開源許可證問題。
現在,馬修終于決定邁出實質性的一步,在迅速激活自己的律師資格證後,和其他幾位律師一起合作“聲讨”Copilot。
(這位老哥身兼數職,除了這倆身份還是設計師)
他在一篇專門的個人部落格中細究了Copilot涉及的兩大法律問題,并指出Copilot不僅是“偷代碼”那麼簡單,還會對整個開源社群造成諸多不良影響:
或許你不介意它未經許可就用了你的開源代碼,但如果它也将由此抹去你和開源社群之間的聯結呢?
(若不明白這句話具體何義,請接着往下看~)
目前,這篇部落格已在推特上得到了不少關注和轉發。
相關消息還引爆了Hacker News社群。
Copilot有哪些問題?
先給不熟悉的朋友簡單介紹一下Copilot。
它是内嵌在Visual Studio等IDE中的一個代碼自動補全工具,支援多種主流程式設計語言。
根據已寫的内容,它可以給出後續代碼建議——不過和我們見到的普通自動補全功能不同,它可以生成諸如整個函數體這樣的大段代碼。
今年6月,Copilot在經過一年的免費試用後正式轉為付費工具,定價為10美元/月(人民币約67元),年付則是100美元/年(人民币約669元)。
它的到來,讓很多人都感歎入門級别的程式員沒有用了。
不過問題也随之而來。
Copilot強大的編碼能力來自于一個叫做Codex的AI,由OpenAI開發并授權給微軟。
Codex是怎麼訓練的呢?
盡管微軟含糊其辭,表示它的訓練源是數億行公共代碼;但Copilot的研究員還是道出了實情,都是出自于Github上的公共倉庫。
好了,馬修要狀告Copilot的第一個問題,也就跟Copilot的訓練過程有關。
馬修表示,微軟和OpenAI要想用Github上的開源倉庫進行訓練,要麼遵守它們的開源許可證協定,要麼「合理使用」。
如果是前者,微軟和OpenAI應該至少釋出大量的attribution來獲得許可,但是大家沒有看到。
他們将自己歸到了後者,如GitHub前CEO Nat Friedman在Copilot的技術預覽會所說:
在公開資料上訓練(機器學習)系統屬于合理使用。
不過,軟體自由保護組織(Software Freedom Conservancy,SFC)不同意這一“空口無憑”的說辭,要求他們提供法律依據來支撐自己的立場。
但是遲遲沒有得到答案。
馬修表示,這就是因為微軟和OpenAI給不出來啊。
第二個可能違法的問題,則是關于Copilot的使用。
馬修指出,微軟在面對Copilot使用者時對自己進行了免責。
微軟将Copilot給的代碼稱為“建議”,稱自己不從中主張任何權力,也不對它生成的代碼作任何關于正确性、安全性和産權相關的保證。
一旦你接受了Copilot給出的“建議”,如果出了問題都由你自己負責。
乍一聽還好,可是不止一人發現Copilot一字不差地把原作者的代碼當成“建議”丢給使用者,連注釋都一并奉送的那種。
這要是直接采納可就要涉及許可問題了,可是Copilot根本不會注明這些代碼的來源,又該讓使用者如何遵守協定呢?
以上,便是馬修要控訴的兩大問題。
除此之外,他還表達了對開源社群文化的擔憂。
他認為,Copilot的所作所為直接在程式員和開源社群之間砌起了一堵牆,讓程式員隻管任意享用現成代碼,遠離源代碼本身,失去與源項目的問題讨論、bug跟蹤等互動和貢獻。
而這對開源社群将是一個永久的、痛苦的損失。
另一邊,對于“無故”奉獻了訓練代碼的開源作者來說,他們俨然被當作了資源的生産者。
馬修将這類人比喻成奶牛,由于Copilot對他們的項目沒有任何貢獻,他表示這奶牛是隻出奶卻不被提供食物和住所的奶牛。
是以,他也将Copilot的本質,比喻為寄生蟲。
此外,你可能聽聞有人出于憤怒将自己的代碼搬出了GitHub。
馬修告訴大家:其實微軟通過聲稱訓練AI是合理使用,正在搜尋網上任何可以使用的公共代碼進行訓練。
可以說是“逃無可逃”。
于是在避免傷害變得無法彌補之前,馬修聲稱必須弄清Copilot的合法性。
他呼籲以下幾類人群加入他們的調查和訴訟隊列:
當然在部落格最後,馬修還是特别聲明:
我本身并不反對AI輔助程式設計工具。
他提到,Copilot本可以也很容易變得“友好”,比如讓作者自願參與,或者有償征用。
質疑聲從未停止
這次,看到有人帶頭牽起對Copilot的集體訴訟,許多程式員以及計算機相關領域的大佬們紛紛表示:
“附議!”
消息出來之後,德克薩斯A&M大學的一位計算機科學教授,并兼任ACM、IEEE和SIAM會員的Tim Davis順勢發推分享了自己的“遭遇”:
Copilot沒有拿到LGPL許可證(函數庫公共許可證),就擅自發出了大段我的版權代碼。
并附上了證據:
△ 左為Copilot給出的代碼,右為他自己的代碼
有網友表示:
Copilot的這種行為屬于是完全不尊重開源社群。
還有網友犀利地指出,在模型訓練過程中,所謂的AI“學習”,本身就是一種被勉強挪用過來的概念:
因為據現有法律,人類閱覽受版權保護的資料用于自己學習,是合法的;然後各大科技公司說,AI也會“學習”,是以AI也沒有違反版權法。
但是AI并不像人類那樣自主(盡管很多公司稱AI很自主),這些模型其實都被背後的組織或公司等操控着,是以用“學習”來描述AI做的事并不太準确。
而且真人其實也經常出現會違反版權法等問題……
是以,要定義AI在“學習”過程中到底是否“抄襲”了,以及存在具體哪種侵權行為,是一個非常棘手的問題,還需要更多的讨論和明确規定。
誠然,Copilot從去年的内測階段起,其出色的程式設計能力确實驚豔了不少人。
而且這個AI後來還學會了“反向輸出”:
用“人話”來講解某一段代碼有什麼用,幫助螢幕前的人看懂代碼。
但另一方面,不隻現在,其實從Copilot剛出來開始,一直就有衆多質疑和反對的聲音,核心都不外乎馬修在前文舉證的那兩點。(即這個AI的訓練和使用)
也正如前文所說,除了個人,還有SFC等組織也在聲讨Copilot。
而在今年6月份,GitHub宣布Copilot結束内測,開啟收費模式後,更是将大家的不滿情緒拔到了最高點。
除了免費引流再收費的商業模式讓人反感外,大家一緻認為這的AI用開發者寫的代碼來訓練,不應該回過頭向再開發者收費:
每一個曾向GitHub送出過代碼的人都應免費使用!
于是,Copilot正式版立刻遭到了抵制——
SFC不僅自己要退出GitHub,而且還号召其他軟體開發商同樣照做。
在VS Code插件市場上,Copilot原本一直是5星好評,也一下子湧入了不少一星差評。
One More Thing
本次事件還讓人把目光延伸到了AI繪畫領域,有網友認為:
這種工具同樣也涉及侵權等問題。
最後,對于“大夥兒現在聯合把Copilot告上法庭”這件事,你覺得赢的勝算大嗎?
參考連結:
[1]https://githubcopilotinvestigation.com/
[2]https://twitter.com/DocSparse/status/1581461734665367554
[3]https://news.ycombinator.com/item?id=33240341