整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
打不過就加入!
繼去年 12 月 Stack Overflow 稱 ChatGPT 生成的答案正确率非常低并決定宣布臨時封禁 ChatGPT 之後,其開始以另一種身份加入這場 AI 競賽中。
據外媒 Wired 報道,開發運作 ChatGPT 和 DeLL-E 等“病毒式” AI 工具系統可能會使得背後的公司如 OpenAI 花費數十億美元,而 StackOverflow 正計劃讓這筆費用變得更高一些,其希望對使用自己平台資料進行訓練的 AI 公司收費。
值得注意的是,現如今和 Stack Overflow 有着類似想法的公司也不在少數, 社交媒體 Twitter、新聞社群 Reddit 等也正有此意,在各方「畫地為牢」之際,誰将為大模型的訓練買單也成為行業内關注的焦點。
大模型背後的大資料從何而來?
衆所周知,ChatGPT、GPT-4、Google Bard、Bing Chat、LLaMA 等 AI 模型都需要基于大量資料集進行訓練。
然而,資料從何而來,這些模型背後的開發商 OpenAI、Google、Meta 雖然從未正面解釋過這一問題,但是據《華盛頓郵報》的一項調查顯示,其中大部分是從網際網路上抓取的。
為了驗證這一點,《華盛頓郵報》分析了 Google 的 C4 資料集,其中包含了 1500 萬個網站内容的快照,它也被用來訓練 Google T5、Facebook 的 LLaMA 模型。
通過與艾倫人工智能研究所的研究人員合作,最終他們發現此資料集主要來自新聞、娛樂、軟體開發、醫藥和内容創作等多個行業的網站,覆寫收集來自世界各地釋出的專利文本的 patents.google.com、維基百科、僅供訂閱的數字圖書館(scribd.com)、Medium,以及 Stack Overflow、Reddit 等平台也在其中。
來自這些網站的資料顯然對 AI 模型公司而言非常具有價值,他們可以通過網際網路成千上萬的資訊源,根據參數訓練他們的大型語言模型(LLM),進而成功進行自然語言處理(NLP)。
Stack Overflow 反向抵制 AI 模型
Stack Overflow 作為全球知名的編碼論壇,為開發者提供協作與交流的環境,也是程式員讨論編碼問題的主要聚集地。目前,市面上很多的 AIGC 都支援輔助編碼、能夠在了解使用者提出的編碼問題基礎上提供生成式代碼、甚至也可以捕捉 Bug 以及 Debug,而大模型之是以擁有這些能力,也有大量相關編碼問題與資料集的支撐。
不過,随着 ChatGPT 等産品的到來,對老牌 Stack Overflow 這樣的平台帶來了巨大的沖擊。在今年早些時候,也有媒體報道,Stack Overflow 慘遭程式員抛棄,其網站通路量與搜尋量急劇下降。
根據營銷平台 Semrush 的流量監測工具顯示,近一年來,Stack Overflow 的通路量持續下滑。
另一方面,以 Stack Overflow、ChatGPT、GitHub 為關鍵詞,據 GoogleTrends 顯示,Stack Overflow 的搜尋量墊底。
與之形成鮮明對比的是,很多大模型産品已經走向了商業化,如微軟對其代碼生成器 GitHub Copilot 的收費高達 19 美元/人/月、OpenAI 推出了每月 20 美元的 ChatGPT Plus 服務。
在這種趨勢之下,Stack Overflow 想要絕地反擊,便也不足為奇。據 Wired 報道,Stack Overflow CEO Prashanth Chandrasekar 表示,“Stack Overflow 計劃最快在今年年中開始向開發大模型的開發者、公司收費,付費的群體才可以獲得其服務中的 5000 萬個問題和答案。”
為此,Prashanth Chandrasekar 也在 Stack Overflow 的官方部落格上特地發表了一篇主題為《社群是人工智能的未來》的長文,分享道:
如今,建立在尖端大語言模型 (LLM) 之上的複雜聊天機器人隻需一張在餐巾紙上畫的草圖照片即可為網站編寫功能代碼。他們可以回答有關如何建構應用程式的複雜查詢,幫助使用者調試錯誤,并在幾分鐘内在不同語言和架構之間進行翻譯。
在 Stack Overflow,我們不得不坐下來問自己一些尖銳的問題。當使用者可以像其他人一樣輕松地向聊天機器人尋求幫助時,我們在軟體社群中扮演什麼角色?我們的業務如何适應,以便我們繼續授權技術人員學習、分享和成長?
在 Prashanth Chandrasekar 看來,「人工智能系統的核心是建立在豐富的人類知識和經驗之上。他們通過資料訓練來學習——例如開源代碼和 Stack Overflow 問答。」
基于此,Stack Overflow 想要推出 Stack Overflow for Teams 服務,決定向使用其資料的公司尋求賠償,這屬于維持社群蓬勃發展戰略的一部分,無可厚非。
Reddit、Twitter 同樣想要對資料收費!
無獨有偶,想要強硬地拒絕 AI 模型開發商“白嫖”的平台也不止 Stack Overflow 一家。
就在幾天前,美國知名論壇社交平台 Reddit 宣布,它将從 6 月開始向一些人工智能開發者收取通路其自身内容的費用。Reddit 表示,API 通路收費的細節仍在敲定,價格預計在未來幾周内公布。
除此之外,馬斯克掌管下的 Twitter 也欲對大模型公司發起反擊。在 3 月 26 日,Twitter 推出了自家最新的 API 價格結構,包含免費版、基礎版以及企業版。
- 免費版:隻有使用 Twitter 登入的通路權限,以及每月僅提供 1,500 個發帖請求。
- 基礎版:每月 100 美元,可以獲得 50,000 個發帖請求和 10,000 個閱讀請求。
- 企業版:并沒有列出具體的價格。但是承諾提供“滿足您和您客戶特定需求的商業級通路”以及“[來自]專門客戶團隊的托管服務。” 不過,據外媒 Platformer 此前報道,企業版每月的費用可能高達 42,000 美元。
這意味着如果企業想要接入 Twitter API,用上面的資料來訓練,需要付出一筆不菲的費用。
與此同時,馬斯克還打算追究舊賬,其認為 OpenAI 以及微軟在 AI 模型方面的成功,離不開 Twitter 資料的貢獻。為此,在上周微軟宣布旗下 Smart Campaigns 廣告服務不再支援 Twitter 之際,馬斯克便留下威脅之語,稱「他們使用 Twitter 資料進行非法訓練。(現在是)訴訟時間。」
StackOverflow:不是針對全員,隻是針對大公司
在 Stack Overflow CEO Prashanth Chandrasekar 看來,"為 LLMs 推波助瀾的社群平台絕對應該為他們的貢獻得到補償,這樣像我們這樣的公司就可以重新投資回我們的社群,繼續使它們蓬勃發展"。
Chandrasekar 認為,潛在的額外收入對確定 Stack Overflow 能夠不斷吸引使用者和維持高品質的資訊至關重要。他認為這也将有助于未來的聊天機器人疊代,畢竟大模型想要與時俱進,必須要"在一些最前沿的知識上訓練。而 Stack Overflow 需要不斷創造新的知識"。
但是,将有價值的資料圈起來也可能阻止一些人工智能的訓練,并減緩 LLMs 的改進。Chandrasekar 表示,開放适當的許可隻會有助于加速高品質 LLM 的發展。
不過,據 Wired 透露,此次 Stack Overflow 和 Reddit 并非是想向所有 AI 模型公司“發難”,其還是會将繼續向一些人和公司免費授權資料。
Chandrasekar 表示,“Stack Overflow 隻希望從本着商業目的而開發 LLM 的公司那裡得到報酬。當人們開始對建立在我們這樣社群之上的産品收費時,這就是不公平使用的地方。"
另外,據《紐約時報》報道,Reddit 首席執行官 Steve Huffman 稱,他不想給世界上最大的公司提供免費服務。他表示,「抓取 Reddit,産生價值,卻不把這些價值返還給我們的使用者,這是我們有意見的地方。」
AIGC、大模型的下一步:該如何規範使用?
為此,不少業界人士認為,Stack Overflow、Reddit 對其聊天資料進行收費是似乎已經成為行業一種發展趨勢,這也必然會對上遊 AI 大模型廠商帶來一定的影響。
畢竟每個 AI 模型開發商無不在尋求降低開發大模型的巨大成本,然而,如今他們不僅需要為巨大的算力付出代價,也還要為無法計算的資料量來買單。截至目前,OpenAI、Meta、Google 等公司均未予置評。
不過,繼續想想,如果 Stack Overflow、Reddit 等平台索取費用成功,對于在其平台上免費撰寫問題和答案的普通使用者而言,似乎也有理由要分一杯羹了。
這一場圍繞大模型、AIGC 訓練引發的規範、付費問題的讨論也将愈演愈烈。
參考:
https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
https://www.zdnet.com/article/stack-overflow-joins-reddit-and-twitter-in-charging-ai-companies-for-training-data/
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/