金磊 發自 凹非寺
量子位 | 公衆号 QbitAI
位元組跳動,陷入大模型輿論風波。
據The Verge報道:
位元組跳動一直在秘密使用OpenAI的技術,來開發自家大語言模型(LLM)。
而在此消息被披露不久,The Verge進一步稱OpenAI已經暫停了位元組跳動的賬戶。
具體而言,OpenAI發言人Niko Felix釋出的聲明如下:
雖然位元組跳動使用我們API的量很少,但我們已經暫停了他們的賬戶,同時我們會進一步調查。
如果我們發現他們的使用不符合規則,我們将要求他們進行必要的更改或終止他們的帳戶。
這裡提到的“規則”是指在OpenAI的服務條款中有一項明确的規定,那就是OpenAI提供的模型能力,不允許用來被“開發任何與之産品和服務形成競争的 AI 模型”。
據了解,位元組跳動是通過微軟購買的OpenAI通路權限,但是微軟也制定了與OpenAI同樣的政策。
The Verge表示正在向微軟做進一步的咨詢,是否也會跟OpenAI采取同樣的措施暫停位元組跳動的賬戶。
那麼,此次的抄襲風波具體是怎麼一回事呢?
内部檔案被曝光
根據The Verge的說法,證據是來自位元組跳動的一份内部檔案——海外版飛書Lark的聊天記錄。
這份檔案表明,位元組跳動在代号為“種子計劃”(Project Seed)基礎大語言模型項目中,幾乎是在每個開發階段都依賴OpenAI的API來進行開發,包括訓練和評估模型。
“種子計劃”是大約在一年前啟動,目前主要研發兩個産品,一個是在國内已經上線的Doubao;另一個是針對商業使用者的聊天機器人平台,目前正在開發中。
據稱,參與“種子計劃”的員工是深知過度依賴OpenAI API的後果,于是他們就開始讨論如何通過“資料脫敏”來粉飾證據。
以至于經常會出現員工達到OpenAI API的最大通路上限的情況。
更具體而言,位元組跳動更多的是在“種子計劃”的早期階段使用了OpenAI的技術。
The Verge根據内部檔案表示,位元組跳動大約是在幾個月前下達了“模型開發的任何階段停止使用 GPT 生成的文本”的指令。
不過也正是在這個時候,位元組跳動釋出了自家大語言模型Doubao。
但The Verge表示即便到了這個時候,位元組跳動依舊沒有停止違規行為:
位元組跳動繼續以違反OpenAI和微軟服務條款的方式使用 API,包括評估豆包背後模型的性能。
并且還表示一位對位元組跳動内部情況有一手消息的人指出:
他們說他們想確定一切都是合法的,但他們實際上隻是不想被抓住把柄。
位元組跳動已作回應
在The Verge發出這篇報道之後,位元組跳動發言人Jodi Seth做出了如下回應:
GPT 生成的資料在“種子計劃”的早期開發中用于注釋模型,并且在今年年中左右的時候已從位元組跳動的訓練資料中删除。
位元組跳動得到了微軟的授權,可以使用GPT API。
我們在非中國市場利用GPT支援我們的産品;但在中國市場,則是使用我們自研的模型來支援Doubao。
微軟方面,發言人Frank Shaw則表示:
像Azure OpenAI服務這樣的Microsoft AI解決方案,屬于我們的有限通路架構的一部分,意味着所有客戶都必須申請并得到 Microsoft 的準許。
我們還制定了标準,并提供資源幫助客戶負責任地使用這些技術,并符合我們的服務條款。
我們有流程來檢測濫用,并在發現違反行為準則的公司時,将停止他們的通路權限。
量子位也在第一時間與位元組跳動取得了聯系,但目前位元組跳動并未做出正式回應。
我們将在評論區對此次事件的進展做進一步跟進。
參考連結:
[1]https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm
[2]https://openai.com/policies/business-terms
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态