天天看點

AI圈公開的秘密:天下模型一大抄

作者:華爾街見聞

抄襲已經成為AI世界公開的秘密。

據The Information周一的文章,許多初創公司的AI聊天機器人很可能是采用了OpenAI和其他公司的資料開發的。這些機器人在某些任務上可以媲美GPT-4,但收費隻是後者的一小部分。

初創公司在開發過程中沒有披露使用OpenAI的技術。不過,The Information報道稱,OpenAI首席執行官Sam Altman去年夏天告訴初創公司創始人,可以接受初創公司以這種方式使用OpenAI的技術。

雖然Altman的回應讓一些初創公司松了一口氣,但這種做法實質上損害了OpenAI的增長,Altman随時可能改變主意。

AI圈公開的秘密:天下模型一大抄
AI圈公開的秘密:天下模型一大抄

在初創公司中,抄襲已成常态

初創公司抄襲OpenAI的具體做法是,先開通GPT-4的會員,然後向它提出一系列問題,例如“這行代碼有什麼問題?”他們使用這些問題和答案來訓練自己的競品模型。

采取這一政策的初創公司不在少數。

Unsloth AI聯合創始人Daniel Han估計,他大約一半的客戶從GPT-4或Anthropic的Claude模型中擷取資料,并用它來改進自己的模型。許多公司也從ShareGPT獲得此類資料,ShareGPT是一個開發人員分享使用OpenAI模型生成答案的網站。

小型開發商的模型通常基于Meta Platforms或Mistral AI免費提供的流行開源模型,但通過融合OpenAI模型的答案,可以顯著提高這些模型輸出内容的品質。Han表示,一些開發人員正在使用一項名為OpenPipe的服務來自動化這一過程。

“在一個尚未建立明确規則的新生态系統中,就會發生這種情況,”Menlo Ventures董事總經理Matt Murphy表示,該公司投資了OpenAI的競争對手Anthropic。Murphy說:

如果大家都使用相同的資料,你怎麼能比其他人更出色呢?

目前尚不清楚OpenAI、谷歌、Anthropic和其他大型開發商會在多大程度上允許初創對手利用他們的資料進行追趕。

Radical Ventures合夥人Rob Toews表示:

AI模型的訓練資料的品質和來源正成為最重要的熱點問題之一。沒有人确切知道事情将如何發展,但任何沒有對(資料來源)進行周密和戰略考慮的AI初創公司都在落後。

如果那些在開發模型時暗中依賴其他AI服務的開發商被曝光,它們可能會面臨尴尬的處境。

比如,總部位于巴黎的Mistral使用Meta的開源AI 模型Llama 2建立了自己的AI,但直到無意洩露才披露這一事實,引起了一些開發者的不滿。Mistral已經籌集了數億美元的資金。

AI圈公開的秘密:天下模型一大抄

大公司也一樣?

實際上,初創公司利用OpenAI資料訓練模型的做法,與OpenAI等AI巨頭的做法并無二緻。

OpenAI首席技術官Mira Murati上個月在回答有關該公司是否使用谷歌旗下YouTube以及Meta Platforms旗下Facebook和Instagram的資料來訓練生成AI視訊的Sora時表現出了猶豫和困惑。

如果OpenAI真的使用了這些資料,也不足為奇。

據《紐約時報》最近的報道,OpenAI建立了一個名為Whisper的語音識别工具,用于轉錄YouTube視訊,以此來改進GPT-4。此前,也有媒體曾報道稱,OpenAI暗中使用YouTube資料訓練其早期的AI模型。

就在本月早些時候,YouTube CEO Neal Mohan還表示,他不贊成OpenAI使用YouTube視訊來開發像Sora這樣的文生視訊模型。

這種行為也導緻OpenAI招緻了侵權官司。《紐約時報》公司去年12月起訴OpenAI及其最大支援者微軟,指控他們在訓練模型時非法複制了該報的新聞文章。訴訟稱,OpenAI的聊天機器人“可以逐字逐句地生成時報内容”。

作為回應,OpenAI辯稱,它已努力與新聞出版商建立合作關系,其訓練做法屬于美國版權原則“合理使用”所允許的範圍。

盡管如此,OpenAI和谷歌都與Axel Springer等出版商達成了數百萬美元的許可協定,并與Reddit等主要網站達成了更大的交易。

即使是科技巨頭也難以抗拒捷徑的誘惑。

The Information報道稱,谷歌曾轉錄YouTube視訊,Meta雇傭承包商總結受版權保護的書籍,Adobe使用Midjourney的AI生成照片,均是為了訓練自家AI模型。一位谷歌工程師因擔憂公司使用OpenAI的ChatGPT資料而辭職。

初創公司Lamini的CEO Sharon Zhou表示,AI開發的快速步伐和激烈競争迫使開發者求助于有争議的訓練資料來源,如受版權保護的内容或LLM。

Zhou說:

在這個領域,投資者需要看到非常快的進展。

⭐星标華爾街見聞,好内容不錯過⭐

本文不構成個人投資建議,不代表平台觀點,市場有風險,投資需謹慎,請獨立判斷和決策。

繼續閱讀