天天看點

張一鳴的路,OpenAI走得通嗎?

作者:便當财經官方
張一鳴的路,OpenAI走得通嗎?

OpenAI和《紐約時報》的互掐,越來越有看頭了。

當地時間1月9日,OpenAI終于打破了近兩周的沉默,公開發表長文回應《紐約時報》的指控。去年12月27日,《紐約時報》在美國起訴ChatGPT制造商OpenAI及其合作夥伴微軟,指控後者未經許可使用數百萬篇文章訓練AI。

這次OpenAI的回應不是白開水般的公關措辭,而是犀利地指出,《紐約時報》沒有講述完整的經過,且有故意操縱ChatGPT回答結果之嫌,整個訴訟毫無根據。

張一鳴的路,OpenAI走得通嗎?

一邊是代表着新科技的ChatGPT,一邊是代表着老牌新聞機構的《紐約時報》,二者對簿公堂,原本就是注定寫進科技史的事件。如今OpenAI頗為“頭鐵”的回應,更是為事件火上澆油。

回頭看,不管是廣播、電視、網際網路,新的媒介産生,都會與内容版權方産生利益拉扯,其中又尤以新聞業最為激烈。

整整10年前,在中國,正在崛起的今日頭條也被《廣州日報》告上法庭,其後多個新聞機構、門戶網站跟進,大有群起而攻之的氣勢。事件雙方的沖突與如今AI與新聞媒體之間的如出一轍。

那場紛争,最後以今日頭條大力購買版權而逐漸平息,“合作”是張一鳴擺出的路徑。兩年後,今日頭條覆寫的媒體已達3700餘家,每年在版權采購商的投入超過15億元。

無獨有偶,OpenAI如今高舉的依然是“合作”的旗。在對《紐約時報》毫不客氣地回怼之餘,也強調了“可退出”原則,以及與新聞機構合作的強烈意願。

張一鳴的路,OpenAI走得通嗎?

但這次,《紐約時報》們隻會更加謹慎——直到現在,社交媒體如Facebook、搜尋引擎如谷歌與新聞業仍舊沒有達成一緻,新聞業想要從平台獲得更多分成,而平台則不願輕易配合。

OpenAI抛出合作之“餅”,《紐約時報》們可能不會輕易吃下了。

A

OpenAI和《紐約時報》,都握緊了拳頭。

自ChatGPT在2022年底推出以來,OpenAI沒少吃版權官司。去年9月,就有十餘名作家對OpenAI提起訴訟,幾個月後的12月,又有11名美國作家在紐約曼哈頓聯邦法院起訴OpenAI和微軟。

但《紐約時報》的訴狀,分量畢竟不同。一來《紐約時報》本身是西方最主流、最大的老牌媒體之一,二來《紐約時報》的起訴來勢洶洶。

起訴OpenAI,《紐約時報》一口氣向法院送出了22000頁的附件和狀書,其中對ChatGPT侵權的關鍵證據多達100個,顯示ChatGPT輸出的内容和《紐約時報》高度相似。

在一個典型的證據片段中,左邊是GPT-4的輸出結果,右邊是《紐約時報》原文,重合的文字以紅色顯示,像極了中文網際網路上每次“錘”抄襲時會用的“調色盤”技能。

張一鳴的路,OpenAI走得通嗎?

訴狀中表示,光是《紐約時報》的文章構成了Common Crawl中用于訓練GPT的最大單個專有資料集(Common Crawl 是一個基金會,16年來已經幾乎存檔了整個網絡)。《紐約時報》要求OpenAI和微軟銷毀包含侵權材料的模型和訓練資料,沒有提出具體索賠金額,但表示被告應該對非法複制和使用《紐約時報》獨有價值的作品相關的“數十億美元的法定和實際損失”負責。

除此之外,《紐約時報》還指出,由于AI“幻覺”,ChatGPT有時會将一些假新聞、謠言“張冠李戴”,說成是出自《紐約時報》的,對其名譽造成損害。

《紐約時報》有備而來,重拳出擊,提起上訴的當天還自己出了高調的報道,打得OpenAI措手不及。OpenAI後來也說,本來在12月已經和OpenAI就版權問題在溝通合作方案了,沒想到對方轉手就是一記耳光。

張一鳴的路,OpenAI走得通嗎?

再表态時,OpenAI也不客氣,發長文,抛出四個關鍵點:1、OpenAI願意和新聞機構合作并創造新機會;2、使用公開的網際網路材料訓練AI模型是合理的,但OpenAI還是提供了退出機制;3、反刍事實(regurgitate facts)确實是一種罕見的錯誤,OpenAI正在努力将其減少到零;4、《紐約時報》沒有完整講述故事,其訴訟毫無根據。

其中提到的“反刍”,就是指AI将訓練物料原封不動地“吐出來”,就像《紐約時報》所列舉的那樣,AI的回答和《紐約時報》的文章幾乎一字不差。OpenAI的立場是,“反刍”現象的确存在,但OpenAI已經将其程度降到很低,《紐約時報》一下拿出上百個“反刍”例子,是很可疑的。

是以,OpenAI懷疑:“有趣的是,《紐約時報》提到的反刍似乎來自多個第三方網站上大量傳播的多年前的文章。他們似乎故意操縱提示,通常包括冗長的文章摘錄,以便讓我們的模型反刍。即使使用這樣的提示,我們的模型通常也不會像《紐約時報》暗示的那樣表現,這表明他們要麼訓示模型反刍,要麼從多次嘗試中精心挑選示例。”

總而言之就是:說我家孩子偷東西?我看是你塞孩子手裡、搞栽贓吧?

除此之外,OpenAI的回應中還有兩點值得玩味。

首先,OpenAI強調了“退出”機制,并指出《紐約時報》早在去年8月就已經采用推出流程。實際上,《紐約時報》、路透社、CNN等在内的多家主流新聞媒體都已在去年起屏蔽OpenAI的GPTBot網絡爬蟲,以限制其繼續擷取這些媒體的内容。

其次,OpenAI“殺人誅心”,否定了《紐約時報》一家媒體在ChatGPT訓練中的重要性:“由于模型是從人類知識的巨大集合中學習的,是以任何一個部門(包括新聞)都隻是整體訓練資料的一小部分,而任何單一資料源(包括《紐約時報》)對于模型的預期學習并不重要。”

“我不是、我沒有、你别瞎說啊”的否認三連,放在OpenAI身上正合适。

B

既然AI已經是未來趨勢,OpenAI也有意願合作,《紐約時報》為何還要大動幹戈?

“人工智能30%都來源于新聞業。讓我們不要再犯同樣的錯誤、再一次免費地付出一切。”“我們的内容正在被盜竊,我們必須說:這次不行。”《媒體創新2023年世界報告》中寫道。

“不要犯同樣的錯誤”,類似的措辭,當OpenAI的CEO山姆·阿爾特曼坐在美國國會聽證席上時也聽到過。彼時國會議員數次表達後悔,稱不能重蹈社交媒體時代的覆轍。社交媒體時代,監管被遠遠落在科技發展之後,紮克伯格2018年首次因“劍橋醜聞”坐上國會聽證席時,Facebook已經推出14年。

從某種角度來說,OpenAI的确是站在了巨人的肩膀上——有了前車之鑒,ChatGPT一朝出名,立刻引來四方警惕。

張一鳴的路,OpenAI走得通嗎?

《紐約時報》們也不想重蹈覆轍。在搜尋引擎和社交媒體成為流量入口的時代,傳統媒體艱難轉型,也曾和大型科技平台達成“合作”,但後來卻覺得這不“值”。

Facebook很早就和傳統媒體展開合作,《紐約時報》也是首批入駐的媒體,那時的合作模式是利潤分成,分發在Facebook的平台完成。但随着2018年Facebook和谷歌母公司獲得美國數字廣告收入的60%,媒體機構開始覺得自己被奪走得太多、得到的卻太少。

2019年,《紐約時報》曾釋出報道:美國新聞業數字廣告年收入51億美元,而谷歌提供聚合新聞服務所獲得的數字廣告收入47億美元。

新聞出版商在多個國家和地區争取更多利益。2020年,澳洲政府成為第一個要求Facebook和谷歌為新聞内容付費的國家。2023年,加拿大也通過了《線上新聞法》,随後谷歌與當局達成協定,同意向加拿大新聞出版商支付7400萬美元。而Facebook的制造商Meta卻拒絕妥協,幹脆不在加拿大當地屏蔽新聞内容。美國《新聞競争與保護法案》也曾在國會推進,但未獲得全體投票機會。

撰寫《媒體創新2023年世界報告》的創新媒體咨詢集團創始人胡安·賽諾在演講中直言:“我們不能在别人的平台上建立自己的業務,無論是Facebook還是谷歌,大型科技公司并不關心我們的利益。”“他們有自己的利益,為什麼要指望他們照顧我們的利益呢?形式主義盛行,收入卻太少。”

要知道,《紐約時報》本身是在紙媒衰落之時浴火重生的榜樣,2008年次貸危機後,其一度抵押總部大樓借款,甚至多方出手想要将其收購。随着大舉進行數字化轉型,推出付費訂閱模式,《紐約時報》最終扭虧為盈。在2022年,《紐約時報》超過六成收入都來自付費訂閱。

由此,也就不難了解《紐約時報》要和OpenAI“魚死網破”的架勢從何而來:“合作”說起來簡單,但怎麼合作才能保證《紐約時報》們原有的利益不受侵害、新的商機不被奪走?問号很多,答案寥寥。

“利用《紐約時報》在報道中的巨大投入,在搭新聞行業的便車。”《紐約時報》的怨氣,不僅來自“初出茅廬”的ChatGPT。

C

對于OpenAI來說,這注定是一場硬仗。

除了多點爆發的版權之争,歐洲已經于去年6月表決通過《AI法案》草案。根據該法案,OpenAI等廠商需要公開在訓練模型過程中使用的受版權保護的版權資料清單。

雖然在此次的聲明中強調《紐約時報》“不重要”,但版權内容對于OpenAI的大模型訓練還是很重要的。

在前不久送出給英國上議院通信和數字事務特别委員會關于大語言模型調查的檔案中,OpenAI承認,像ChatGPT這樣的AI工具的開發離不開受版權保護的素材,并稱如果沒有這些素材,GPT根本無法誕生:“由于目前版權涵蓋了幾乎所有形式的人類表達方式,包括部落格文章、照片、論壇文章、軟體代碼片段和政府檔案,如果不使用受版權保護的内容,就不可能訓練當今領先的人工智能模型。”

張一鳴的路,OpenAI走得通嗎?

在和《紐約時報》隔空互怼的同時,OpenAI也在積極推進與新聞業的“合作”,已經取得部分成果。

去年12月,《紐約時報》起訴OpenAI前不久,OpenAI與德國新聞出版巨頭阿克塞爾·施普林格(Axel Springer)達成合作。施普林格是歐洲最大的數字出版公司,旗下包括Business Insider、《世界報》等在内的知名新聞品牌。

雙方簽訂為期多年的協定,ChatGPT可以在回複中給使用者提供施普林格新聞媒體的報道摘要,包含原始出處和連結,保證新聞網站獲得流量。同時,施普林格的内容将被OpenAI用于訓練模型。Information援引知情人士稱,該交易在上千億美元規模。

這已經是OpenAI與新聞機構達成的第二個大型合作,同年7月其曾與美聯社達成類似協定,金額未公開。

競争也會進一步推高新聞采集的成本。去年12月,媒體報道蘋果已經和多家主要出版商達成協定,采集其新聞内容訓練AI模型。報道稱,蘋果已經和NBC新聞、IAC等多家機構接洽,拟議交易金額至少5000萬美元。

僅僅勾一勾“廣告分成”的手指頭,就引來主流媒體争相入駐,那種“好時代”屬于社交媒體和搜尋引擎。如今的OpenAI們,不得不畫更大、更香的餅。

參考資料:

1、36氪:《 紐約時報:從危機中崛起重返全球媒體之巅》

2、iweekly周末畫報:《挽救新聞業,谷歌同意向加拿大新聞出版商付費》

3、騰訊科技:《Facebook将推新聞标簽 拟斥資數百萬美元從媒體購買版權》

4、界面新聞:《OpenAI與出版界巨頭達成合作,這項交易能否為新聞業帶來進化嗎?》

北京日報:《手機APP“今日頭條”肆意抓取新聞陷侵權漩渦》

繼續閱讀