第三方抓取資料合法，X的API生意可能要黃了

自從Gemini承認自己是用文心一言來訓練中文語料，到各大機構的預測高品質資料集即将枯竭，大模型在未來數年或面臨“熄火”的危機，就成為了懸在如今整個AI行業頭頂的“達摩克利斯之劍”。為了收集更多的資料或者說語料來澆灌大模型，“買買買”也成為了相關廠商的解決方案，例如谷歌每年花6000萬美元從Reddit手中買資料，OpenAI則滿世界找新聞出版機構簽訂内容許可協定。

一時間，向AI廠商賣資料俨然成為了一衆内容平台賺錢的好方法。比如苦于大量廣告主離開、而陷入虧損的X，去年就靠着API付費牆，向需要X使用者資料的每一個企業級客戶收取了超過超過百萬美元的費用。

然而就在一年之後，X通過API向第三方賣資料這個生意恐怕要黃了。日前，X方面起訴了以色列資料公司Bright Data非法抓取該平台數百萬條記錄一案落下帷幕，美國加利福利亞州聯邦法院駁回了X的所有主張。

去年8月，X公司稱Bright Data公然違反該平台的服務協定，通過技術手段規避平台風控、進而批量非法抓取了X上的回複、點贊、轉發等資料，并認為這些非法行為對X的伺服器造成嚴重影響、還損害了使用者體驗，為此其要求獲得禁令救濟、以阻止Bright Data的這一行為。

對此Bright Data方面則表示，X公司建設了一堵圍牆來拒絕他人通路該平台的公開資料，并将在法庭上捍衛他們的立場，確定所有人都可以公開通路網際網路及相關資料。

使用爬蟲在網際網路上搜集資料，其實在過去二十年間都是一個處于灰色地帶的操作，各家的做法基本上都是“悄悄的進村，開槍的不要”，很少有像Bright Data這種理直氣壯承認自己在這樣做的廠商。更讓人意外的是，法院居然沒有支援作為受害者的X。是以有觀點認為，這一次美國聯邦法院的裁定或将極大影響到網際網路行業的格局。

法院在駁回X相關請求時使用的理由，是社交網絡實際上不擁有使用者資料，因為平台不能一方面享受避風港原則帶來的好處，另一方面又強調資料屬于自己。這就等于是否定了社交平台對于使用者資料主權的法理，既然X本身不擁有資料、而是通過其他方式向使用者提供公開的資料，那麼Bright Data抓取公開資料的行為就不屬于違法。

從某種意義上來說，曾經讓大批美國網際網路平台免受法律風波的避風港原則，如今卻成為了他們賣資料的絆腳石。而所謂“避風港原則”，是美國1998年制定的《數字千年版權法案》中提出的一個概念，目的在于在解決網際網路語境下版權保護相關的法律問題，網絡服務提供商（ISP）隻要能夠證明自己沒有惡意，并及時删除侵權連結或相關内容的情況下，将不承擔相應的侵權責任。

具體來說，網絡服務提供者在接到權利人的通知後，需要及時将相關該通知轉達給使用者，并對侵權資訊根據初步證據和服務類型等，采取删除、屏蔽或斷開連結等必要措施。隻要網絡服務提供者履行了上述義務就會進入“避風港”，不承擔侵權責任。“我們不可能實時監控平台上發生的每一件事”，是就是相關網際網路平台在撇清監管責任的常用說辭。

“你通知、我删除、我免責”，在這樣的避風港原則保護下，網際網路廠商在新世紀初度過了它們的幼年期。然而此一時彼一時，當初弱小的網際網路廠商需要避風港原則來讓現實世界的資訊網絡化，并暢通無阻地傳播，可是随着網際網路經濟的興旺，當初創廠商成長為巨頭後，規避監管責任的避風港原則反過來讓他們們在法律層面也失去了聲明使用者資料歸屬的權利。

既然在避風港原則下，使用者在平台釋出侵權内容後，權利人可以通知平台删除内容，隻要平台及時處理、那麼版權方就不能起訴平台，僅可以起訴釋出侵權的使用者。那麼主張使用者釋出内容不是平台的行為，平台又憑什麼在法律層面擁有使用者的資料呢？以子之矛攻子之盾，這就是X此次要求獲得禁令救濟失敗的關鍵。

無獨有偶，Bright Data不僅在此次與X對弈中獲得了勝利，今年年初美國法院同樣駁回了Meta的類似訴訟主張。短短半年時間，連續兩個同樣的判例對于網際網路平台而言，表明風向确實已經變了。如今擺在X、Meta面前的問題，就是避風港原則和使用者資料要二選一了，而網際網路廠商其實也隻有一個選項、那就是繼續堅持避風港原則。因為即便避風港原則越來越不好使，但它的存在還是讓網際網路廠商免除了大部分的監管責任。

換而言之，未來任何人都可以抓取美國社交平台的資料。網際網路廠商賣資料給AI廠商的生意，很有可能剛開了個頭就要面臨終結。畢竟買資料是要花真金白銀的，可如果使用技術手段繞開目标設定的屏障，成本顯然就會低得多。可偏偏網際網路廠商幾乎都不缺乏技術力，是以在大資料時代之後，爬蟲和反爬蟲或将再次成為網際網路廠商的一大課題。

隻是對于使用者而言，美國聯邦法院的這一判例可能并不是什麼好事，最起碼大家未來使用相關平台的體驗大機率會變差。通常來說，網際網路廠商的反爬蟲政策都是圍繞判斷使用者是否為人類展開，其中最有效的手段不是JavaScript參數加密、代碼混淆，而是驗證碼和人機驗證。是以未來各種喪心病狂的驗證碼可能會重出江湖，大家或許又要與奇葩的驗證碼鬥智鬥勇了。