天天看点

第三方抓取数据合法,X的API生意可能要黄了

作者:三易生活

自从Gemini承认自己是用文心一言来训练中文语料,到各大机构的预测高质量数据集即将枯竭,大模型在未来数年或面临“熄火”的危机,就成为了悬在如今整个AI行业头顶的“达摩克利斯之剑”。为了收集更多的数据或者说语料来浇灌大模型,“买买买”也成为了相关厂商的解决方案,例如谷歌每年花6000万美元从Reddit手中买数据,OpenAI则满世界找新闻出版机构签订内容许可协议。

第三方抓取数据合法,X的API生意可能要黄了

一时间,向AI厂商卖数据俨然成为了一众内容平台赚钱的好方法。比如苦于大量广告主离开、而陷入亏损的X,去年就靠着API付费墙,向需要X用户数据的每一个企业级客户收取了超过超过百万美元的费用。

然而就在一年之后,X通过API向第三方卖数据这个生意恐怕要黄了。日前,X方面起诉了以色列数据公司Bright Data非法抓取该平台数百万条记录一案落下帷幕,美国加利福利亚州联邦法院驳回了X的所有主张。

去年8月,X公司称Bright Data公然违反该平台的服务协议,通过技术手段规避平台风控、从而批量非法抓取了X上的回复、点赞、转发等数据,并认为这些非法行为对X的服务器造成严重影响、还损害了用户体验,为此其要求获得禁令救济、以阻止Bright Data的这一行为。

对此Bright Data方面则表示,X公司建设了一堵围墙来拒绝他人访问该平台的公开数据,并将在法庭上捍卫他们的立场,确保所有人都可以公开访问互联网及相关数据。

第三方抓取数据合法,X的API生意可能要黄了

使用爬虫在互联网上搜集数据,其实在过去二十年间都是一个处于灰色地带的操作,各家的做法基本上都是“悄悄的进村,开枪的不要”,很少有像Bright Data这种理直气壮承认自己在这样做的厂商。更让人意外的是,法院居然没有支持作为受害者的X。因此有观点认为,这一次美国联邦法院的裁定或将极大影响到互联网行业的格局。

法院在驳回X相关请求时使用的理由,是社交网络实际上不拥有用户数据,因为平台不能一方面享受避风港原则带来的好处,另一方面又强调数据属于自己。这就等于是否定了社交平台对于用户数据主权的法理,既然X本身不拥有数据、而是通过其他方式向用户提供公开的数据,那么Bright Data抓取公开数据的行为就不属于违法。

第三方抓取数据合法,X的API生意可能要黄了

从某种意义上来说,曾经让大批美国互联网平台免受法律风波的避风港原则,如今却成为了他们卖数据的绊脚石。而所谓“避风港原则”,是美国1998年制定的《数字千年版权法案》中提出的一个概念,目的在于在解决互联网语境下版权保护相关的法律问题,网络服务提供商(ISP)只要能够证明自己没有恶意,并及时删除侵权链接或相关内容的情况下,将不承担相应的侵权责任。

具体来说,网络服务提供者在接到权利人的通知后,需要及时将相关该通知转达给用户,并对侵权信息根据初步证据和服务类型等,采取删除、屏蔽或断开链接等必要措施。只要网络服务提供者履行了上述义务就会进入“避风港”,不承担侵权责任。“我们不可能实时监控平台上发生的每一件事”,是就是相关互联网平台在撇清监管责任的常用说辞。

第三方抓取数据合法,X的API生意可能要黄了

“你通知、我删除、我免责”,在这样的避风港原则保护下,互联网厂商在新世纪初度过了它们的幼年期。然而此一时彼一时,当初弱小的互联网厂商需要避风港原则来让现实世界的信息网络化,并畅通无阻地传播,可是随着互联网经济的兴旺,当初创厂商成长为巨头后,规避监管责任的避风港原则反过来让他们们在法律层面也失去了声明用户数据归属的权利。

既然在避风港原则下,用户在平台发布侵权内容后,权利人可以通知平台删除内容,只要平台及时处理、那么版权方就不能起诉平台,仅可以起诉发布侵权的用户。那么主张用户发布内容不是平台的行为,平台又凭什么在法律层面拥有用户的数据呢?以子之矛攻子之盾,这就是X此次要求获得禁令救济失败的关键。

第三方抓取数据合法,X的API生意可能要黄了

无独有偶,Bright Data不仅在此次与X对弈中获得了胜利,今年年初美国法院同样驳回了Meta的类似诉讼主张。短短半年时间,连续两个同样的判例对于互联网平台而言,表明风向确实已经变了。如今摆在X、Meta面前的问题,就是避风港原则和用户数据要二选一了,而互联网厂商其实也只有一个选项、那就是继续坚持避风港原则。因为即便避风港原则越来越不好使,但它的存在还是让互联网厂商免除了大部分的监管责任。

换而言之,未来任何人都可以抓取美国社交平台的数据。互联网厂商卖数据给AI厂商的生意,很有可能刚开了个头就要面临终结。毕竟买数据是要花真金白银的,可如果使用技术手段绕开目标设置的屏障,成本显然就会低得多。可偏偏互联网厂商几乎都不缺乏技术力,所以在大数据时代之后,爬虫和反爬虫或将再次成为互联网厂商的一大课题。

第三方抓取数据合法,X的API生意可能要黄了

只是对于用户而言,美国联邦法院的这一判例可能并不是什么好事,最起码大家未来使用相关平台的体验大概率会变差。通常来说,互联网厂商的反爬虫策略都是围绕判断用户是否为人类展开,其中最有效的手段不是JavaScript参数加密、代码混淆,而是验证码和人机验证。所以未来各种丧心病狂的验证码可能会重出江湖,大家或许又要与奇葩的验证码斗智斗勇了。