Google 悄悄更新：你釋出的内容都将被用于 AI 訓練

世上沒有絕對的垃圾，隻有放錯位置的資源。

在數字原住民的 Z 世代的口口相傳中，「網際網路時代 99% 的公開資訊都是垃圾」的粗略定義早已見怪不怪了，而有趣的是，彼之砒霜，我之蜜糖，以 Google 為代表的 AI 巨頭卻開始盯上了這些網際網路上公開的資訊。

近日，搜尋引擎巨頭 Google 更新了其隐私政策，将使用網際網路上的公開資訊訓練 AI 模型。隐私政策中寫到，Google 現可通過收集網絡上的公開資訊或來自其他公共來源的資訊，以幫助訓練Google的AI模型并打造實用功能，如 Google 翻譯、Bard 和 Google 雲 AI，此外，Google 将還原本的「語言模型」更改為「AI 模型」。

據媒體 OSCHINA 分析指出，這項政策更新表明， Google 現在正在向公衆及其使用者明确表示，他們在網上公開釋出的任何内容都可以用 Bard 和其未來版本，以及 Google 開發的任何其他生成人工智能産品。

生成式人工智能 AIGC 系統通常會根據網際網路上的海量通用資料進行預先訓練，進而大幅提升 AI 的泛化性、通用性、實用性，而這難免會陷入版權、隐私的糾紛。

對于這個困境，可能暫時沒有誰比 OpenAI 更了解了。

就在不久前，人工智能聊天機器人 ChatGPT 母公司 OpenAI 被兩名美國作家在舊金山聯邦法院提起訴訟，聲稱 OpenAI 沒有獲得版權授權，就濫用他們的作品來訓練人工智能。

被曝光的起訴書顯示，OpenAI 的訓練資料超過 30 萬本書，其中就包括本就飽受争議，版權歸屬不清晰的「影子圖書館」（大多是以侵犯版權的方式向公衆免費提供書籍文獻内容的線上網站）。

此外就在昨天，OpenAI 宣布，将暫時禁用 ChatGPT 的官方網頁浏覽模式，而這或許與 ChatGPT 被曝能夠翻閱付費牆，擷取隐藏的付費内容有關。繼美國作家版權訴訟事件之後，輿論之下，OpenAI 再次深陷版權風波。

是以，在 OpenAI 被訴訟的前車之鑒下，Google 未雨綢缪地更新隐私政策，提前給自己套上一個盾倒也合情合理。

雖然這一舉措有效降低了 Google 「吃官司」的風險，卻也将生成式人工智能使用海量網絡資料進行訓練的事實赤裸裸地擺在明面上，是以難免引發大衆對于隐私權的擔憂。外媒 Gizmodo 對此也評論認為，這是一種新的、有趣的隐私問題。

事實上，即使人們普遍了解網上公開釋出的資料資訊是開放自由的，對資料資訊有可能被他人通路是有一個心理預期的，但是如果網絡上海量資料資訊被網際網路 AI 巨頭當做自家後花園，肆意使用以訓練人工智能，相信不少人會憑空産生被侵犯個人領域的「别扭感」，進而對此持着一種較為謹慎的态度。

被這個問題困擾的不止普通使用者，埃隆·馬斯克近日宣布 Twitter 将「臨時限制」使用者每日閱讀推文數量：未驗證的賬戶每天隻能看到 600 條推文，對于新的未驗證賬戶，一天隻能看到 300 條。經過驗證的賬戶每天隻能閱讀 6000 條文章。

馬斯克表示，這是因為有幾百個組織（包括一些 AI 公司）正在抓取 Twitter 資料，以至于影響了真實使用者的體驗。

隻不過，時代列車前行的轟隆聲，有時足以淹沒乘客充滿異議的嘈雜。

如果 Google 這一舉措合法合規，且得到 AI 巨頭們的紛紛效仿，或許有一天，我們都會從生成式人工智能中找到自己存在的痕迹。