天天看點

促進公平的靈丹妙藥?馬斯克的推特算法開源計劃遠比想象複雜

“在這個機器學習的時代,重要的不是算法,而是資料,”麻省理工學院計算機科學家David Karger接受WIRED采訪時表示,“讓Twitter重要的不是算法,是發推文的人。”

在Twitter接受440億美元收購後,埃隆·馬斯克已為Twitter制定了一系列宏偉構想。這其中最被熱議的就是“開源算法”,一部分人認為這會創造一個更公平的世界,同時也有專業人士對其可行性表示懷疑。

馬斯克在其收購出價被披露之前就提出了這個計劃,在他的報價被披露的那天重申了這一計劃,并在交易确認後再次提出了這個計劃。

在4月14日的TED演講中馬斯克概述了這一提議,“真正重要的是,人們既有現實又有感覺,即他們能夠在法律範圍内自由發言。是以我認為Twitter應該做的一件事就是開源算法。”馬斯克認為,披露更新或降級推文的算法将降低“幕後操縱”的風險。

“它有可能将Twitter變成一個真正值得信賴的平台,使用者可以了解為什麼某些推文會出現在清單的頂部,并且所有關于幕後保密或偏見的擔憂都将被消除,”開源資料庫公司EDB首席技術官Marc Linster說。

Twitter聯合創始人也是前CEO的Jack Dorsey也是明确的支援者,他提出,使用什麼算法或不用什麼算法的選擇應該開放給每個人。

促進公平的靈丹妙藥?馬斯克的推特算法開源計劃遠比想象複雜

然而确定Twitter上什麼首頁内容時間線的機制通常極其複雜,并涉及稽核和過濾、付費内容推廣和使用者分析等内容。推文排名背後的内容、使用者資料、算法訓練資料、稽核規則及訓練模型的代碼,這些構成了一個龐大的資料池,很難搜尋并且傳播成本很高。

“當我們談論‘算法’時,它實際上是資料處理和人工幹預步驟的複雜組合,加上使用曆史資料訓練的算法模型。核心算法的開源版本可能不會告訴我們Twitter上的内容實際上如何形成,擁有代碼當然也不足以真正了解平台的工作原理,因為它的實際行為取決于輸入到其中的資料。我認為Twitter不太可能出于明顯的商業原因披露大量此類資料,并且,對于不公開的推文,這種分享在許多情況下會違反隐私規則。“近日,愛丁堡大學貝葉斯資料科學和人工智能中心主任Michael Rovatsos接受TECH MONITOR采訪時說道。

荷蘭Jheronimus資料科學學院進階研究員Daan Kolkman同意将算法開源“似乎是一個好的舉措”,“但在實踐中,它很可能隻不過是一種象征性的姿态。這一切都取決于它将如何準确地開源。”

他解釋說,“僅僅通路算法并不足以確定公平。要進行可靠的算法審計,除其他事項外,你還需要通路用于訓練模型的資料并深入了解開發過程。Twitter的算法可能經常更新,那麼僅僅擁有一個快照并不是那麼有用。”

“一般情況下,推薦模型會經常重新訓練,并且會随着時間的推移而不斷變化。雖然也可以持續釋出所有經過訓練的模型,但除非你确切了解模型中用于預測的輸入和輸出,否則它也不會很有用。”人工智能初創公司Abacus.AI的首席執行官兼聯合創始人Bindu Reddy接受The Next Web采訪時表示。

Twitter産品副總裁 Steve Teixeira也從技術性角度發表了意見,“你不能簡單地開源一個ML(機器學習) 模型,就像它是一些泡泡按排序冒出一樣”。

促進公平的靈丹妙藥?馬斯克的推特算法開源計劃遠比想象複雜

同時,這樣的開源也存在潛在風險。一方面,這些資訊可能被競争對手複制,為網絡犯罪者提供使用者隐私。另一方面,開源提供了發現漏洞和缺陷的新機會。

促進公平的靈丹妙藥?馬斯克的推特算法開源計劃遠比想象複雜

繼續閱讀