雅虎昨日宣布開源 tensorflowonspark。
衆所周知,深度學習有海量資料需求。雷鋒網了解到,許多業内公司利用 spark 對超大規模的資料集進行管理。讓深度學習架構直接、友善地擷取這部分資料,将為 ml 開發提供極大助力。
雅虎在官方部落格中宣布了這一消息,并解釋了此前雅虎 big ml 開發團隊遇到的問題:
“現有的深度學習架構,往往需要設立單獨的深度學習資料組。這強迫我們為同一個機器學習流水線建立多個程式。維護多個獨立的資料組,要求我們在它們之間傳輸海量資料集——這導緻不必要的系統複雜性和端到端的學習延遲。”
為解決這一問題,雅虎此前開發了 caffeonspark。它使得基于 caffe 機器學習架構開發的程式,能與 apache spark 相容。雷鋒網(公衆号:雷鋒網)了解到,雅虎已将基于 caffeonspark 的程式,用于鑒别搜尋中的不恰當搜尋結果,以及自動探測電子競技遊戲直播視訊中的關鍵看點。
雅虎去年開源了 caffeonspark。如今它對 tensorflow 做了同樣的工作。兩者的原理幾乎相同,隻是把機器學習架構換成了 tensorflow。
雅虎表示,把 tensorflow 程式移植到 tensorflowonspark 相對友善,并經過反公司内部的反複驗證。
“這通常隻需要修改十行以内的 python 代碼。許多使用 tensorflow 的雅虎開發者已輕松地把 tensorflow 程式,移植到 tensorflowonspark 執行。”
<a href="https://www.leiphone.com/news/201701/ie9sclcu8nkb76jz.html">英特爾開源bigdl,可直接在spark架構下運作深度學習</a>