天天看點

#翻閱2022#AI模型一直在變大大大大,哪怕用計算叢集訓練,時間也可能長達數周,數月。工程師離職了,訓練還沒有結束。甚

作者:親愛的資料

#翻閱2022#

AI模型一直在變大大大大,哪怕用計算叢集訓練,時間也可能長達數周,數月。

工程師離職了,訓練還沒有結束。

甚至,谷歌論文中“用”了一個AI新量詞:22.4 TPU Year。

(解釋一下:一個AI模型在一個TPU 處理器上訓練時間長達22.4年太大的時候,切是一個好辦法。

要麼切資料,要麼切大模型。

第一,将資料切分,切分後的資料被送至訓練的計算節點。後面,将多個節點運算結果合在一起。

第二,切模型,也會将多個運算結果合在一起。

反正最後都要合并。

無論切資料還是切模型,都要網絡來傳輸,AI在雲計算資料中心的網絡裡運作,大量的資料需要網絡傳輸和互動。

對于網絡傳輸的要求高,即使微秒級别的網絡異常也會使應用受影響。

切開好比一種分工。誰遲到都不好。

AI這個場景對網絡的要求,不僅僅傳輸速度要快,還不能有短闆,有人遲到的話,拖慢團隊的整體速度,就好比木桶盛水原理。

#翻閱2022#AI模型一直在變大大大大,哪怕用計算叢集訓練,時間也可能長達數周,數月。工程師離職了,訓練還沒有結束。甚
#翻閱2022#AI模型一直在變大大大大,哪怕用計算叢集訓練,時間也可能長達數周,數月。工程師離職了,訓練還沒有結束。甚
#翻閱2022#AI模型一直在變大大大大,哪怕用計算叢集訓練,時間也可能長達數周,數月。工程師離職了,訓練還沒有結束。甚

繼續閱讀