#翻閱2022#AI模型一直在變大大大大，哪怕用計算叢集訓練，時間也可能長達數周，數月。工程師離職了，訓練還沒有結束。甚

作者：親愛的資料 2023-01-19 20:49:00

#翻閱2022#

AI模型一直在變大大大大，哪怕用計算叢集訓練，時間也可能長達數周，數月。

工程師離職了，訓練還沒有結束。

甚至，谷歌論文中“用”了一個AI新量詞：22.4 TPU Year。

（解釋一下：一個AI模型在一個TPU 處理器上訓練時間長達22.4年太大的時候，切是一個好辦法。

要麼切資料，要麼切大模型。

第一，将資料切分，切分後的資料被送至訓練的計算節點。後面，将多個節點運算結果合在一起。

第二，切模型，也會将多個運算結果合在一起。

反正最後都要合并。

無論切資料還是切模型，都要網絡來傳輸，AI在雲計算資料中心的網絡裡運作，大量的資料需要網絡傳輸和互動。

對于網絡傳輸的要求高，即使微秒級别的網絡異常也會使應用受影響。

切開好比一種分工。誰遲到都不好。

AI這個場景對網絡的要求，不僅僅傳輸速度要快，還不能有短闆，有人遲到的話，拖慢團隊的整體速度，就好比木桶盛水原理。

繼續閱讀