天天看点

#翻阅2022#AI模型一直在变大大大大,哪怕用计算集群训练,时间也可能长达数周,数月。工程师离职了,训练还没有结束。甚

作者:亲爱的数据

#翻阅2022#

AI模型一直在变大大大大,哪怕用计算集群训练,时间也可能长达数周,数月。

工程师离职了,训练还没有结束。

甚至,谷歌论文中“用”了一个AI新量词:22.4 TPU Year。

(解释一下:一个AI模型在一个TPU 处理器上训练时间长达22.4年太大的时候,切是一个好办法。

要么切数据,要么切大模型。

第一,将数据切分,切分后的数据被送至训练的计算节点。后面,将多个节点运算结果合在一起。

第二,切模型,也会将多个运算结果合在一起。

反正最后都要合并。

无论切数据还是切模型,都要网络来传输,AI在云计算数据中心的网络里运行,大量的数据需要网络传输和交互。

对于网络传输的要求高,即使微秒级别的网络异常也会使应用受影响。

切开好比一种分工。谁迟到都不好。

AI这个场景对网络的要求,不仅仅传输速度要快,还不能有短板,有人迟到的话,拖慢团队的整体速度,就好比木桶盛水原理。

#翻阅2022#AI模型一直在变大大大大,哪怕用计算集群训练,时间也可能长达数周,数月。工程师离职了,训练还没有结束。甚
#翻阅2022#AI模型一直在变大大大大,哪怕用计算集群训练,时间也可能长达数周,数月。工程师离职了,训练还没有结束。甚
#翻阅2022#AI模型一直在变大大大大,哪怕用计算集群训练,时间也可能长达数周,数月。工程师离职了,训练还没有结束。甚

继续阅读