天天看點

OneFlow源碼解析;VLIW的前世今生;深挖Cerebras| AI系統前沿動态

作者:OneFlow
OneFlow源碼解析;VLIW的前世今生;深挖Cerebras| AI系統前沿動态

1. Stable Diffusion采樣速度翻倍!僅需10到25步的擴散模型采樣算法

自研深度學習編譯器技術的 OneFlow 團隊更是在不降低采樣效果的前提下,成功将之前的 “一秒出圖” 縮短到了 “半秒出圖”!在 GPU 上僅僅使用不到 0.5 秒就可以獲得一張高清圖檔!

這基于清華大學朱軍教授帶領的 TSAIL 團隊所提出的DPM-Solver,一種針對于擴散模型特殊設計的高效求解器:該算法無需任何額外訓練,同時适用于離散時間與連續時間的擴散模型,可以在 20 到 25 步内幾乎收斂,并且隻用 10 到 15 步也能獲得非常高品質的采樣。在 Stable Diffusion 上,25 步的 DPM-Solver 就可以獲得優于 50 步 PNDM 的采樣品質,是以采樣速度直接翻倍。

連結:

https://mp.weixin.qq.com/s/vr5Pw6rc36PwQbP7j9vQYg

2. 比快更快,Stable Diffusion實作一秒出圖

起初,AI 作圖需要幾天,再縮減到幾十分鐘,再到幾分鐘,出圖時間在不斷加速,問題是,究竟快到什麼程度,才會在專業的美術從業者甚至普通大衆之間普及開來?

顯然,現在還無法給出具體答案。即便如此,可以确定的是 AI 作圖在技術和速度上的突破,很可能已經接近甚至超過門檻值,因為這一次,OneFlow 帶來了字面意義上 “一秒出圖” 的 Stable Diffusion 模型。

連結:https://mp.weixin.qq.com/s/KqffXfRhLN0LP3cHKkt2DQ

3. VLIW的前世今生:為什麼DL加速器都青睐于它

現在,很多主攻雲端推理和訓練市場的産品,在提到基礎架構時都會宣傳其自定義的矢量運算指令集,大發射位寬,高度的并行執行能力。這些名詞背後的底層結構幾乎都是VLIW。被Intel收購的Habana就大方宣稱采用自定義的VLIW的指令集。

雖然VLIW結構在之前的幾十年隻能算是取得了“非常有限的成果“,但就目前的深度學習處理器架構發展而言,重新回顧下VLIW的特征以及其成功和失敗的案例仍然是很有意義的,也許這也是AI設計的一種可能方向。

連結:

https://zhuanlan.zhihu.com/p/101538383

4. 深挖Cerebras:世界上最大AI晶片的架構設計

作為業内備受關注的AI加速器創業公司,成立于2016年的Cerebras希望通過建構全新AI加速器方案解決AI計算問題,以實作數量級計算性能:首先,需要改進計算核心架構,而不隻是一味地提升每秒浮點運算次數;其次,需要以超越摩爾定律的速度提高晶片內建度;最後,還要簡化叢集連接配接,大幅度提升叢集計算效率。

為了實作上述目标,Cerebras設計了一種新的計算核心架構。它讓單台裝置運作超大規模模型成為可能,此外,它開發出隻需簡單資料并行的橫向擴充和本地非結構化稀疏加速技術,使大模型的應用門檻大幅降低。

連結:

https://mp.weixin.qq.com/s/_JmINzustpH1bEDMjz9WaA

5. 關于AI晶片軟體棧的六條感悟

連結:

https://zhuanlan.zhihu.com/p/582706007

6. AI編譯關鍵技術 • 高層循環編譯優化 - 不僅僅是分塊和合并

如何借助編譯優化理論和方法,将計算圖描述的深度學習算法部署在具體硬體上并讓算法高效運作,是學術界和工業界一個重要的研究課題。更多深度晶片編譯技術内容在清華大學出版社新書《多面體編譯理論與深度學習實踐》中。

連結:

https://mp.weixin.qq.com/s/mBheJ9NG8khcLRshI40b2w

7. TVM for DSA的一些總結

目前TVM/MLIR等開源AI編譯器生态有一定起色,于是進入了TVM的坑(端側對TVM的接受度更高)。對于TVM來說,針對CPU/GPU等通用架構做了很多優化工作。我們的開發沒有走BYOC路線(自身也沒有現成編譯軟體棧,都需要0-1造所有輪子),于是就像CPU/GPU那樣走relay->te->tir->(llvm)->dsa的路子,想沿用TVM上各種優秀的feature。

連結:

https://zhuanlan.zhihu.com/p/571045566

8. OneFlow源碼解析:Global Tensor

上文中講到的類似于PyTorch中的普通Tensor,在OneFlow中稱為Local Tensor。Local Tensor是單卡視角下的普通Tensor。與之相對,OneFlow中還有一個獨有的概念——Global Tensor。Global Tensor是指被placement和SBP屬性所指定的,一個全局視角下的邏輯Tensor。Global Tensor的shape是邏輯形狀,其真實資料根據placement和SBP的規則分布在多個rank上。

Global Tensor既可以通過普通的Local Tensor通過tensor.to_global()轉換得到,也可以直接用資料或Numpy來構造。

連結:

https://mp.weixin.qq.com/s/bVaz0DQkiylCA6S0SbFm3g

9. 李白:你的模型權重很不錯,可惜被我沒收了

按照現在的趨勢來說,模型越來越大了,大到一張GPU甚至裝不下完整的模型,必須得上分布式并行技術,但是分布式代碼在很多架構下都是高度定制化的,對于新手來說根本讀不懂,也不知道應該怎麼使用,導緻大家上手非常的困難,讓自己珍貴的發際線顯得更加珍貴。

針對大模型上述存在的痛點,導緻我們必須上分布式(資料并行、模型并行、流水并行)才能跑起來一個大模型。那麼,LiBai有哪些特點呢?

連結:

https://mp.weixin.qq.com/s/zWsB-iL0gYSqKKnYuRqw5g

10. 一個更快的YOLOv5問世,附送全面中文解析教程

作為計算機視覺領域的基礎性技術,目标檢測在業界具有廣泛應用,而YOLO系列因其綜合性能較好,成為廣受歡迎的首選架構。

這次,為了讓使用者深入了解 OneFlow 訓練目标檢測模型的可行性以及性能的優越性,我們将Ultralytics 版YOLOv5通過 import oneflow as torch 的方式遷移為 OneFlow 後端。

相比PyTorch,目前 YOLOv5 在 OneFlow 上進行小 batch 訓練時有 5%-10% 的性能優勢,而訓練大 batch 的性能與 PyTorch 持平。

連結:

https://mp.weixin.qq.com/s/imTnKQVWcJkY7yswBLcYtw

11. 關于AI大模型的一點思考和讨論

大家似乎都沉浸在大模型欣欣向榮、歌舞升平的狀态中,大多數工業界的場景中,大模型并不能直接發揮價值。在不同的任務裡還是要根據實際場景去談具體的模型和算法,不建議逢解決方案就提大模型,也不建議把大模型當成一個主要的技術方案去忽悠不是特别懂這一塊技術的人,事實上在學術界的論文中也不會有人說我們用一個Big Model解決了所有問題。

未來大模型應該可以在2.c所提的方向上持續發力,但肯定也會演變出來一系列千奇百怪或優或劣的AI架構,大浪淘沙,去僞存真。

連結:

https://zhuanlan.zhihu.com/p/580745171

12. 直播預告|LiBai:開源大規模預訓練模型庫及開發實踐

LiBai(李白)模型庫一個基于OneFlow的開源大規模模型工具箱,覆寫了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 這些所有主流Transformer庫的優點,為使用者提供了“開箱即用”的深度學習大模型體驗。目前,LiBai已支援BERT、GPT、ViT、Swin-Transformer、T5 等常見大模型,以及MoCoV3、MAE等最新研究,開箱即用,并且可以很友善地在下遊任務上進行微調。

11月24日(本周四)19:00,LiBai核心作者程鵬将首先介紹大規模預訓練模型的開發生态,并比較主流的Transformer模型庫,之後重點講解開源大規模預訓練模型庫LiBai的研發目标、克服的困難。最後,程鵬也将展示基于LiBai的大模型開發流程。

報名連結:

https://mp.weixin.qq.com/s/Td3LZjwxBFiSRwUb4_yUNw

歡迎下載下傳體驗 OneFlow v0.8.0 最新版本:https://github.com/Oneflow-Inc/oneflow/