1. 跑ChatGPT體量模型，從此隻需一塊GPU

在發展技術，讓大模型掌握更多能力的同時，也有人在嘗試降低AI所需的算力資源。最近，一種名為FlexGen的技術因為「一塊RTX 3090跑ChatGPT體量模型」而獲得了人們的關注。

雖然FlexGen加速後的大模型看起來仍然很慢 —— 跑1750億參數的語言模型時每秒1個token，但令人印象深刻的是，它已經把不可能變成了可能。傳統上，大型語言模型（LLM）推理的高計算和記憶體要求使人們必須使用多個高端AI加速器進行訓練。本研究探索了如何将LLM推理的要求降低到一個消費級GPU并實作實用性能。

連結：

https://mp.weixin.qq.com/s/ZdW_jZov3bAcGc_9SqiL-A

2. ChatGPT資料集之謎

至今，OpenAI并沒有公開ChatGPT的相關訓練資料集來源和具體細節，一定程度上也暫時卡了追趕者的脖子，更何況，業界公認中文網際網路資料品質堪憂。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關大型語言模型的所有資料集相關資訊，希望幫助有志于開發“類ChatGPT”模型的團隊少走一步彎路。

連結：

https://mp.weixin.qq.com/s/9vOc-OyqvzrO_w5LApurbg

3. ChatGPT背後的經濟賬

ChatGPT能否取代Google、百度這樣的傳統搜尋引擎？為什麼中國不能很快做出ChatGPT？目前，對這些問題的探讨大多囿于大型語言模型（LLM）的技術可行性，忽略或者非常粗糙地估計了實作這些目标背後的經濟成本，進而造成對LLM的開發和應用偏離實際的誤判。

本文作者從經濟學切入，詳細推導了類ChatGPT模型搜尋的成本、訓練GPT-3以及繪制LLM成本軌迹的通用架構，為探讨LLM成本結構和其未來發展提供了可貴的參考視角。

連結：

https://mp.weixin.qq.com/s/aAg1ptEkQ6ahdjs-3s_g3A

4. 解讀ChatGPT背後的技術重點：RLHF、IFT、CoT、紅藍對抗

近段時間，ChatGPT 橫空出世并獲得巨大成功，使得 RLHF、SFT、IFT、CoT 等這些晦澀的縮寫開始出現在普羅大衆的讨論中。這些晦澀的首字母縮略詞究竟是什麼意思？為什麼它們如此重要？我們調查了相關的所有重要論文，以對這些工作進行分類，總結迄今為止的工作，并對後續工作進行展望。

連結：

https://zhuanlan.zhihu.com/p/602458131

5. 為什麼所有GPT-3複現都失敗了？使用ChatGPT你應該知道這些

為什麼所有公開的對 GPT-3 的複現都失敗了？我們應該在哪些任務上使用 GPT-3.5 或 ChatGPT？對于那些想要複現一個屬于自己的 GPT-3 或 ChatGPT 的人而言，第一個問題是關鍵的。第二個問題則對那些想要使用它們的人是重要的（下文提到 GPT-3，主要是指 GPT-3.5 或 InstructGPT 的最新版本，除了一些指向 GPT-3 原文的情況）。

連結：

https://mp.weixin.qq.com/s/fWe9RtP8qe8uxMSukeAjKA

6. 超越GPT 3.5的小模型來了

衆所周知，ChatGPT 是在 GPT-3.5 系列模型的基礎上微調而來的，我們看到很多研究也在緊随其後緊追慢趕，但是，與 ChatGPT 相比，他們的新研究效果到底有多好？近日，亞馬遜釋出的一篇論文，他們提出了包含視覺特征的 Multimodal-CoT，該架構在參數量小于 10 億的情況下，在 ScienceQA 基準測試中，比 GPT-3.5 高出 16 個百分點 (75.17%→91.68%)，甚至超過了許多人類。

連結：

https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q

7. 聊聊對大模型的一些看法

外行看熱鬧，内行看門道。邏輯鍊的把握，對長程上下文的捕捉和适應，以及生成語句的通順度，這幾點在作者試驗過的大量的case裡都得到了驗證，于是對于大模型這個技術方向"現實上的懷疑"也開始被打消了。

連結：

https://zhuanlan.zhihu.com/p/607680446

8. 一文了解大型語言模型的“上下文學習”

最近幾年大語言模型（LLM）獲得了越來越多的關注，其中最知名的當屬 ChatGPT模型。ChatGPT模型展現了一些大模型才具備的突現能力（就是模型規模必須得增大到一定程度才會顯現的能力，比如至少百億級），其中一項能力就是上下文學習（In-Context Learning）。這也引發了研究人員對該能力産生原因的思考和探索。

連結：

https://mp.weixin.qq.com/s/sTTRl7QPyFDYVw4Jwzn9dQ

9. 了解GPU的底層架構

筆者是新進GPU行業從業者，之前在CPU晶片行業做一些底層軟體驅動開發工作，深知熟悉CPU的底層結構原理對驅動編寫和閱讀他人驅動代碼大有裨益，本文則介紹了GPU的底層工作原理。

連結：

https://zhuanlan.zhihu.com/p/598173226

10. ML System入坑指南

最近ChatGPT大火，越來越多開始關注大模型，但對于大模型落地，除了先進的算法，其背後的ML System(機器學習系統)，從分布式訓練到高效推理的完整鍊路同樣重要，好的基礎設施是應用爆發的基礎。本文主要圍繞作者學習的經曆來構築，希望能給希望入坑的新人一個指引，也給非Mlsys背景但感興趣的其他領域的同學一些啟發。

連結：

https://zhuanlan.zhihu.com/p/608318764

11. 開源機器學習軟體對AI的發展意味着什麼

過去十年，隻要建構過ML模型的人都知道MLOSS至關重要，無論是Deepmind的研發工程師，還是印度的高中生都無一例外會使用開源軟體來構模組化型。作者采訪了24名ML從業者，他們都給出了相同的答案：MLOSS工具在模型建構中的地位舉足輕重。

從業者都在免費使用MLOSS工具，也就意味着這類工具會對人工智能發展産生巨大影響。然而，探索MLOSS對AI發展影響的研究人員卻寥寥無幾。

連結：

https://mp.weixin.qq.com/s/7bB3_32h0jKBJ-8OGEiLSw

12. OneFlow源碼解析：靜态圖與運作時

OneFlow靜态圖的訓練效率遠高于動态圖（eager模式）。本文試圖通過一個簡單例子，結合v0.8.0版本的代碼，解讀一下靜态圖和運作時的實作機制。

連結：

https://mp.weixin.qq.com/s/3sR7fLWC80sG2nFToJa7vA

13. CUDA程式設計：矩陣乘運算從CPU到GPU

本文主要介紹用CUDA實作矩陣乘法運算（C = A x B）的幾個基本方法，幫助了解矩陣在GPU上面的運算與CPU上的有何異同，通過實踐上手CUDA的優化計算，相比基礎方法，能提速10倍以上。本文内容涉及到CUDA矩陣1D運算、2D運算、共享記憶體、CUBLAS的使用。

連結：

https://zhuanlan.zhihu.com/p/573271688

14. CUDA SASS彙編器：CuAssembler

盡管CuAssembler主要的目的是把nvdisasm的輸出重新轉回cubin，但它并不是從零開始寫彙編。作者推薦從CUDA C開始，除了kernel代碼外，其他初始化代碼都是盡量用Runtime API，這樣使用和修改都最簡單直接。

連結：

https://zhuanlan.zhihu.com/p/348234642

15. 全面碾壓AdamW：谷歌新出優化器記憶體小、效率高

來自谷歌、 UCLA 的研究者提出了一種通過程式搜尋發現深度神經網絡訓練的優化算法的方法，進而發現 Lion（EvoLved Sign Momentum）優化器。

實作這一目标面臨兩個挑戰：首先是在無限稀疏的程式空間中尋找高品質的算法；其次是選擇可以從小型任務泛化到更大、SOTA 任務的算法。為了應對這些挑戰。該研究采用了一系列技術，包括具有熱啟動和重新開機的進化搜尋、抽象執行、funnel 選擇和程式簡化。

連結：

https://mp.weixin.qq.com/s/QK7mBxmjkNfWyLKiNhTL2Q

16. YOLOv5全面解析教程③：更快更好的邊界框回歸損失

本文總結了邊界框回歸中的三個幾何因素，即重疊面積（overlap area）、中心點距離（central point distance）和高寬比（aspect ratio），在此基礎上提出了完全IoU(CIoU)損失，進而促進了更快的收斂和更優的性能。

連結：

https://mp.weixin.qq.com/s/LIOnJqJj_GrpakKbLeWEDQ

17. 下載下傳量突破10億，MinIO的開源啟示錄

在開源創業公司裡，MinIO的成長之路對其他開源企業/項目來說無疑是一個很好的參考範例。近期，他們的CMO Jonathan Symonds在一篇部落格中分享了MinIO如何超越專有軟體公司，以及如何在未來鞏固自身優勢，重點闡述了他們在開源商業模式、産品、社群建構以及開源信仰方面的想法，這些内容或許值得開源社群的初創企業借鑒。

連結：

https://mp.weixin.qq.com/s/ecgooN_5ggM3lS6AXThEDg

歡迎 Star、試用 OneFlow 最新版本：https://github.com/Oneflow-Inc/oneflow/

一塊GPU搞定ChatGPT；ML系統入坑指南；了解GPU底層架構

1. 跑ChatGPT體量模型，從此隻需一塊GPU

2. ChatGPT資料集之謎

3. ChatGPT背後的經濟賬

4. 解讀ChatGPT背後的技術重點：RLHF、IFT、CoT、紅藍對抗

5. 為什麼所有GPT-3複現都失敗了？使用ChatGPT你應該知道這些

6. 超越GPT 3.5的小模型來了

7. 聊聊對大模型的一些看法

8. 一文了解大型語言模型的“上下文學習”

9. 了解GPU的底層架構

10. ML System入坑指南

11. 開源機器學習軟體對AI的發展意味着什麼

12. OneFlow源碼解析：靜态圖與運作時

13. CUDA程式設計：矩陣乘運算從CPU到GPU

14. CUDA SASS彙編器：CuAssembler

15. 全面碾壓AdamW：谷歌新出優化器記憶體小、效率高

16. YOLOv5全面解析教程③：更快更好的邊界框回歸損失

17. 下載下傳量突破10億，MinIO的開源啟示錄

繼續閱讀

深度解析HashMap底層實作架構

硬核剖析Java鎖底層AQS源碼，深入了解底層架構設計

鴻蒙系統到底是不是安卓套殼？底層架構說明一切

親愛的米粉朋友們，大家好：關于大家關心的MIUI14發版節奏，将會在本帖持續更新，向所有米粉朋友們通報，MIUI版本釋出

小鵬P7的中期改款叫P7i，它對整個底層架構、域控制器、晶片、攝像頭、雷達、算法進行了更新，先來看看外觀部分的變化：1、

文言一心的底層架構可能是源自于國外資料！近日，百度董事長李彥宏在接受記者通路時透露資訊：像類似于OPERAI這樣的創新型

SQL Server底層架構技術對比

河圖洛書的“象數邏輯”，就是中醫理論體系的底層架構！（中）

預言成真？晶片底層架構大變，阿裡扛大旗，人民日報：抛棄幻想

超強內建，底層架構革新，德國企業又要引領新一代移動機器人？

底層架構對新能源汽車有多重要？在近幾年的汽車領域上，越來越多的車企加大投入純電平台，平台架構作為技術的搖籃，能讓車内零部

在我自己的十多家公司裡面，就有三家公司是不同定位的科技公司。這是我所有公司的底層架構和系統底座，我所有公司的客戶百分之九

WinCC首先是基于.net架構的，支援wpf和winform控件，支援C#和網頁連結編寫的各種DLL導入和調用，這意味

【C】OJ練習題---單身狗類問題、雙指針類（資料結構順序表）1、異或的巧妙應用2、順序表相關OJ練習題（雙指針問題）