1. GPT創造者：第二次改變AI浪潮的方向

那麼，從推動這一系列變革的科學家角度，他究竟如何看待當先ChatGPT、GPT-4模型的發展？他對AI的思考和堅定信念從何而來？OpenAI下一步研究方向是什麼？他又如何看待AI對社會的影響？

連結：

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

2. 科普：人類回報的強化學習（RLHF）

ChatGPT中的RLHF究竟是如何運作的？它為什麼有效？

連結：

https://huyenchip.com/2023/05/02/rlhf.html

3. ChatGPT作者John Schulman：通往TruthGPT之路

大型語言模型（LLM）有一個衆所周知的“硬傷”——它們經常會一本正經編造貌似真實的内容。作為ChatGPT項目的主要負責人以及OpenAI強化學習團隊的上司者，John Schulman在最近的Berkeley EECS會議上系統性地分享了OpenAI在人類回報的強化學習（RLHF）方面所做的工作，以及語言模型的幻覺等亟待解決的問題，同時也介紹了解決這些挑戰的潛在思路。

連結：

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

4. 為什麼ChatGPT用強化學習而非監督學習？

随着ChatGPT等大型語言模型的釋出，人們對“RLHF訓練（即基于人類回報的強化學習訓練）”的重要性進行了諸多讨論。在訓練語言模型方面，我一度困惑于為什麼強化學習比從示範中學習（也稱為監督學習）更好，難道從示範中學習（或根據語言模型術語中的“指令微調”，學習模仿人類寫的回答）還不夠？

連結：

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

5. 谷歌研究科學家：ChatGPT秘密武器的演進與局限

此前，ChatGPT負責人John Schulman介紹了RLHF想法的起源，關鍵在于他們在語言模型中應用強化學習，使用人類回報去定義獎勵函數。此外，OpenAI的RLHF所使用的諸多技術也是基于前人研究基礎上組合而成的成果，其中就包括Natasha Jaques的工作。

連結：

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

6. Constitution AI：訓練大型語言模型的最佳方法？

語言模型如何決定它會處理哪些問題以及它認為不合适的問題？為什麼它會鼓勵某些行為而阻止其他行為？語言模型可能具有哪些“價值觀（values）”？

這些都是人們努力解決的問題。Anthropic最近發表的關于“Constitution AI”的研究認為，這種方法為語言模型提供了顯式的價值觀，而不是通過大規模人類回報隐式确定的價值觀。這不是一個完美的方法，但它确實使人工智能系統的價值更容易了解，也更容易根據需要進行調整。Claude模型就使用Constitution AI進行訓練，進而讓其更安全。Anthropic認為，這種方法優于用于訓練ChatGPT等系統的其他方法。

連結：

1. https://www.anthropic.com/index/claudes-constitution；

2. https://arxiv.org/abs/2212.08073

7. 向量嵌入：AutoGPT的幻覺解法？

此前，OpenAI首席科學家Ilya Sutskever談到，他希望通過改進強化學習回報步驟來阻止神經網絡産生“幻覺”。不過，向量嵌入（vector embeddings）看上去是解決這一挑戰的更為簡單有效的方法，它可以為LLM建立一個長期記憶的資料庫。通過将權威、可信的資訊轉換為向量，并将它們加載到向量資料庫中，資料庫能為LLM提供可靠的資訊源，進而減少模型産生幻覺的可能性。

連結：

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

8. 大語言模型（LLM）微調技術筆記

在預訓練後，大模型可以獲得解決各種任務的通用能力。然而，越來越多的研究表明，大語言模型的能力可以根據特定目标進一步調整。這就是微調技術，目前主要有兩種微調大模型的方法指令微調、對齊微調，OpenAI釋出的ChatGPT主要應用了微調技術，進而獲得了驚豔全世界的效果。

連結：

https://github.com/ninehills/ninehills.github.io/issues/92

9. 大型語言模型綜述

在這篇綜述中，研究者們介紹了大型語言模型的背景、主要研究方向、主流技術以及最新進展。他們特别關注LLM的四個主要方面，即預訓練、适應性精調、應用和能力評估。此外，他們還總結了LLM的現有資源，并讨論了未來發展方向等問題。

連結：

https://arxiv.org/abs/2303.18223

10. 那些開源的LLM和資料集、研究洞見

開源的力量正在源源不斷地影響着整個 AI 社群，無論是 LLM 還是資料集。本文作者 Sebastian Raschka 對相關資源進行了彙總，并分享了自己的洞見。

連結：

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

11. Open LLMs：可供商業使用的開源大型語言模型清單

本文列出的 LLM 均已獲得商業用途許可（基于 Apache 2.0、MIT、OpenRAIL-M）。

連結：

https://github.com/eugeneyan/open-llms

12. 羊駝系列大模型和ChatGPT差多少？詳細測評後，我沉默了

總的來說，該測試得出的結論是：MPT 還沒有準備好在現實世界中使用，而 Vicuna 對于許多任務來說是 ChatGPT (3.5) 的可行替代品。

連結：

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

13. 大型語言模型的推理演算

本文詳細闡述了大型語言模型推理性能的幾個基本原理，不含任何實驗資料或複雜的數學公式，旨在加深讀者對相關原理的了解。此外，作者還提出了一種極其簡單的推理時延模型，該模型與實證結果拟合度高，可更好地預測和解釋Transformer模型的推理過程。

連結：

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

14. Transformer模型的基礎演算

Transformer語言模型的許多基本重要資訊可以通過簡單計算得出。不幸的是，這些計算公式在自然語言處理（NLP）社群中并不廣為人知。AI非營利研究組織EleutherAI收集整理這些公式，并介紹這些公式的來源和重要性。

連結：

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

15. 機器學習系統的九種設計模式

設計模式是針對軟體工程中常見問題的可重複使用、經過時間考驗的解決方案。他們将最佳實踐和過去的知識進行提煉，成為從業者的實用建議，并提供共享詞彙表，以便有效協作。本文作者分享了在機器學習系統中的主要設計模式。

連結：

https://eugeneyan.com/writing/more-patterns/

16. 編譯器大佬Chris Lattner全新程式設計語言「Mojo」：相容Python核心功能

Mojo結合了Python的可用性與C的性能，釋放了AI硬體無與倫比的可程式設計性和AI模型的可擴充性」—— 它與Python一樣易于使用，但具有C++和Rust的性能。此外，Mojo提供了利用整個Python庫生态系統的能力。

連結：

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

17. 領域編譯器發展的前世今生

近年來，随着GPU和DSA架構在不同領域的廣泛應用，特别是AI系統相關技術的飛速發展，對于編譯器的需求越來越強烈。編譯器已經從一個相對小衆的研究領域，變為學界和業界都高度關注并大量投入的方向。與此同時，編譯器的開發人員也從晶片研發團隊開始延伸到更上層的軟體層面。在很多領域的軟體系統中，都開始引入編譯技術來實作提升開發效率或運作效率等目标。本文從領域編譯器的角色着眼，來讨論領域編譯器發展的前世今生。

連結：

1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg；

2. https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

18. OneFlow源碼解析：Eager模式下的裝置管理與并發執行

通過這篇筆記，希望能初步了解 OneFlow 在 Eager 模式下對裝置的管理方式、裝置執行計算的過程以及如何充分利用裝置計算能力。這裡的裝置主要指類似 CUDA 這樣的并行計算加速裝置。

連結：

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

歡迎 Star、試用 OneFlow 最新版本：https://github.com/Oneflow-Inc/oneflow/

揭秘RLHF；可商用開源LLM清單；領域編譯器的前世今生

1. GPT創造者：第二次改變AI浪潮的方向

2. 科普：人類回報的強化學習（RLHF）

3. ChatGPT作者John Schulman：通往TruthGPT之路

4. 為什麼ChatGPT用強化學習而非監督學習？

5. 谷歌研究科學家：ChatGPT秘密武器的演進與局限

6. Constitution AI：訓練大型語言模型的最佳方法？

7. 向量嵌入：AutoGPT的幻覺解法？

8. 大語言模型（LLM）微調技術筆記

9. 大型語言模型綜述

10. 那些開源的LLM和資料集、研究洞見

11. Open LLMs：可供商業使用的開源大型語言模型清單

12. 羊駝系列大模型和ChatGPT差多少？詳細測評後，我沉默了

13. 大型語言模型的推理演算

14. Transformer模型的基礎演算

15. 機器學習系統的九種設計模式

16. 編譯器大佬Chris Lattner全新程式設計語言「Mojo」：相容Python核心功能

17. 領域編譯器發展的前世今生

18. OneFlow源碼解析：Eager模式下的裝置管理與并發執行

繼續閱讀

(13) ChatGPT的前世今生:圖像分類,使用神經網絡識别圖像

(17) ChatGPT的前世今生:強化學習，使用神經網絡進行決策

網路名梗千千萬，ikun已有四年半，淺談ikun文化的前世今生

中國三大營運商的前世今生

“大鵬”的前世今生

南北朝佛造像登峰造極，誰能想到如此亂世卻能出現這樣祥和、平易近人、慈悲面容的佛造像，這種從容一直貫穿這百年亂世，留下了深

馬雲、張勇、蔡崇信與阿裡巴巴的前世今生

透過120多年發展史，看賽峰短艙公司的前世今生

毛主席唯一的持槍照片｜這支槍到底有怎樣的前世今生？

RedCap的前世今生，RedCap從入門到精通，RedCap是CAT1的完美替代

京滬高鐵第二通道，最強“輔助”的前世今生

分布式深度學習架構的前世今生，從 MapReduce 到 Pathways

Java Virtual Machine（JVM）的前世今生，以及特點。

擎創技術流 | 深入淺出運維可觀測工具（一）：聊聊eBPF的前世今生

誰持彩練當空舞彩虹無人機的前世今生

網際網路的前世今生：互聯技術如何突破