天天看點

揭秘RLHF;可商用開源LLM清單;領域編譯器的前世今生

作者:OneFlow
揭秘RLHF;可商用開源LLM清單;領域編譯器的前世今生

1. GPT創造者:第二次改變AI浪潮的方向

那麼,從推動這一系列變革的科學家角度,他究竟如何看待當先ChatGPT、GPT-4模型的發展?他對AI的思考和堅定信念從何而來?OpenAI下一步研究方向是什麼?他又如何看待AI對社會的影響?

連結:

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

2. 科普:人類回報的強化學習(RLHF)

ChatGPT中的RLHF究竟是如何運作的?它為什麼有效?

連結:

https://huyenchip.com/2023/05/02/rlhf.html

3. ChatGPT作者John Schulman:通往TruthGPT之路

大型語言模型(LLM)有一個衆所周知的“硬傷”——它們經常會一本正經編造貌似真實的内容。作為ChatGPT項目的主要負責人以及OpenAI強化學習團隊的上司者,John Schulman在最近的Berkeley EECS會議上系統性地分享了OpenAI在人類回報的強化學習(RLHF)方面所做的工作,以及語言模型的幻覺等亟待解決的問題,同時也介紹了解決這些挑戰的潛在思路。

連結:

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

4. 為什麼ChatGPT用強化學習而非監督學習?

随着ChatGPT等大型語言模型的釋出,人們對“RLHF訓練(即基于人類回報的強化學習訓練)”的重要性進行了諸多讨論。在訓練語言模型方面,我一度困惑于為什麼強化學習比從示範中學習(也稱為監督學習)更好,難道從示範中學習(或根據語言模型術語中的“指令微調”,學習模仿人類寫的回答)還不夠?

連結:

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

5. 谷歌研究科學家:ChatGPT秘密武器的演進與局限

此前,ChatGPT負責人John Schulman介紹了RLHF想法的起源,關鍵在于他們在語言模型中應用強化學習,使用人類回報去定義獎勵函數。此外,OpenAI的RLHF所使用的諸多技術也是基于前人研究基礎上組合而成的成果,其中就包括Natasha Jaques的工作。

連結:

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

6. Constitution AI:訓練大型語言模型的最佳方法?

語言模型如何決定它會處理哪些問題以及它認為不合适的問題?為什麼它會鼓勵某些行為而阻止其他行為?語言模型可能具有哪些“價值觀(values)”?

這些都是人們努力解決的問題。Anthropic最近發表的關于“Constitution AI”的研究認為,這種方法為語言模型提供了顯式的價值觀,而不是通過大規模人類回報隐式确定的價值觀。這不是一個完美的方法,但它确實使人工智能系統的價值更容易了解,也更容易根據需要進行調整。Claude模型就使用Constitution AI進行訓練,進而讓其更安全。Anthropic認為,這種方法優于用于訓練ChatGPT等系統的其他方法。

連結:

1. https://www.anthropic.com/index/claudes-constitution;

2. https://arxiv.org/abs/2212.08073

7. 向量嵌入:AutoGPT的幻覺解法?

此前,OpenAI首席科學家Ilya Sutskever談到,他希望通過改進強化學習回報步驟來阻止神經網絡産生“幻覺”。不過,向量嵌入(vector embeddings)看上去是解決這一挑戰的更為簡單有效的方法,它可以為LLM建立一個長期記憶的資料庫。通過将權威、可信的資訊轉換為向量,并将它們加載到向量資料庫中,資料庫能為LLM提供可靠的資訊源,進而減少模型産生幻覺的可能性。

連結:

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

8. 大語言模型(LLM)微調技術筆記

在預訓練後,大模型可以獲得解決各種任務的通用能力。然而,越來越多的研究表明,大語言模型的能力可以根據特定目标進一步調整。這就是微調技術,目前主要有兩種微調大模型的方法指令微調、對齊微調,OpenAI釋出的ChatGPT主要應用了微調技術,進而獲得了驚豔全世界的效果。

連結:

https://github.com/ninehills/ninehills.github.io/issues/92

9. 大型語言模型綜述

在這篇綜述中,研究者們介紹了大型語言模型的背景、主要研究方向、主流技術以及最新進展。他們特别關注LLM的四個主要方面,即預訓練、适應性精調、應用和能力評估。此外,他們還總結了LLM的現有資源,并讨論了未來發展方向等問題。

連結:

https://arxiv.org/abs/2303.18223

10. 那些開源的LLM和資料集、研究洞見

開源的力量正在源源不斷地影響着整個 AI 社群,無論是 LLM 還是資料集。本文作者 Sebastian Raschka 對相關資源進行了彙總,并分享了自己的洞見。

連結:

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

11. Open LLMs:可供商業使用的開源大型語言模型清單

本文列出的 LLM 均已獲得商業用途許可(基于 Apache 2.0、MIT、OpenRAIL-M)。

連結:

https://github.com/eugeneyan/open-llms

12. 羊駝系列大模型和ChatGPT差多少?詳細測評後,我沉默了

總的來說,該測試得出的結論是:MPT 還沒有準備好在現實世界中使用,而 Vicuna 對于許多任務來說是 ChatGPT (3.5) 的可行替代品。

連結:

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

13. 大型語言模型的推理演算

本文詳細闡述了大型語言模型推理性能的幾個基本原理,不含任何實驗資料或複雜的數學公式,旨在加深讀者對相關原理的了解。此外,作者還提出了一種極其簡單的推理時延模型,該模型與實證結果拟合度高,可更好地預測和解釋Transformer模型的推理過程。

連結:

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

14. Transformer模型的基礎演算

Transformer語言模型的許多基本重要資訊可以通過簡單計算得出。不幸的是,這些計算公式在自然語言處理(NLP)社群中并不廣為人知。AI非營利研究組織EleutherAI收集整理這些公式,并介紹這些公式的來源和重要性。

連結:

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

15. 機器學習系統的九種設計模式

設計模式是針對軟體工程中常見問題的可重複使用、經過時間考驗的解決方案。他們将最佳實踐和過去的知識進行提煉,成為從業者的實用建議,并提供共享詞彙表,以便有效協作。本文作者分享了在機器學習系統中的主要設計模式。

連結:

https://eugeneyan.com/writing/more-patterns/

16. 編譯器大佬Chris Lattner全新程式設計語言「Mojo」:相容Python核心功能

Mojo結合了Python的可用性與C的性能,釋放了AI硬體無與倫比的可程式設計性和AI模型的可擴充性」—— 它與Python一樣易于使用,但具有C++和Rust的性能。此外,Mojo提供了利用整個Python庫生态系統的能力。

連結:

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

17. 領域編譯器發展的前世今生

近年來,随着GPU和DSA架構在不同領域的廣泛應用,特别是AI系統相關技術的飛速發展,對于編譯器的需求越來越強烈。編譯器已經從一個相對小衆的研究領域,變為學界和業界都高度關注并大量投入的方向。與此同時,編譯器的開發人員也從晶片研發團隊開始延伸到更上層的軟體層面。在很多領域的軟體系統中,都開始引入編譯技術來實作提升開發效率或運作效率等目标。本文從領域編譯器的角色着眼,來讨論領域編譯器發展的前世今生。

連結:

1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg;

2. https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

18. OneFlow源碼解析:Eager模式下的裝置管理與并發執行

通過這篇筆記,希望能初步了解 OneFlow 在 Eager 模式下對裝置的管理方式、裝置執行計算的過程以及如何充分利用裝置計算能力。這裡的裝置主要指類似 CUDA 這樣的并行計算加速裝置。

連結:

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

歡迎 Star、試用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

繼續閱讀