“

編者按：本文探讨了大語言模型（LLM）研究中的十大挑戰，作者是Chip Huyen，她畢業于斯坦福大學，現為Claypot AI —— 一個實時機器學習平台的創始人，此前在英偉達、Snorkel AI、Netflix、Primer公司開發機器學習工具。

”

編譯 | 林檎

編輯 | 蔓蔓周

首圖來源：WSJ

我正目睹一個前所未有的現狀：全世界如此衆多的頂尖頭腦，如今都投入到“使語言模型（LLMs）變得更好”這個大一統的目标中。

在與許多工業界及學術界同仁交談之後，我試着總結出十個正在蓬勃生長的主要研究方向：

1. 減少和衡量幻覺（編者按：hallucinations，AI的幻覺，即 AI 輸出中不正确或無意義的部分，盡管這類輸出在句法上是合理的）

2. 優化上下文長度和上下文建構

3. 融入其他資料模态

4. 提高LLMs的速度和降低成本

5. 設計新的模型架構

6. 開發GPU替代方案

7. 提高agent的可用性

8. 改進從人類偏好中學習的能力

9. 提高聊天界面的效率

10. 為非英語語言建構LLMs

其中，前兩個方向，即減少“幻覺”和“上下文學習”，可能是當下最火的方向。而我個人對第3項（多模态）、第5項（新架構）和第6項（GPU替代方案）最感興趣。

01

減少和衡量幻覺

它是指當AI模型編造虛假内容時發生的現象。

對于許多需要創造性的場景，幻覺是一種難以回避的特性。然而，對于大多數其他應用場景，它是一個缺陷。

最近我參加了一個關于LLM的讨論小組，與Dropbox、Langchain、Elastics和Anthropic等公司的人員進行了交流，他們認為，企業大規模采用LLM進行商業生産，最大的障礙就是幻覺問題。

減輕幻覺現象并開發衡量幻覺的名額，是一個蓬勃發展的研究課題，許多初創公司都專注于解決這個問題。

目前也有一些臨時的方法可以減少幻覺，比如為提示添加更多的上下文、思維鍊、自洽性，或者要求模型的輸出保持簡潔。

以下是可以參考的相關演講

·Survey of Hallucination in Natural Language Generation (Ji et al., 2022)

·How Language Model Hallucinations Can Snowball (Zhang et al., 2023)

·A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)

·Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)

·Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)

·SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)

優化上下文長度和上下文建構

AI面對的絕大多數問題都需要上下文。

例如，如果我們問ChatGPT：“哪家越南餐廳最好？”，所需上下文可能是“在哪裡”，因為越南最好的餐廳和美國最好的越南餐廳可能不同。

根據《SituatedQA》（Zhang＆Choi，2021）這篇有趣的論文，相當大比例的資訊尋求問題都有依賴于上下文的答案，例如，NQ-Open資料集中就有約占16.5%的問題是這一類問題。

我個人認為，對于企業應用場景來說，這個比例還可能更高。假設一家公司為客戶建構了一個聊天機器人，要讓這個機器人能夠回答任何産品的任何客戶問題，那麼所需上下文，可能是客戶的曆史記錄或該産品的資訊。

因為模型是從提供給它的上下文中“學習”的，這個過程也被稱為上下文學習。

對于檢索增強生成（RAG，也是LLM行業應用方向的主要方法），上下文長度尤為重要。

RAG可以簡單分為兩個階段：

第一階段：分塊（也稱為索引）

收集所有要供LLM使用的文檔，将這些文檔分成可以輸入LLM以生成嵌入的塊，并将這些嵌入存儲在向量資料庫中。

第二階段：查詢

當使用者發送查詢，如“我的保險政策是否可以支付這種藥物X”，LLM将此查詢轉換為嵌入，我們稱之為查詢嵌入，向量資料庫會擷取與查詢嵌入最相似的塊。

圖：來自Jerry Liu關于LlamaIndex（2023）的演講截圖

上下文長度越長，我們就可以在上下文中插入更多塊。但是，模型可以通路的資訊越多，它的回複就會越好嗎？

并不總是這樣。模型可以使用多少上下文以及該模型将如何高效地使用，是兩個不同的問題。與增加模型上下文長度同樣重要的，是對上下文更高效的學習，後者也被稱之為“提示工程”。

最近一篇廣為流傳的論文，就是關于模型從索引的開頭和結尾比從中間進行資訊了解表現要好得多：Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

融入其他資料模态

在我看來，多模态是如此強大，卻又常常被低估。

首先，許多現實的應用場景就需要處理大量多模态資料，如醫療保健、機器人技術、電子商務、零售、遊戲、娛樂等。醫學預測需要同時使用文本（如醫生的筆記、患者的問卷）和圖像（如CT、X射線、MRI掃描）；産品資料通常包含圖像、視訊、描述，甚至是表格資料（如生産日期、重量、顔色）。

其次，多模态承諾能為模型性能帶來巨大提升。一個既能了解文本又能了解圖像的模型，難道不會比僅能了解文本的模型表現更好嗎？基于文本的模型需要大量的文本資料，現在我們确實在擔心用于訓練基于文本模型的網際網路資料會被耗盡。一旦文本用盡，我們就需要利用其他資料模态。

最近有一個應用方向讓我感到格外興奮，那就是，多模态技術可以幫助視障人士浏覽網際網路和導航現實世界。

以下為幾項傑出的多模态研究進展：

·[CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)

·Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)

·BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)

·KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)

·PaLM-E: An embodied multimodal language model (Google, 2023)

·LLaVA: Visual Instruction Tuning (Liu et al., 2023)

·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

提高LLMs的速度和降低成本

GPT-3.5于2022年11月末首次推出的時候，很多人對在生産中使用該模型的延遲和成本表示擔憂。

如今，GPT-3.5使用造成的延遲/成本分析又有了新的變化。在半年内，整個模型社群找到了一種新方法，能夠建立一個在性能方面幾乎接近GPT-3.5、但其記憶體占用不到前者2%的模型。

由此，我的一個觀點是：如果你創造出足夠優秀的東西，其他人會想盡辦法使其變得快速且經濟高效。

以下是根據Guanaco論文中報告的資料，該資料對比了Guanaco 7B與ChatGPT GPT-3.5和GPT-4的性能。

需要注意的是，總體而言，這些模型性能都還遠非完美。對LLM來說，大幅地提升性能依然非常困難。

記得四年前，當我開始着手撰寫《設計機器學習系統》一書中“模型壓縮”部分的筆記時，業内主要有四種模型優化/壓縮技術：

1.量化：迄今為止最通用的模型優化方法。量化通過使用較少的bits來表示模型的參數來減小模型的大小，例如，不再使用32位來表示浮點數，而隻使用16位，甚至4位。

2.知識蒸餾：即訓練出一個小模型（學生模型），它能夠模仿一個更大的模型或模型集合（教師模型）。

3.低秩分解：它的關鍵思想是使用低維張量來替代高維張量，以減少參數的數量。例如，可以将一個3x3的張量分解為一個3x1的張量和一個1x3的張量的乘積，進而不再有9個參數，而隻有6個參數。

4.剪枝：指通過去除模型中對整體性能貢獻較小的權重或連接配接來減小模型的大小。

這四種技術至今仍然流行。Alpaca是通過知識蒸餾進行訓練的，QLoRA則采用了低秩分解和量化的組合方式。

設計新的模型架構

自2012年的AlexNet以來，我們已經看到許多架構潮起又潮落，包括LSTM、seq2seq等。

與這些架構相比，問世于2017年的Transformer異常穩定，雖然目前尚不清楚這個架構還會流行多久。

要開發一種能夠勝過Transformer的新架構并不容易。在過去的6年中，Transformer已經經過了大量的優化，在合适的硬體上，這個模型的規模和效果可以達到讓人贊歎的出色效果（PS：Transformer最早是由Google設計成在TPU上快速運作的，後來才在GPU上進行了優化）。

2021年，Chris Ré實驗室的研究“Efficiently Modeling Long Sequences with Structured State Spaces” (Gu et al., 2021)，在行業内引發了大量讨論。我不太确定後來發生了什麼。但Chris Ré實驗室仍在積極開發新架構，他們最近與初創公司Together合作推出了名為Monarch Mixer的架構。

他們的主要思想是，對于現有的Transformer架構，注意力的複雜度與序列長度的平方成正比，MLP的複雜度與模型次元的平方成正比。具有次二次複雜度的架構将更加高效。

我确信許多其他實驗室也在探索這個思路，雖然我不知道是否有任何已經公開嘗試過的研究。如果您曉得個中進展，歡迎聯系我！

開發GPU替代方案

2012年AlexNet問世以來，GPU一直是深度學習的主要硬體。

事實上，AlexNet之是以受歡迎，其中一個普遍認可的原因是，它是第一篇成功使用GPU訓練神經網絡的論文。在GPU之前，如果要訓練一個與AlexNet相當規模的模型，你需要動用成千上萬個CPU，就像在AlexNet之前幾個月Google釋出的那台伺服器一樣。

與成千上萬個CPU相比，幾塊GPU對于博士生和研究人員來說更加容易獲得，引發了深度學習研究的繁榮。

在過去的十年中，許多公司，無論是大公司還是初創公司，都試圖為人工智能建立新的硬體。最值得注意的嘗試包括Google的TPU、Graphcore的IPU以及Cerebras。SambaNova也籌集了超過10億美元來開發新的AI晶片，但似乎已轉向成為生成式AI平台。

期間，量子計算也引發了很多期待，其中主要參與者包括：

·IBM的量子處理器

·Google的量子計算機。今年早些時候在《自然》雜志上報告了量子錯誤降低的重要裡程碑。它的量子虛拟機可以通過Google Colab公開通路。

·高校的研究實驗室，如MIT量子工程中心、馬普量子光學研究所、芝加哥量子交流中心等。

另一個同樣令人興奮的方向是光子晶片。這是我了解最少的方向，如有錯誤，望指正。

現有晶片使用電力傳輸資料，這消耗了大量能量，并産生了延遲。光子晶片使用光子傳輸資料，利用光的速度進行更快、更高效的計算。在這一領域，各種初創公司已籌集了數億美元，包括Lightmatter（2.7億美元）、Ayar Labs（2.2億美元）、Lightelligence（2億美元以上）和Luminous Computing（1.15億美元）。

以下是光子矩陣計算三種主要方法的進展時間線，摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).。這三種不同的方法分别是平面光轉換（PLC）、馬赫-曾德幹涉儀（MZI）和波分複用（WDM）。

提高agent的可用性

agent可以視為能夠采取行動的LLMs，例如浏覽網際網路、發送電子郵件等。與本文中的其他研究方向相比，這可能是最年輕的方向。

由于其新穎性和巨大潛力，人們對agent産生了極大的興趣。Auto-GPT現在是GitHub上星标數量排名第25的最受歡迎的庫。GPT-Engineering也是另一個受歡迎的庫。

盡管如此，人們仍然對LLMs是否足夠可靠、性能良好、具備一定行動能力存在疑慮。

現在有一個有趣的應用方向，是将agent用于社會研究。一項斯坦福實驗表明，一小群生成式agent産生了新興的社會行為：僅從一個使用者指定的想法開始，即一個agent想要舉辦情人節派對，其他一些agent在接下來的兩天内自主傳播了派對的邀請，結識了新朋友，互相邀請參加派對...（(Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023）。

在這一領域，最值得注意的初創公司可能是Adept，由兩位Transformer的合著者（盡管兩人都已離開）和一位前OpenAI副總裁創立，迄今已籌集了近5億美元。去年，他們展示了其開發的agen如何浏覽網際網路并在Salesforce上添加新賬戶。我期待看到他們的新示範。

提升從人類偏好中學習的能力

RLHF（Reinforcement Learning from Human Preference，從人類偏好中進行強化學習）很酷，但有點繁瑣。

我絲毫不意外人們會找到更好的訓練LLMs的方法。關于RLHF，有許多開放問題，例如：

·如何在數學上表示人類偏好？

目前，人類偏好是通過比較來确定的：人類标注者确定回答A是否優于回答B。然而，它沒有考慮到回答A相對于回答B的優劣程度具體是多少。

·什麼是人類偏好？

Anthropic通過三個次元來衡量模型回答的品質：有幫助、誠實和無害。參考論文：Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)。

DeepMind試圖生成最能取悅大多數人的回答。參考論文：Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).

另外，我們是想擁有能夠表态的AI，還是一個在任何可能引發争議的話題上避而不談的普通AI？

·“人類”偏好是誰的偏好，考慮到文化、宗教、政治傾向等的差異？

擷取足夠代表所有潛在使用者的訓練資料，存在許多挑戰。

例如，OpenAI的InstructGPT資料，沒有65歲以上的标注者。标注者主要是菲律賓人和孟加拉人。參考論文：InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

近年來，AI社群主導的努力，雖然初衷令人欽佩，但資料偏見依然存在。例如，在OpenAssistant資料集中，222名調查對象中有201名（90.5％）自我報告為男性。Jeremy Howard在Twitter上發表了一系列關于此問題的推文。

提高聊天界面的效率

有了ChatGPT之後，關于聊天是否适合廣泛範圍任務的讨論就一直不絕于耳。比如：

·Natural language is the lazy user interface (Austin Z. Henley, 2023)

·Why Chatbots Are Not the Future (Amelia Wattenberger, 2023)

·What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions (Huang et al., 2023)

·AI chat interfaces could become the primary user interface to read documentation (Tom Johnson, 2023)

·Interacting with LLMs with Minimal Chat (Eugene Yan, 2023)

然而，這不是一個新的讨論。在許多國家，尤其是在亞洲，聊天已經作為超級應用程式的界面使用了大約十年時間。Dan Grover在2014年就進行了這個現象的讨論。

這類讨論在2016年再次變得緊俏，很多人的看法是，現有的應用類型已經過時，聊天機器人将是未來。例如下列的研究：

·On chat as interface (Alistair Croll, 2016)

·Is the Chatbot Trend One Big Misunderstanding? (Will Knight, 2016)

·Bots won’t replace apps. Better apps will replace apps (Dan Grover, 2016)

就我個人而言，我喜歡聊天界面，原因如下：

聊天界面是一個每個人（甚至是沒有之前接觸過計算機或網際網路的人）都可以快速學會使用的界面。

2010年代初，我在肯亞的一個低收入居民區志願工作時，我驚訝地發現，那裡的每個人都很适應在手機上通過短信進行銀行業務。即便那個社群沒有人有計算機。

聊天界面通常是易于通路的。如果我們雙手忙于其他事情，也可以使用語音而不是文字。

聊天界面還是一種非常強大的界面，使用者提出任何請求，它都會做出回應，即使有些回應不是很好。

然而，我認為聊天界面在某些方面可以進行改進：

·一輪内多條消息

目前，我們幾乎是假設每次隻有一條消息。但我和我的朋友在發短信時，經常需要多條消息才能完成一次聊天，因為我需要插入不同的資料（例如圖像、位置、連結），我在之前的消息中忘記了某些内容，或者我隻是不想把所有内容都放在一大段落中。

·多模态輸入

在多模态應用領域，大部分精力都花在建構更好的模型上，而很少花在建構更好的界面上。以英偉達的NeVA聊天機器人為例。我不是使用者體驗專家，但我認為這裡可能有改進的空間。

P.S. 對不起，NeVA團隊，因為我點名批評了你們。盡管如此，你們的工作仍然非常棒！

圖：NVIDIA的NeVA界面

·将生成式人工智能融入工作流程

Linus Lee在他的演講“Generative AI interface beyond chats”中很好地介紹了這一點。例如，如果你想問關于正在處理的圖表列的問題，你應該能夠隻需指向該列并提問。

·編輯和删除消息

編輯或删除使用者輸入，将如何改變與聊天機器人的對話流程？

為非英語語言建構LLMs

我們知道，目前以英語為首的LLMs在許多其他語言中的表現都不好，無論是在性能、延遲還是速度方面。

下面是可以參考的相關研究：

·ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (Lai et al., 2023)

·All languages are NOT created (tokenized) equal (Yennie Jun, 2023)

一些讀者告訴我，出于兩個原因，他們認為我不應該在這個方向上進行探讨。

這更多是一個“後勤”問題，而不是一個研究問題。我們已經知道該如何做了。隻需要有人投入金錢和精力。

這并不完全正确。大多數語言被認為是低資源語言，例如，與英語或漢語相比，它們擁有的高品質資料要少得多，可能需要不同的技術來訓練大型語言模型。

下面是可以參考的相關研究：

·Low-resource Languages: A Review of Past Work and Future Challenges (Magueresse et al., 2020)

·JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agić et al., 2019)

那些更為悲觀的人認為，在未來，許多語言将消亡，網際網路将由兩種語言構成的兩個世界：英語和漢語。這種思維方式并不新鮮。有人還記得Esperanto嗎？

AI工具（如機器翻譯和聊天機器人）對語言學習的影響仍不清楚。它們會幫助人們更快地學習新語言，還是會徹底消除學習新語言的需要？

結論

上文提到的10大挑戰，确實有一些問題比其他問題更難。

例如，我認為第10項，為非英語語言建構LLMs，更直接地指向足夠的時間和資源。

第1項，減少幻覺，将會更加困難，因為幻覺隻是LLMs在進行其機率性任務。

第4項，使LLMs更快更便宜，永遠不會達到完全解決的狀态。在這個領域已經取得了很多進展，還會有更多進展，但我們永遠不會停止改進。

第5項和第6項，新的架構和新的硬體，非常具有挑戰性，是不可避免的。由于架構和硬體之間的共生關系，新架構需要針對常見硬體進行優化，而硬體需要支援常見架構。它們可能會由同一家公司解決。

其中，還有一些問題不僅僅可以通過技術知識來解決。例如，第8項，改進從人類偏好中學習，可能更多是一個政策問題，而不是技術問題。

第9項，提高聊天界面的效率，更多是一個使用者體驗問題。我們需要更多具備非技術背景的人一起合作解決這些問題。

文末互動：

你對這10個大模型挑戰的看法是？

評論區留言告訴我們你的想法哦～

最頂尖的大語言模型人才，隻關心這10個挑戰

01

繼續閱讀

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

參數少量提升，性能指數爆發！谷歌：大語言模型暗藏神秘技能