劉子韬：大語言模型在數學領域前瞻問題與挑戰：理論、方法與應用

在即将于今年10月26-28日在沈陽舉辦的CNCC2023期間，在129個涵蓋人工智能、安全、計算+、軟體工程、教育、網絡、晶片、雲計算等30個熱門專業領域的技術論壇上，包括國際知名學者、兩院院士、産學研各界代表在内的700餘位報告嘉賓将着力探讨計算技術與未來宏觀發展趨勢，為參會者提供深度的學術和産業交流機會，當中不乏在各領域深具影響力的重磅學者專家親自擔綱論壇主席。

本專題力邀CNCC2023技術論壇主席親自撰稿，分享真知灼見，帶你提前走進CNCC，領略獨特專業魅力！

本期特别嘉賓：

劉子韬暨南大學教授

作者：CNCC2023【大語言模型在數學領域的前瞻問題與挑戰：理論、方法與應用】論壇主席：劉子韬

在生成文本段落、模拟人類對話及解決數學問題表現驚人的大語言模型，顯然是這幾年人工智能發展最熱門的領域之一。而大語言模型(Large Language Model, LLM)一種執行個體ChatGPT(Chat Generative Pre-Training Transformer)的橫空出世，則為其發展注入了一針強心劑，也讓更多人看到了人工智能未來的方向。

大語言模型是指包含數千億（或更多）參數的Transformer語言模型（以下簡稱LLM）。作為一種人工智能（AI）模型，它使用大量的文本資料進行訓練，通過學習語言中隐藏的規則和結構，了解各種不同類型和風格的文本，同時根據給定上下文生成新的、相關聯且連貫邏輯性強的内容。大語言模型展現了了解自然語言和解決複雜任務（通過文本生成）的強大能力。

數學，大模型能力的試金石

數學一直被視為人工智能的試金石。作為建構、了解、改進 AI 的基礎工具，數學的核心推理能力卻一直是機器學習尚未完全解決的關鍵問題。神經網絡以某種方式直覺地識别數學真理，但其邏輯推理的“原因”卻并不明顯。誠如 DeepMind的合作者喬迪·威廉姆森博士所言，數學是機器學習能做什麼或不能做什麼的試金石。數學能力一定程度上代表着今天通用人工智能認知大模型的智慧水準。

自人工智能誕生以來，探索 AI 在數學研究中的應用一直是一個重要的研究方向，并取得了許多重要成果。已有研究發現，LLM可以在數學、實體、計算機科學等科目的标準化測試中達到學生級别的表現，這些測試包括選擇題和開放式問題。這源自于LLM的逐漸推理能力，它主要是廣泛采用思維鍊提示政策來提高推理性能，進而解決複雜的推理問題，包括數學推理等。根據專業人士推測，LLM的逐漸推理能力是通過代碼預訓練獲得的。也是以，從實用政策角度出發，一些研究機構、企業選擇通過在大規模數學語料庫上持續預訓練大語言模型，用以提高它們在數學推理任務上的表現。

也正因為此以及語言模型的“先天性缺陷”，LLM在複雜推理任務上仍然存在着困難，尤其是預訓練階段很少或者未曾遇到的符号，就會無法正常運作。如，大數字的算術運算。為了解決這個問題，一種直接的方法是在合成的算術問題上微調LLM。一系列的研究采用了這種方法，并通過特殊的訓練和推理政策進一步提高數值計算性能。

此外，一些研發機構、企業則借用外部工具來解決數學部分的難題，即讓模型學會與外部工具互動，例如，2022 年 Google 提出了對話大模型 LaMDA。LaMDA 能力很強，且在模型中可以接入很多外部工具，讓模型學會檢索，使用電腦和翻譯引擎。Meta的toolformer模型，讓語言模型可以自己決定什麼時候使用外部工具，使用什麼外部工具，怎麼使用外部工具。

大模型在數學領域的未來

然而，這些LLM 仍然依賴于（在預訓練階段）從文本上下文捕捉數學符号的語義含義，這在本質上并不是适合于數值計算的最佳方案。顯然，即便LLM 在生成類似于人類的文本已經取得了出色的表現，在複雜推理上，則仍然需要突破。

盡管如此，人類并沒有放棄在這一領域的繼續探索。OpenAI釋出最新的成果《Let's Verify Step by Step》，提出通過過程監督改進數學推理，其中基于過程的監督模型可以解決MATH測試集的代表性子集中的78％的問題。

加州理工學院和麻省理工學院研究者則用ChatGPT證明數學定理。相關論文《LeanDojo: Theorem Proving with Retrieval-Augmented Language Models》建構了一個基于大語言模型的定理證明器，為解決大語言模型幻覺方面的缺陷開辟了一條新途徑。對此，英偉達數學家Jim Fan稱，數學的AI Copilot（副駕駛）時代已經到來，未來人工智能将能夠發現數學定理。

而在國内，學而思則在近日推出了國内首個數學領域千億級大模型——MathGPT，解決LLM在數學領域的三大挑戰——解對題、講清步驟、内容有趣生動。基于這樣的目标，MathGPT結合大模型和計算引擎兩者能力。前者負責了解題目、分步解析，并在合适的步驟自行調用計算引擎，以此來提高正确率。基于海量名師解題過程的資料進行模型訓練，模型的解題步驟可以更加清晰。再引入優秀老師的教學理念和方法，模型在解題趣味性上也能進一步提高。

顯然未來，有關大模型在數學領域的落地大緻可以分為兩個方向：一是以科研為核心的前沿探索；二是面向更廣泛大衆的普惠教育、基礎教育提升。

本年度CNCC大會将舉辦《大語言模型在數學領域的前瞻問題與挑戰：理論、方法與應用》技術論壇，邀請人工智能領域的重磅學者專家，共同探讨現有的大語言模型在數學領域的應用與挑戰，以及未來發展發展方向。歡迎你的參與。

論壇名稱：“大語言模型在數學領域的前瞻問題與挑戰：理論、方法與應用”技術論壇

舉辦時間：10月28日下午

論壇主席：劉子韬暨南大學教授

共同主席：王延峰上海交通大學教授

想了解更多關于CNCC2023技術論壇資訊，歡迎觀看CCF公衆号【CNCC專家談】專題及CCF視訊号【CNCC會客廳】直播，我們将陸續邀請本屆CNCC技術論壇的論壇主席或重磅嘉賓，圍繞今年CNCC涉及到的熱門話題進行研讨交流，親自帶觀衆走進CNCC，敬請随時關注！

劉子韬：大語言模型在數學領域前瞻問題與挑戰：理論、方法與應用

繼續閱讀

Meta研究員破解大模型逆轉詛咒，推出《語言模型實體學》

解碼 AI：揭秘聊天機器人的“大腦” - 大語言模型

預測蛋白質共調控和功能，哈佛&MIT訓練基因組語言模型

【英特爾釋出新一代AI晶片，或成英偉達産品勁敵】英特爾在人工智能加速器領域取得了重要進展，其子公司HabanaLabs在

研究者提出人工智能新概念，讓大語言模型與真實實體世界進行互動

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服