大語言模型的炒作曲線

【編者按】大型語言模型有望成為加強人類的創造力以及解決問題的寶貴資産。

原文連結：https://www.stride.build/blog/the-llm-hype-curve

未經允許，禁止轉載！

作者 | Ako Gagarin 譯者 | 彎月

責編 | 夏萌出品 | CSDN（ID：CSDNnews）

最近幾個月，大型語言模型成為了全球的熱門詞彙，頻頻登上各大新聞頭條。這些複雜的模型，比如 OpenAI 的 GPT-4 和 Meta 的 LLaMA，激發了研究人員、開發人員和公衆的想象力。

然而，無異于任何一門具有變革性的技術，大型語言模型也經曆過炒作，随之而來的預期波動以及恐懼。2022 年底，随着人們對人工智能與生成式 AI 的期望達到高潮，Gartner 釋出了一份炒作周期報告。随着 GPT-4 宣布後，新 AI 産品的開發呈爆炸式增長，時隔不到一年，如今我們處于大型語言模型炒作曲線的什麼位置？

大型語言模型究竟是什麼？

在讨論炒作曲線之前，我們先來介紹一下大型語言模型究竟是什麼。這種模型是生成式 AI 的一個子集，生成文本的能力得以優化，特别是在給定提示和相關上下文的情況下預測句子中的下一個單詞。這些模型接受了在非常大的資料集上的訓練，使用的參數超過十億個，而且經過了人類（或其他大型語言模型）的微調。這類模型包括 BERT、GPT 和 T5 等。說到底，大型語言模型就是文本電腦，知道如何根據給定的提示，建立人類可以了解的文本。

炒作曲線：從興奮到現實主義

在某種新技術出現時，經常能夠觀察到炒作曲線。初期階段，受到崇高的承諾和有遠見的預測的驅使，人們會産生極大的興奮和期待。就大型語言模型而言，生成連貫且與上下文緊密相關的文本的能力帶動了最初的炒作。媒體報道了這些模型的驚人功能，激發了各行各業無數人的想象力。同時，對于這類工具的誤解而産生的恐懼也引發了很多争議。

過高期望的峰值期

随着大型語言模型受到的關注越來越多，對其能力的期望也膨脹至前所未有的高度。人們設想未來人工智能生成的内容将徹底改變新聞業、客戶服務、内容創作，乃至個人助理等行業。然而，在這個高峰階段，我們必須謹記這些模型還遠非完美，并且有其局限性。

泡沫化的底谷期

在期望峰值過後，大型語言模型的實際情況逐漸浮出水面，并由此而進入一段底谷期。雖然這些模型可以生成令人印象深刻的文本或圖像，但它們也有可能生成不準确、帶有偏見或無意義的輸出。此外，在此階段，圍繞人工智能的倫理問題和對此類技術的潛在濫用被放大。結果是，熱情消退，公衆情緒向懷疑和恐懼傾斜。我認為，如今我們就處于這個階段，而且我們已經加速通過了過高期望的峰值期！雖然許多個人和公司利用這項技術創造了巨大的價值，但隻是少數個例，而且很多人仍處于泡沫化的底谷期。

穩步爬升的光明期

随着最初的炒作消退，人們對大型語言模型的了解開始更加真實。研究人員和開發人員積極緻力于解決與這些模型相關的局限性和挑戰。在微調技巧、資料品質和減少偏差等方面進行了改進。人們的關注從過高的期望過渡到實際應用的改進技術。在穩步爬升的光明期，大型語言模型的真正潛力和價值開始具體化。大型語言模型并不能解決所有的問題，但可以非常接近。根據帕累托法則（又名80/20法則，約僅有20%的因素影響80%的結果），這些工具隻有20%的機率幫助你創造80%的價值，具體取決于用例。這些模型以人與機器之間前所未有的方式釋放創造力。不僅可以加快構思的過程，而且還可以消除解決問題的許多障礙。

實質生産的高原期

‍最終，大型語言模型将找到各自的立足之地，并為多個行業做出有意義的貢獻。改進部署戰略，更好地了解自己的優勢和局限性，再加上适當的道德考量，這些模型都能成為有價值的工具。大型語言模型不僅能幫助我們完成内容建立、語言翻譯、聊天機器人等任務，甚至能夠輔助研究人員的研發工作。實質生産的高原期标志着大型語言模型的成熟階段，它們将無縫融入我們的生活，并成為提供支援的工具。這一切何時會實作還有待觀察，但可能比我們想象的要早！

總結

‍毫無疑問，大型語言模型在人工智能領域引起了轟動。圍繞這些模型的炒作曲線是一個自然而然的過程，任何變革性的技術都會經曆。雖然最初過高的期望可能會引發低谷期，但必須承認這些模型具有巨大的潛力。随着技術的不斷成熟，難題的攻克，以及應用程式的改進，大型語言模型有望成為加強人類的創造力以及解決問題的寶貴資産。了解和管理炒作曲線，可以幫助我們負責任地利用這些強大的工具，并利用它們改善社會。

大語言模型的炒作曲線

繼續閱讀

小技巧大功效，「僅閱讀兩次提示」讓循環語言模型超越Transformer++

PubMed GPT ：用于生物醫學文本的特定領域大型語言模型

大語言模型的現狀：沿着S型曲線發展

卡内基梅隆大學推出生成式人工智能和大型語言模型線上研究所學生證書

如何從0開始搭建大語言模型并進一步訓練微調?

微軟、英偉達和OPENAI都在全力支援，這就是目前最接近于特拉斯“擎天柱”的人形機器人！8月6日，Figure公司正式發

論文解讀 | ACL 2024：自我蒸餾在語言模型微調中架起分布差異的橋梁

報告：大語言模型自然語言處理崗位招聘數同比增111%

一周全球公司十大要聞 | 阿裡大語言模型向全球開源社群開放；波音工會罷工737暫停生産

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

李紳、胡韌奮、王立軍丨古漢語大語言模型的建構及應用研究

兩萬字實錄：大語言模型、提示學習與未來科技研發的交彙點

蘋果發文質疑：大語言模型根本無法進行邏輯推理

機構看衰專家批評項目艱難，大語言模型會不會成為即将破碎的AI泡沫？

百萬魯棒資料訓練，3D場景大語言模型新SOTA！IIT等釋出Robin3D

CNCC | 探索大語言模型的潛能與局限——大語言模型的能力邊界在哪