天天看點

技術科普--大語言模型概述

作者:翻譯技術千千問

定義

大型語言模型(LLM)是基于大量資料進行預訓練的超大型深度學習模型。底層轉換器是一組神經網絡,這些神經網絡由具有自注意力功能的編碼器和解碼器組成。編碼器和解碼器從一系列文本中提取含義,并了解其中的單詞和短語之間的關系。

轉換器 LLM 能夠進行無監督的訓練,但更精确的解釋是轉換器可以執行自主學習。通過此過程,轉換器可學會了解基本的文法、語言和知識。

與早期按順序處理輸入的循環神經網絡(RNN)不同,轉換器并行處理整個序列。這可讓資料科學家使用 GPU 訓練基于轉換器的 LLM,進而大幅度縮短訓練時間。

借助轉換器神經網絡架構,您可使用非常大規模的模型,其中通常具有數千億個參數。這種大規模模型可以攝取通常來自網際網路的大量資料,但也可以從包含 500 多億個網頁的 Common Crawl 和擁有約 5700 萬個頁面的 Wikipedia 等來源攝取資料。

發展曆程

根據維基百科上的資訊,自然語言處理(NLP)的曆史與大型語言模型的發展緊密相關。以下是一些關鍵的曆史時刻:

(1)早期探索:

機器翻譯的曆史可以追溯到17世紀,哲學家如萊布尼茨和笛卡爾提出了關于語言之間單詞關系的編碼提案。1950年,艾倫·圖靈發表了著名的文章《計算機器與智能》,提出了現在稱為圖靈測試的智能标準。

(2)NLP系統的早期成功:

1960年代,出現了一些顯著的NLP系統,如SHRDLU,這是一個在限制性“塊世界”中工作的自然語言系統。

1970年,William A. Woods引入了增強過渡網絡(ATN),用于表示自然語言輸入。

(3)機器學習的引入:

1980年代末,NLP領域發生了革命,引入了用于語言處理的機器學習算法。

這一時期,研究逐漸聚焦于統計模型,這些模型基于輸入資料的特征賦予實值權重,做出軟性、機率性的決策。

(4)最近的研究趨勢:

最近的研究越來越多地聚焦于無監督和半監督學習算法,這些算法能夠從未經手動标注的資料中學習。

(5)國際平台發展

Google的BERT(2018年):

BERT(Bidirectional Encoder Representations from Transformers)是谷歌推出的模型,采用了Transformer架構,特别在了解語言上下文方面取得了突破。

OpenAI的GPT系列(2018年起):

GPT(Generative Pre-trained Transformer)系列,從GPT到GPT-3,逐漸提升了模型的規模和能力,特别是GPT-3以其巨大的參數規模和廣泛的應用能力而聞名。

GitHub Copilot(2021年):

GitHub Copilot是由GitHub和OpenAI共同開發的AI程式設計助手,基于OpenAI的Codex模型,專門針對程式設計語言進行了訓練。它能夠根據注釋自動生成代碼片段,支援多種程式設計語言。

Anthropic的Claude:

Claude是由Anthropic開發的一種大型語言模型,這個模型在設計時特别注重安全性和可解釋性,旨在建立一個更可靠、更符合倫理的AI。

(6)中國平台發展

百度的ERNIE系列:

ERNIE(Enhanced Representation through Knowledge Integration)是百度推出的一系列模型,特别在中文NLP任務中表現出色。

文心一言(百度):

文心一言是百度開發的聊天機器人,能夠與人互動、回答問題及協作創作,被視為ChatGPT的中國競争對手。

通譯千問(科大訊飛):

通譯千問是科大訊飛推出的大型語言模型,專注于機器翻譯和跨語言了解,提供高品質的翻譯服務。

天工開物(華為):

天工開物是華為推出的大型預訓練語言模型,旨在提高機器了解和生成自然語言的能力。

訊飛星火(科大訊飛):

訊飛星火是科大訊飛推出的另一個重要的語言模型,主要用于語音識别和語音合成,強化了訊飛在語音技術領域的領先地位。

運作邏輯

LLMs是通過深度學習訓練出來的神經網絡模型,能夠執行各種語言任務,如文本生成、翻譯、摘要、問答等。

(1)模型核心

大部分LLMs基于一個叫做“Transformer”的神經網絡架構。Transformer架構根據Encoder編碼得到的上下文語義,再通過Decoder多輪注意力解碼實作語言了解與生成。

(2)訓練過程

預訓練: 在海量文本資料上進行無監督預訓練,學習文本的統計規律和語言表示。預訓練可提高模型對語言的了解能力。

微調: 針對特定任務(如翻譯、摘要等)進一步訓練,使用少量标注資料對預訓練模型進行微調,使其在特定領域表現更優。

(3)工作原理

輸入: 使用者輸入一段文本,如問題或提示。處理: 模型通過自注意力機制處理輸入文本,了解上下文和語義。輸出: 模型生成響應,這可能是答案、續寫的文本或其他相關資訊。

應用場景

LLMs有很多實際應用。

(1)文本生成

LLM能夠根據使用者給出的提示詞,生成自然語言,例如文案、小說、腳本、問卷等一系列書面内容。使用者給出的提示越詳細,生成的内容品質也越高。

(2)知識庫回答

該技術通常稱為知識密集型自然語言處理(KI-NLP),是指可以根據數字存檔中的資訊幫助回答特定問題的 LLM。

(3)搜尋

LLM相比傳統的搜尋引擎,可以更深入地了解語言并找到相關的結果。它不僅支援使用者輸入關鍵詞,還支援長短句以及具體明确的問題。

(4)機器翻譯

LLM可以自動從源語言文本資料中提取出關鍵詞、短語等特征,進而更好地了解句子的語義和結構,提高機器翻譯的準确性和流暢性。

(5)代碼生成

LLM 擅長根據自然語言提示生成代碼,例如 JavaScript、Python、PHP、Java 和 C# 等程式設計語言的代碼。

(6)文本分類

使用叢集, LLM可以對含義或情緒相似的文本進行分類。用途包括衡量客戶情緒、确定文本之間的關系和文檔搜尋。

特别說明:本文僅供學習交流,如有不妥歡迎背景聯系小編。

- END -

原創來源:北外CAT課程展示-張恩桐、羅邵雯-2023

推文編輯:張恩桐、羅邵雯

繼續閱讀