天天看點

觀點 | 大語言模型的技術發展及金融領域應用展望

作者:金融電子化

文 / 中國科學院計算技術研究所  何清 羅平 曹逸軒

3 月15日,美國人工智能公司OpenAI 釋出GPT-4多模态大模型,支援文本和圖像輸入。與GPT-3.5相比,其回答準确度、文字輸入長度等各方面性能顯著提升。

2022年底OpenAI釋出的ChatGPT智能聊天機器人産品,因其驚豔的語義了解、智能會話和文本生成能力,獲得了全球 1 億月活使用者的熱情追捧。ChatGPT 是一個大型語言模型(Large Language Models, LLM),可以從海量未标注的資料集中獲得資訊,來識别、總結、翻譯、預測和生成内容。

ChatGPT基于大型預訓練語言模型 GPT-3.5,是GPT-4模型的前身。該模型在數千億字元量級的海量文本上進行預訓練學習,并通過基于人類回報的強化學習(RLHF)對模型進行微調(Fine-tuning),實作了與人類語言習慣、價值觀的對齊,提高了人機對話的品質和流暢度。

學界将ChatGPT及其背後的GPT-3.5視為人工智能領域劃時代的産物,與之前常見的語言模型(Bert/Bart/T5)相比,兩者之間幾乎是飛彈與弓箭的差別。ChatGPT讓“通用人工智能”成為可能,展現出了豐富的應用價值和商業潛力。本文将介紹ChatGPT的技術發展路徑和主要技術原理,并分析推測ChatGPT突出能力的來源。同時,本文還将重點關注ChatGPT在金融領域的應用場景,介紹ChatGPT的局限性及其未來的技術方向。

觀點 | 大語言模型的技術發展及金融領域應用展望

中國科學院計算技術研究所 何清

大語言模型的技術發展

傳統的機器學習模型,針對特定的任務,往往需要人工标注的資料進行監督學習——這需要耗費大量的人力、物力成本,在實際操作中往往難以擷取。是以,有着大量參數的神經網絡模型,容易由于缺失足夠的标注資料而陷入過拟合。過拟合是指模型的複雜度超過實際問題的需求,在訓練集上表現優異,但在測試集中的表現卻不盡如人意。

為解決這一問題,人工智能學界曾推出了許多大型的公開資料集,如ImageNet、CIFAR-10,有些資料集中人工标注的資料甚至達到了百萬量級。即便如此,對于許多有監督的自然語言處理任務來說,資料集還是遠遠不夠。

1.預訓練模型。預訓練模型(Pretrained Models,PTMs)的出現,将自然語言處理帶入一個新的時代,在有限的人工标注資料下也能訓練出足夠有效的模型。預訓練模型利用遷移學習的思想,通過大量無标注的資料進行訓練,為下遊任務提供合理的參數初始化。如此一來,模型在遇到新的問題時,不用從零開始,隻需在原有預訓練模型的基礎上進行調整,就能夠取得良好的效果。

大規模預訓練模型,通過對大量資料進行無監督預訓練,能夠有效地學習語言的表達和語義,進而為各種自然語言處理任務提供了強大的支援。自2018年GPT-1、BERT模型的釋出以來,大規模預訓練模型發展迅速,不斷湧現出各種新的模型和技術。

BERT是首個參數量超過3億的預訓練模型,在GLUE測試中重新整理了11項任務記錄。BERT基于Transformers,在大量未标注的文本上,通過随機掩蓋掉文本中的一個詞讓模型進行“完形填空”,以及讓模型預測兩個句子是否連續,獲得了上下文相關的詞嵌入。這就使得模型能夠結合上下文,區分同一詞語在不同語境中的含義。

此後,大規模預訓練模型浪潮席卷而來,參數量與資料量都在以指數級的速度增長(如圖1)。參數量更大的GPT-2、GPT-3相繼推出,為自然語言生成和了解帶來了質的飛躍。ChatGPT背後的 GPT-3.5則在對話生成方面再次取得飛躍式進步。

觀點 | 大語言模型的技術發展及金融領域應用展望

圖1 LLM的參數量和資料量快速增長

GPT早于BERT推出,有着1.17億參數量,使用5GB資料進行訓練,取得了一定的效果。GPT-2與GPT相比,在網絡結構上并沒有太大的創新,有着15億參數,使用40GB資料進行訓練。GPT-2通過無監督的訓練,不通過任何調整,就能在一些有監督任務上取得很好的結果。這意味着當模型的參數量和資料量足夠大時,預訓練模型能夠涵蓋有監督任務。

GPT-3作為GPT-3.5的前身,加強了上下文學習的能力,他有1750億參數,使用45TB資料進行訓練,訓練語料主要來自于網站爬取的大型資料集、電子書網站,以及維基百科。他能夠從資料中學習到世界知識(World Knowledge)、常識、邏輯推理能力。隻要通過少量的示例,他就能夠完成指定的任務。

2. 微調。微調 (Fine-tuning) 是指在預訓練模型的基礎上,使用特定的任務以及相應的有标注資料進行訓練,以優化模型在這一特定任務上的表現。

ChatGPT采用的是“預訓練+微調”的二段式訓練政策。預訓練為大規模模型打牢基礎,而微調則是使模型充分發揮其語言能力的手段。第一階段“預訓練”的目的是,通過大量低成本收集的資料學習目标任務的共性,得到一種通用的模型。第二階段是“微調”,模型開始對特定的任務進行學習。

這意味着,盡管ChatGPT在文章生成、聊天對話、機器翻譯等複雜NLP任務上展現出強大的能力,但在預訓練過程中,ChatGPT并沒有直接針對這些複雜任務進行學習,他在第一階段的目标隻是使用大規模未标注的文本資料。例如網際網路上的海量文本、文章、新聞、社交媒體等,來學習語言的規律和結構,進而使其具有對自然語言的了解和生成能力。

GPT的預訓練是在學習做“詞語接龍”:模型根據已經輸入的内容,預測下一個字是什麼。模型的預測是一個采樣的過程,利用已有片段作為條件,預測下一個位置不同詞語出現的機率分布。在實際使用過程中,模型會根據這個機率分布在這些字中采樣得到輸出,是以ChatGPT對于相同的提問,可能會給出不同的回答。

在傳統的微調過程中,預訓練模型的大部分參數将保持不變,隻有特定任務的相關參數會在訓練過程中改變(如 :最終生成字元相關機率的參數)。遺憾的是,盡管傳統微調模型在特定任務上可以取得更好性能,但往往會造成其他任務上的性能下降。同時,傳統微調模型無法了解和處理複雜的推理問題,且訓練中難以獲得其所需要的大量有标注資料。

GPT模型已經通過大規模參數和預訓練,獲得了強大的語言表征和了解能力,但他的能力還無法在微調中充分展現。随着GPT-2、GPT-3等模型的提出,普通的微調模型被改進為基于提示詞、指令等微調模型,使模型的推理、了解人類指令等能力大幅提升。

而真正成就 ChatGPT的微調,是代碼訓練與基于人類回報的強化學習這兩種方法。

3. 代碼訓練。代碼訓練(Coding)是指将代碼或代碼注釋作為資料集,提供給模型訓練,以使其生成正确代碼的過程。代碼訓練最初的目的,是為了使模型能夠了解代碼結構、内容的内在含義。然而,代碼中的内在邏輯與長距離依賴等特性,使得模型不僅學會了代碼的結構,同時還提升了在自然語言中的複雜推理能力。這一“副産物”極大提升了模型在了解和回答推理問題時的準确性。

ChatGPT能夠使用思維鍊進行複雜推理的能力,很可能是代碼訓練得神奇的副産物。從直覺上來說,面向過程的程式設計(Procedure-oriented Programming)跟人類逐漸解決任務的過程很類似,面向對象程式設計(Object-oriented Programming)跟人類将複雜任務分解為多個簡單任務的過程很類似。

此外,代碼訓練的另一個可能的副産品是長距離依賴。語言中的下個詞語預測通常是非常局部的,而代碼通常需要更長的依賴關系來做一些事情,比如前後括号的比對或引用遠處的函數定義等。同時,由于面向對象程式設計中的類繼承,代碼也可能有助于模型建立編碼層次結構的能力。

4. 基于人類回報的強化學習。大規模預訓練模型的一個共有缺陷是,在完成“零樣本推理”任務時,即遇到預訓練中沒有見過的任務時,了解和推理能力較差。傳統微調方法可以使模型更容易了解某一領域的問題,但同時對其他領域問題仍然無能為力。GPT系列模型借助 “基于人類回報的強化學習”(Reinforcement Learning with Human Feedback,RLHF)來解決這一問題。通過強化學習的方法,語言模型能夠根據人類提供的回報回答進行學習和優化,提高對話的生成品質。

在此過程中,RLHF的“環境”就是人類的回報,而“動作”即為模型生成回答的過程。與正常的有監督微調訓練方法不同,在RLHF方法中,人工給定的價值函數作為模型動作評價的依據 ;模型通過自行訓練,判斷自身所處的環境,選擇合适的反應以不斷最大化價值函數。

在具體實作中,RLHF分為三個子產品(如圖2)。

觀點 | 大語言模型的技術發展及金融領域應用展望

圖2 RLHF 訓練過程

第一個子產品與傳統微調方法類似,使用有監督資料集訓練以得到初步的回答生成模型。監督資料集包含一系列問題以及由人類編寫的回答,模型使用這一資料集在大規模預訓練模型上進行微調訓練。

第二個子產品利用人類的回報訓練生成獎勵函數(或稱價值函數):模型将對同一個問題生成多個回答,并讓人類對不同回答進行打分與偏好的排序,最後生成可預測使用者偏好的函數。

第三個子產品負責根據給定獎勵函數,使用強化學習方法疊代訓練優化模型的能力。模型對各種問題生成使得獎勵函數更高的回答,并以此疊代地微調自身參數,以使回答能夠最大化獎勵函數。

在RLHF訓練下,模型能夠在與人類的持續互動中不斷學習優化其回答,使得其回答更加可靠與可解釋。更重要的是,RLHF為模型提供了強大的零樣本推理能力。通過學習人類回報,模型能夠更加準确地了解問題,并感覺什麼情況模型也無能為力。

至此,ChatGPT擁有了響應人類指令的能力。以前,GPT-3的輸出主要訓練集中常見的句子,現在的模型會針對指令、提示詞生成更合理的答案。同時,當用于調整模型的指令數量超過一定的規模時,模型就可以自動在從未見過的新指令上也能生成有效的回答。考慮到使用者總會提出一些新的問題,這種對沒有見過的指令做出回報的泛化能力對于模型的實用部署至關重要。至此,ChatGPT的幾大重要子產品完全解放了大規模預訓練模型的語言表征潛力,這些子產品的應用使得ChatGPT在大量自然語言處理領域任務,如文本分類、實體識别、問答系統方面都取得革命性突破,大幅超越了先前的GPT-3模型。

ChatGPT在金融領域的應用場景

大模型技術不斷疊代,目前ChatGPT 可以有效了解人類需求、高效整理海量資料,以此對人類的問題進行針對性的回複,并讓通用人工智能在嚴肅工作場景的落地成為可能。知識密集型服務業,例如金融、法律、傳媒行業,對GPT類技術的需求更為迫切。本文将重點介紹ChatGPT 在金融領域的應用場景。憑借其強大的語義了解、語言生成以及知識整合能力,ChatGPT可以幫助金融機構提高效率、降低風險、提高客戶滿意度等。具體來說,應用場景包括以下幾方面。

一是智能投研。在投研領域,可以文檔結構識别的技術與語言生成技術相結合。例如,使用市面上成熟的文檔結構識别工具(如PDFlux)對大量的行業報告和公開的資訊披露文檔進行解析,再通過 ChatGPT進行資訊整合,準确把握目前市場熱點、行業趨勢,幫助研究人員收集整理資料,自動生成文章草稿,提高工作效率。

二是智能客服。銀行機構、證券公司通常需要應對大量的客戶咨詢,其中通常包含大量重複性、單一性的内容咨詢,如信用卡申請、賬戶查詢、貸款申請、保險咨詢等。使用GPT類大語言模型作為底層技術,開發智能客服機器人,可以精準了解客戶的需求,為客戶提供高效高質的解決方案。智能客服可以做到24小時線上解決使用者需求,提高使用者咨詢的響應度,提升客戶業務咨詢的滿意度。此外,ChatGPT還可以提供多語言支援,向不同語言的使用者提供咨詢服務。

三是智能投顧。投資咨詢是一項需要高度專業知識和經驗的工作,投資顧問需要了解市場、分析資料、制定政策等。ChatGPT作為一個擁有上千億參數的大語言模型,可以存儲海量相關領域知識,并根據需要對其高效檢索。通過分析市場資料、曆史趨勢,ChatGPT從大量投資組合資料中對投資決策進行預測和分析,生成投資決策報告和優化建議,提高投資組合的效率和收益。同時,ChatGPT也可以作為一種互動式投資決策工具,通過對話的方式和客戶進行交流,了解客戶的需求和投資目标,并結合最新研究報告中的投資建議,為客戶提供精準、個性的财富管理方案,可以顯著提升機構對長尾客戶的财富管理服務品質。

四是風險管理。一方面,ChatGPT可以通過學習曆史資料、行業趨勢,預測未來市場風險,為風險管理人員預警,并提供相應的風險管理建議。另一方面,ChatGPT還可以對市場、網際網路進行輿情監測,通過分析新聞報道、社交媒體咨詢,掌握有關機構的聲譽和口碑,幫助風險管理人員掌握實時資訊,發現和應對潛在風險。

五是交易執行。使用者可以通過語音或者文本輸入交易需求,ChatGPT将其轉化為可執行的交易指令,也能觸發預先設定好的交易政策和規則,實作自動買入、賣出等交易操作。

六是投資者教育。ChatGPT以根據投資者資料、偏好和需求,為投資者提供個性化的投資教育服務。得益于ChatGPT強大的對話互動能力,投資者可以通過對話互動的方式,與ChatGPT一對一地進行對話式學習,ChatGPT可以實時分析使用者目前狀态、抓住使用者痛點,針對性地回答投資者的問題、示範投資政策等。經過ChatGPT技術的加持,教育服務可以提升投資者獲得感,最終成為金融機構提升服務品質的有力工具之一。

随着技術的不斷發展,ChatGPT 技術在金融領域的應用場景将越來越多樣化和普及化。金融機構可以根據自身的需求和業務場景,利用ChatGPT技術實作自動化處理和智能化服務,提高效率和客戶滿意度。

ChatGPT的局限性

ChatGPT的表現已經相當令人驚豔,但依然存在一些局限性,有待進一步探索和研究。

一是事實性錯誤。ChatGPT給出的回答看起來非常完整且具有邏輯性,但細究内容卻會發現其中許多資訊存在誤差,甚至是“胡編亂造”。二是不擅長形式推理。GPT模型很難在數學或一階邏輯等形式嚴格的系統中進行推理。三是信念無法實時改寫。當模型表達對某事的信念時,如果該信念是錯誤的,我們可能很難糾正。四是時效性差。GPT模型無法直接搜尋網際網路,資訊時效性取決于模型資料庫的更新頻率。

盡管OpenAI緻力于不斷優化 ChatGPT,使其生成更加中立、客觀、安全和翔實的答案,拒絕不當問題,但例外情況仍然不可避免。是以,在對可控性有較高要求的關鍵任務,ChatGPT并不是最佳選擇,或者說需要搭配其他算法來謹慎規避風險,盡可能地做到準确無誤。

此外,硬體成本高也是阻礙 ChatGPT廣泛應用的一大原因。其成本主要可以拆分成訓練和推理兩個階段。據估算,在訓練階段,訓練一次的成本約為500萬美元。而在推理階段,根據Similarweb的資料,2023年1月份ChatGPT日活約1300萬人,每人平均1000字左右的問題,是以合計産生約130億字(173.3億個Token)。假設24小時平均配置設定任務,需要的A100 GPU數量為173. 3億×2×3000億/(20%×24小時×3600秒) =601.75 PetaFLOP/S。由于通路流量存在峰值,假定通路峰值是一天均值的5倍,是以共需要602台DGX A100伺服器才能夠滿足目前的通路量,僅僅是每日的電費開支,就達到了5萬美元左右。

未來展望

近日釋出的GPT-4,再次讓人們驚歎于大語言模型的潛力 :在各種專業和學術考試中,表現出與人類相當的能力。學界和業界都在共同期待大語言模型向着通用人工智能繼續邁進,以下三個有前景的技術方向讓人期待。

首先,增強LLM的複雜推理能力。正如前文所述,近年來GPT等模型的推理能力提升迅速,但其複雜推理能力仍然薄弱。即使是簡單的加減乘除運算,如果輸入的字元串過長,他的推理能力也會極速下降。如何運用代碼訓練、增加其他資料類型等方式增強GPT等大語言模型的推理能力,是未來重要的命題之一。

其次,多模态LLM。比起GPT-3.5,全新釋出的GPT-4更新為多模态大模型,可以接受圖像、文本等多種資料類型的輸入,并生成文本。從示範效果看,GPT-4不僅能識别自然圖像,還能識别文檔圖像,能力驚人。人有視覺、聽覺、觸覺、嗅覺、味覺等五種感官,同理,人工智能也可以進行多模态的輸入與輸出。未來,将圖像、視訊、音頻等圖像與多模态內建納入大模型,讓通用人工智能的發展和應用更具有想象力。

第三,具身智能(Embodied Vision)。GPT-4類似于人的大腦,但仍是在 GPU叢集裡運作。具身智能指的是,為 GPT-4提供身體,讓模型與真實的世界發生交流和互動,并獲得回報、不斷優化。多模态LLM讓GPT-4耳聰目明,能夠聽到看到稠密的資訊 ;具身智能讓未來的模型能夠感覺實體世界,接收更加全方位的資訊。未來,“智能客服”或許不隻存在于聊天視窗裡,而能在真實世界,以人類的互動方式,輔助完成基礎性工作乃至初級、中級知識工作,讓人工智能更加通用(如圖3)。

觀點 | 大語言模型的技術發展及金融領域應用展望

圖3 人工智能的認知範圍不斷發展

本文回顧了大模型的訓練之路,介紹了ChatGPT在金融領域的應用場景,并指出了其應用中的局限性,分析了未來有可能的技術發展方向。未來學界、業界可以聯合研究,将具體業務場景中的多模态資料加入訓練,促進大模型的進一步技術發展與應用落地。

(欄目編輯:韓維蜜)

繼續閱讀