天天看點

華泰證券:從BloombergGPT看金融GPT機遇

2023年3月30日,金融資訊提供商彭博社釋出了專為金融領域打造的大語言模型(Large Language Model,LLM)Bloomberg GPT。該模型依托彭博社的大量金融資料源,建構了一個3630億個标簽的資料集,支援金融行業内的各類任務,在執行金融任務上的表現遠超過現有模型,在通用場景上的表現與現有模型也能一較高下。

華泰證券分析師謝春生(執業:S0570519080006)認為,掌握金融資料的國内廠商也有望複制Bloomberg GPT的路徑,實作大語言模型在金融場景的有效賦能。

核心突破在于金融語料

盡管Bloomberg GPT的模型參數介于GPT-2與GPT-3之間。但BloombergGPT的金融垂直能力遠超GPT系列。

分析師指出:

根據論文《Bloomberg GPT: A Large Language Model for Finance》的模型介紹顯示,Bloomberg GPT同樣基于典型的Transformer架構,Bloomberg GPT的模型參數介于GPT-2與GPT-3之間,GPT-2模型參數為1.5億,GPT-3模型參數為1,750億,Bloomberg GPT的模型參數為500億。

官方論文《Bloomberg GPT: A Large Language Model for Finance》中的測試結果顯示,Bloomberg GPT在執行金融任務上的表現超過現有的通用LLM模型,在通用場景上的表現與現有通用LLM模型能力基本持平。

盡管Bloomberg GPT的模型參數相較于GPT-3較小,但分析師表示,依托彭博社的大量金融資料源,Bloomberg GPT在預訓練中獲得了大量高品質金融資料,并對預訓練資料進行了一系列的清洗、标注,Bloomberg GPT在通用能力與GPT-3基本持平的情況下,實作了金融垂直能力的大幅增強。

開拓開源模型+垂直資料的LLM新思路

Bloomberg GPT在開發方式上有何獨特之處?分析師認為,在模型建構上,Bloomberg GPT顯示出了卓越的創新,為國内金融資料公司開發大模型提供了有意義的路徑參考。

具體而言,主要展現在五個方面:

1)垂直領域語言模型:過去的大語言模型多為基于通用文本訓練的通用模型,垂直領域模型多為僅基于垂直領域資料訓練垂直模型,Bloomberg GPT開創了通用+垂直的混合訓練方法,讓模型兼具通用性與專業性;

2)訓練資料:過去的大語言模型的預訓練資料很大程度上依賴于網頁抓取資料,如C4、ThePile、Wikipedia等,Bloomberg自建了高品質的大規模金融資料集;

3)模型評估:Bloomberg在對模型進行了公共、金融NLP基準測試之外,還對模型進行了一系列基于Bloomberg内部任務的性能測試;

4)Token化(Tokenizer):将訓練文本Token化是模型訓練的關鍵步驟,Bloomberg使用Unigram模型取代greedymerge-basedsub-word模型,實作更智能的token化轉換;

5)模型建構方法:以GPT-3、GPT-4為代表的大語言模型均由大型的專業人工智能團隊開發,并且模型訓練需要大量算力;受益于開源模型BLOOM的項目實踐與Bloomberg在垂直領域高品質資料的深厚積累,Bloomberg GPT成功證明了一個中等規模的團隊可以在垂直領域的特定資料上生産同樣具有競争力的大語言模型。

金融GPT未來可期

分析師認為,Bloomberg GPT未來有望應用于以下三大場景:

1)Bloomberg查詢語言的生成:Bloomberg GPT可以将使用者自然語言查詢轉換為有效的Bloomberg查詢語言,使與金融資料的互動更加自然;

2)新聞标題的建議:Bloomberg GPT可以為Bloomberg的新聞應用程式提供支援,協助新聞工作者完成新聞短标題的撰寫;

3)金融問答:得益于金融垂直領域知識的輸入,Bloomberg GPT可以更加準确地回答金融相關的問題,例如在識别公司CEO的問答上,Bloomberg GPT的回答相較通用模型更為準确。

分析師指出,作為并非聚焦人工智金融垂直領域廠商,Bloomberg為金融GPT發展提供了具有參考價值的有益示範。

掌握豐富的金融垂直知識與現有AI産品布局,基于高品質的金融資料與開源的大語言模型,同樣有機會打造專屬金融場景的大語言模型,實作大語言模型在金融場景的有效落地,讓大語言模型成為底層的AI作業系統。

本文主要觀點來自華泰證券分析師謝春生(執業:S0570519080006)撰寫的報告《從BloombergGPT看金融GPT機遇》,有删節

繼續閱讀