記者 | 彭新
編輯 |
算法、資料、算力後,中國人工智能開發的又一環節“AI模型”得到市場關注。
10月底,伺服器公司浪潮資訊釋出了開源人工智能巨量模型“源1.0”,主要針對自然語言處理領域,即語言模型,意在吸引更多開發者進行人工智能自然語言應用探索。
所謂語言模型,就是讓機器了解并預測人類語言的技術。源、GPT-3被通稱為 “大型語言模型”,指的是一種利用深度學習的算法,通過數千本書和網際網路的大量文本進行訓練,将單詞和短語串在一起。
2020年,美國人工智能非營利組織OpenAI曾釋出GPT-3模型,參數量首次突破千億大關,達到1750億,采用570GB訓練資料集,可以答題、翻譯、寫文章等,吸引了全球AI行業的目光。《麻省理工科技評論》就評價GPT-3:“人們認為可以寫出任何東西:同人小說、哲學辯論、甚至代碼。人們甚至就GPT-3是否是第一個通用人工智能展開争論。”
自那以後,國内就在積極推進這類大模型在中文世界的落地。阿裡巴巴曾聯合清華大學,在今年3月釋出了參數規模達1000億的中文預訓練模型M6,可應用于電商産品描述生成、問答、中國詩歌生成等任務。今年4月,華為釋出華為雲盤古大模型,開發者隻需少量行業資料,就可以快速開發出精準度更高、泛化能力更強的AI模型。
本次浪潮釋出的源1.0在規格上達到了新高。浪潮表示,源1.0模型參數規模為2457億,訓練采用的中文資料集達5000GB。相比GPT-3模型,源1.0的參數規模領先40%,訓練資料集規模領先近10倍。
根據浪潮提供的測試資料,将源1.0模型生成的對話、小說續寫、新聞、詩歌、對聯與由人類創作的同類作品進行混合并由人群進行分辨,測試結果表明,人群能夠準确分辨人與“源1.0”作品差别的成功率已低于50%。
在零樣本學習榜單中,“源1.0”超越業界最佳成績18.3%,在文獻分類、新聞分類,商品分類、原生中文推理、成語閱讀了解填空、名詞代詞關系6項任務中獲得冠軍;在小樣本學習的文獻分類、商品分類、文獻摘要識别、名詞代詞關系等4項任務獲得冠軍。在成語閱讀了解填空項目中,源1.0的表現已超越人類得分。
企業競相釋出 “大型語言模型”,原因在于AI技術普及的瓶頸。在開發效率上,AI應用開發太慢,阻礙了技術和需求的結合,而大模型被視為可行方向。“目前來看,通過大規模資料訓練超大參數量的巨量模型,被認為是非常有希望實作通用人工智能的一個重要方向。”浪潮首席科學家王恩東認為。
“大模型最重要的優勢,是進入大規模可複制的産業落地階段,隻需小樣本的學習,也能達到比以前更好的效果,而且模型參數規模越大,這種優勢越明顯,可大大降低各類使用者的開發使用成本。”浪潮人工智能研究院首席科學家吳韶華說。
在推廣形式上,源1.0采用開源模式,面向高校、科研機構的人工智能方向的團隊,以及浪潮合作夥伴和智能計算中心開放。吳韶華設想,源1.0從資料、API、代碼這些方面來做開源開放。同時,浪潮還将與合作夥伴推動“源”在國産的晶片上應用的遷移和開發。
浪潮預計,源1.0中文巨量模型的釋出,使得中國學術界和産業界可以使用一種通用巨量語言模型的方式,大幅降低針對不同應用場景的語言模型适配難度,并提升在小樣本學習和零樣本學習場景的模型泛化應用能力。
AI市場應用規模正逐漸加大。浪潮資訊AI&HPC産品線總經理觀察到,對于AI模型的算力需求,每3到4個月就會翻一倍,預計每天會增長一個數量級。“我們可以非常直接的感受到,AI雲服務平台已經在為工作生活等方方面面提供包括雲識别、圖象識别、自然語言處理等非常多AI服務的調動。每天的調動量會超過數萬億次。”
對浪潮資訊而言,以“大型語言模型”為代表的AI模型對算力需求巨大,有助于推動智能計算中心等項目落地和推廣。事實上,智能計算中心是近期各家中國科技企業都在力推的項目,浪潮、華為、新華三等IT硬體廠商可通過售賣硬體,從中獲益。
在AI應用上,人工智能的炫技式應用已經被行業解決方案替代,大算力支援已經不可或缺。例如,部分政府的市民服務熱線在使用了自動派單、語義識别、情緒感覺等人工智能技術之後,速度從過去的幾分鐘縮短到了幾秒鐘。根據浪潮的設想,源1.0模型可涉及營運商智能運維,在智能辦公場景自動生成報告,在手機網際網路場景自動對話的智能助手,在電商網際網路場景中的智能客服及文字識别、文本搜尋、翻譯等應用場景。
受益于AI巨大市場,浪潮資訊相關業務保持增長。根據2020年IDC的全球AI伺服器的資料,浪潮、戴爾和HPE,分列全球市場的前三位,其中浪潮市場占有率達到16.4%。IDC還預計,到2025年中國AI伺服器的市場規模會達到108億美元。