天天看點

“曹植”大語言模型是如何誕生的?來看達觀資料CTO的講述

作者:上觀新聞
“曹植”大語言模型是如何誕生的?來看達觀資料CTO的講述

“曹植七步成詩,他寫的最著名的篇章《洛神賦》就是古代文學作品裡典型的首屈一指的長文本。這也是‘曹植’大模型的專長,做長文檔資料智能化的分析寫作工作。”2023年世界人工智能大會(以下簡稱“WAIC2023”)上,達觀資料董事長陳運文正式釋出“曹植”垂直領域大語言模型(以下簡稱“曹植”大模型)時如此介紹道。

這是國内首個垂直行業專用的自主可控的國産GPT大語言模型,可準确完成多類型、複雜結構的長文本寫作,自動起草多種類型的文檔,未來将實作多模态内容生成,如長文檔中的表格、圖表、圖檔等。那麼“曹植”是如何誕生的呢?來聽達觀資料CTO紀達麒的講述。

深耕NLP領域

達觀資料成立于2015年,成長于上海浦東軟體園,其創始團隊都是與中國文字打過十幾年交道的程式老兵,并深耕于NLP(自然語言處理)領域。今年3月,随着垂直、專用、自主可控的國産版ChatGPT“曹植”大模型的釋出,達觀資料正不斷推動着NLP技術向不同行業領域深度結合。

“曹植”大語言模型是如何誕生的?來看達觀資料CTO的講述

NLP被譽為AI皇冠上的明珠。從網際網路拓寬至更廣泛行業,達觀資料在金融、政務、制造等行業積累了垂直領域的大量資料、人才與NLP傳統架構。在與來自金融、政務、制造等行業的客戶進行了廣泛的交流後,達觀資料聯合創始人、CTO紀達麒逐漸發現,NLP技術在辦公文檔方面有着廣闊的應用前景。

2017年,谷歌發表的論文中提出,NLP關于“了解”和“生成”的兩個技術路線。“基于達觀資料當時的優勢資源和未來發展,我們一開始就選擇了‘了解’這條技術路線。”紀達麒介紹。這一年,紀達麒和研發團隊運用知識圖譜、文字識别等技術開發的IDP智能文檔審閱系統進入市場。

随着人工智能的不斷發展,機器智能處理長文本的需求日益緊迫。随後,達觀資料便投入到大語言模型的開發工作中,紀達麒擔任該項目總負責人。這就是如今的“曹植”大模型誕生的起點。

“培養”出人工智能版“曹植”

“我們想‘培養’出人工智能版的‘曹植’,希望它能像大陸的曆史名人曹植一樣快速地生成長文本。”提及“曹植”大模型這一名稱的由來,紀達麒笑言,“這是我們員工在四五十個名字中票選出來的。”

“曹植”大語言模型是如何誕生的?來看達觀資料CTO的講述

“長文本”是“曹植”大模型的目标任務。差別于一問一答的簡單短文本生成,“曹植”大模型可準确完成多類型、複雜結構的長文本寫作,自動起草多種類型的文檔,同時具有自動排版、智能糾錯、文本潤色、自動生成摘要等特色功能;還可實作多模态内容生成,比如長文檔中的表格、圖表、圖檔等;支援中文、英文、法語、德語、日語、韓語等數十種語言的寫作,輔助人工大幅提高辦公效率;在長文檔翻譯方面,對原文的标題、段落等内容實作1:1版式還原,提供實時的翻譯體驗,廣泛應用于多語言文檔密集處理的場景。

這也是國内大規模語言模型中首批可落地的産業應用級模型,目前已在金融領域AIGC多場景投入應用。基于“曹植”系統,“曹植”大模型進一步夯實了達觀資料産業應用智能化基座,全面增強AI全産品矩陣能力。

責任編輯 楊林雨

文字 路小雨

來源 浦東釋出

繼續閱讀