“曹植”大語言模型是如何誕生的？來看達觀資料CTO的講述

作者：上觀新聞 2023-08-29 17:21:00

“曹植七步成詩，他寫的最著名的篇章《洛神賦》就是古代文學作品裡典型的首屈一指的長文本。這也是‘曹植’大模型的專長，做長文檔資料智能化的分析寫作工作。”2023年世界人工智能大會（以下簡稱“WAIC2023”）上，達觀資料董事長陳運文正式釋出“曹植”垂直領域大語言模型（以下簡稱“曹植”大模型）時如此介紹道。

這是國内首個垂直行業專用的自主可控的國産GPT大語言模型，可準确完成多類型、複雜結構的長文本寫作，自動起草多種類型的文檔，未來将實作多模态内容生成，如長文檔中的表格、圖表、圖檔等。那麼“曹植”是如何誕生的呢？來聽達觀資料CTO紀達麒的講述。

深耕NLP領域

達觀資料成立于2015年，成長于上海浦東軟體園，其創始團隊都是與中國文字打過十幾年交道的程式老兵，并深耕于NLP（自然語言處理）領域。今年3月，随着垂直、專用、自主可控的國産版ChatGPT“曹植”大模型的釋出，達觀資料正不斷推動着NLP技術向不同行業領域深度結合。

NLP被譽為AI皇冠上的明珠。從網際網路拓寬至更廣泛行業，達觀資料在金融、政務、制造等行業積累了垂直領域的大量資料、人才與NLP傳統架構。在與來自金融、政務、制造等行業的客戶進行了廣泛的交流後，達觀資料聯合創始人、CTO紀達麒逐漸發現，NLP技術在辦公文檔方面有着廣闊的應用前景。

2017年，谷歌發表的論文中提出，NLP關于“了解”和“生成”的兩個技術路線。“基于達觀資料當時的優勢資源和未來發展，我們一開始就選擇了‘了解’這條技術路線。”紀達麒介紹。這一年，紀達麒和研發團隊運用知識圖譜、文字識别等技術開發的IDP智能文檔審閱系統進入市場。

随着人工智能的不斷發展，機器智能處理長文本的需求日益緊迫。随後，達觀資料便投入到大語言模型的開發工作中，紀達麒擔任該項目總負責人。這就是如今的“曹植”大模型誕生的起點。

“培養”出人工智能版“曹植”

“我們想‘培養’出人工智能版的‘曹植’，希望它能像大陸的曆史名人曹植一樣快速地生成長文本。”提及“曹植”大模型這一名稱的由來，紀達麒笑言，“這是我們員工在四五十個名字中票選出來的。”

“長文本”是“曹植”大模型的目标任務。差別于一問一答的簡單短文本生成，“曹植”大模型可準确完成多類型、複雜結構的長文本寫作，自動起草多種類型的文檔，同時具有自動排版、智能糾錯、文本潤色、自動生成摘要等特色功能；還可實作多模态内容生成，比如長文檔中的表格、圖表、圖檔等；支援中文、英文、法語、德語、日語、韓語等數十種語言的寫作，輔助人工大幅提高辦公效率；在長文檔翻譯方面，對原文的标題、段落等内容實作1:1版式還原，提供實時的翻譯體驗，廣泛應用于多語言文檔密集處理的場景。

這也是國内大規模語言模型中首批可落地的産業應用級模型，目前已在金融領域AIGC多場景投入應用。基于“曹植”系統，“曹植”大模型進一步夯實了達觀資料産業應用智能化基座，全面增強AI全産品矩陣能力。

責任編輯楊林雨

文字路小雨

來源浦東釋出

“曹植”大語言模型是如何誕生的？來看達觀資料CTO的講述

繼續閱讀

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

參數少量提升，性能指數爆發！谷歌：大語言模型暗藏神秘技能