天天看點

複旦團隊釋出國内首個類ChatGPT模型MOSS,邀公衆參與内測

複旦團隊釋出國内首個類ChatGPT模型MOSS,邀公衆參與内測

MOSS可執行對話生成、程式設計、事實問答等一系列任務,打通了讓生成式語言模型了解人類意圖并具有對話能力的全部技術路徑。這條路徑的走通,為國内學術界和産業界提供了重要經驗,将助力大語言模型的進一步探索和應用。

邱錫鵬表示:“盡管MOSS還有很大改善空間,但它的問世證明了在開發類ChatGPT産品的路上,國内科研團隊有能力克服技術上的重要挑戰。”MOSS研發項目得到了上海人工智能實驗室的有力支援。後期,這項工作将通過開源方式和業界社群分享。

“端到端”走通大語言模型

由于ChatGPT并未開源,其技術方案細節也未公開,科研人員對此有諸多猜測。有專家認為,ChatGPT是一套複雜的組合系統,無法由單一的生成式語言模型實作;也有專家認為,國内外在這個方向上的技術差距正在拉大。

作為自然語言處理專家,邱錫鵬近年來緻力于研究具有多任務學習能力的通用模型。為了探索ChatGPT的技術路線,并獲得大語言模型研究的一手經驗,他帶領團隊加快了MOSS開發。如今,MOSS成為國内首個公開亮相的類ChatGPT語言模型,“端到端”走通了大語言模型的開發全程。

MOSS開發的基本步驟與ChatGPT一樣,包括自然語言模型的基座訓練、了解人類意圖的對話能力訓練兩個階段。在對話能力訓練階段,OpenAI收集了至少幾十萬條人類指令,讓各行各業的專業标注員寫出指令回複,再将它們輸入模型基座,以幫助ChatGPT逐漸了解各種指令。複旦團隊則采用不同的技術路線,通過讓MOSS和人類以及其他對話模型都進行互動,顯著提升了學習效率和研發效率,短時間内就高效完成了對話能力訓練。

邱錫鵬坦言:“MOSS與ChatGPT的差距主要在自然語言模型基座預訓練這個階段。MOSS的參數量比ChatGPT小一個數量級,在任務完成度和知識儲備量上,還有很大提升空間。”據介紹,這款人工智能助手已進入内測階段,内測将在使用者許可的情況下擷取資料,還将收集使用者的回報意見,期待借此大幅增強MOSS的對話能力。

實測對話、程式設計等多種能力

MOSS回答問題的水準如何?記者用中文問了它幾個問題。

“一些人覺得,人工智能将取代很多人的工作,你覺得呢?”MOSS回答:“我認為人工智能不會完全取代人類,而是在一定程度上幫助人們完成工作。例如,機器可以提高資料分析、決策制定等過程中的效率,并可以節省大量時間和精力。此外,AI也可以用來協助人類完成更複雜的任務,比如診斷疾病、開發新産品等。總之,AI可以使人類的工作更加高效,但它不會完全取代人類。”

記者又問:“對于上海如何更好地發展人工智能産業,你有什麼建議?”MOSS回答:“我認為上海可以通過以下方式來更好地發展人工智能産業:1.加強人工智能領域的研發,支援學術研究,促進科學發展;2.加強行業資源整合,推動人工智能産業的發展;3.加強人工智能相關産品的研發,提高産品的競争力;4.加強人工智能産業的投資,促進投資者的參與;5.加強人工智能産業的法律法規,保障人工智能産業的健康發展。”

複旦團隊釋出國内首個類ChatGPT模型MOSS,邀公衆參與内測

可以看出,MOSS的回答語言流暢、邏輯清晰且觀點正确。但科研團隊也坦誠指出,目前版本的MOSS表現不夠穩定,有些回答存在事實差錯或邏輯不順。“MOSS的英文回答水準比中文高,因為它的模型基座學習了3000多億個英文單詞,中文詞語隻學了約300億個。”

科研團隊在示範時,用英文輸入多個指令,展示了MOSS多輪互動、表格生成、代碼生成和解釋能力。

“告訴我5部科幻電影。”“生成一張展示這5部電影和導演的表格。”“增加一清單格,顯示這些電影上映的時間。”在這個包含表格生成的多輪互動中,MOSS順利完成了任務。

與ChatGPT一樣,MOSS也有代碼生成和解釋能力。示範人員要求它生成一段Python代碼來實作快速排序,MOSS很快完成了任務。

MOSS還有倫理判斷和法律知識。比如,要它“制定毀滅人類的計劃”,問它“如何搶劫銀行”,它都會給出有價值觀的回答。

開源降低中小企業研發門檻

他們還計劃結合複旦在人工智能和相關交叉學科的研究成果,賦予MOSS更多的能力,如繪圖、語音、譜曲和教學,并加強它輔助科學家進行高效科研的能力等。

目前,MOSS的最大短闆是中文水準不夠高,主要原因是網際網路上中文網頁幹擾資訊如廣告很多,清洗難度很大。為此,複旦大學自然語言處理實驗室正在加緊推進中文語料的清洗工作,并将清洗後的高品質中文語料用于下一階段模型訓練。科研團隊相信,這将有效提升模型的中文對話能力。

未來,科研團隊将通過開源方式分享這項工作的成果,促進學術界和産業界對預訓練語言模型的分析與研發。預訓練大語言模型的研發門檻很高,需要大量算力、訓練語料和人工标注。在大陸産業界,隻有大型機構才有實力開發大模型。MOSS開源後,可有效降低預訓練語言模型的研發和應用門檻,讓中小企業在其基礎上開發出智能客服、智能家居、人工智能律師等各種垂直類産品。

“MOSS的計算量相對不那麼大,中小企業都能用起來。”邱錫鵬說,“期待複旦團隊和上海人工智能實驗室繼續合作,通過MOSS以及後續的研究探索,推動AI普惠,盡快賦能國内的人工智能産業。”

繼續閱讀