GPT中文比國産大模型強？ | 對話科學家清華大學孫茂松

搜狐科技《思想大爆炸——對話科學家》欄目第18期，對話歐洲科學院外籍院士、清華大學計算機與科學技術系教授、清華大學人工智能研究院常務副院長孫茂松。

嘉賓簡介

孫茂松，歐洲人文和自然科學院外籍院士，中國人工智能學會會士，中國中文資訊學會會士，清華大學計算機科學與技術系長聘教授，清華大學人工智能研究院常務副院長。孫茂松長期以來從事自然語言處理、人工智能以及社會人文計算等方面的研究工作。截至2021年3月，孫茂松獲國家發明專利4項，日本專利1項，在國際刊物、國際會議、中國國核心心刊物上共發表論文約130篇，Google Scholar總引用數約1400次。

劃重點：

ChatGPT主要用英文資料做訓練，為何中文能力也很強？英語的語料覆寫面大，品質較高，很多學術論文都是英文。英語訓練很好地刻畫了語義空間，這時再加入中文語料，相當于在語義空間裡把中文和英文做某種對齊。這種情況下，它的主要能力是由英語帶過來的。

想要進一步提升大模型的中文能力，需建設高品質的語料庫，比如像中文的科技論文庫之類的。另外，大模型真的要做到通用程度的話，英文能力要有，再去做中文，把中文語料再搞大一些，這樣可能會把能力進一步地提升。

AI賦能科學研究我覺得天地遼闊，現在才是剛剛開始，努力耕耘的話，應該很快就有不錯的收獲。

如果你覺得科研枯燥，就請你不要做科研。一定要有興趣才來做，而不是把它簡單當成一份工作，有興趣就不會覺得枯燥，反而會覺得其樂無窮。

出品 | 搜狐科技

作者 | 鄭松毅

近日，由中國科協科學技術傳播中心與清華大學求真書院主辦的基礎科學與人工智能大會在北京國家科技傳播中心召開。

大會開場前，圍繞如何提升大模型中文了解能力、人工智能如何賦能基礎科學研究等問題，搜狐科技與歐洲科學院外籍院士、清華大學計算機與科學技術系教授、清華大學人工智能研究院常務副院長孫茂松進行了對話。

孫茂松曾将ChatGPT稱為“通用人工智能的幽靈”，并用杜牧的《阿房宮賦》舉例，ChatGPT精準的挑出了文中所有描寫阿房宮的句子，令他不禁感歎ChatGPT了解中文能力之強。

當被問及為什麼ChatGPT主要用英文資料做訓練，為什麼其仍具備強大的中文了解及創作能力時，孫茂松表示，“英語的語料足夠大，覆寫面比中文要好，品質也比較高，很多學術論文都是英文，能被用來訓練的就多。是以通過英語的語言訓練，很好地刻畫了語義空間。語義空間和語言是相對獨立的，但又不完全獨立，這時候再用一些中文語料，相當于在語義空間裡把中文和英文做某種對齊。這種情況下，它的主要能力是由英語帶過來的。”

孫茂松認為，語言大模型提升中文語言能力的關鍵在于提升中文語料的品質和數量。他強調，“高品質的語料庫還要想辦法去建設，比如像中文的科技論文庫之類的，能不能拿來用，這是一方面。另外，大模型真的要做到通用程度的話，英文能力要有，再去做中文，中文的話盡量要把語料再搞大一點。這樣可能會把能力進一步地提升，因為語言之間有很多是可以打通的。”

談及AI如何賦能基礎科學研究，以及如何才能堅持做好科研工作時，孫茂松表示，“AI賦能科學研究我覺得天地遼闊，現在才是剛剛開始，努力耕耘的話，應該很快就有不錯的收獲。”他強調，“如果你覺得科研枯燥，就請你不要做科研。一定要有興趣才來做，而不是把它簡單當成一份工作，有興趣就不會覺得枯燥，反而會覺得其樂無窮。”

以下為對話實錄（經整理編輯）

搜狐科技：您曾将ChatGPT稱為“通用人工智能的幽靈”，并用杜牧的《阿房宮賦》舉例，稱贊其了解古文、繪畫中國風場景圖的能力令人震驚。我們知道ChatGPT主要做英文，中文是捎帶的，在您看來，為什麼其仍具備比一些中國廠商做的語言大模型更強大的中文能力？

孫茂松：ChatGPT處理的空間實際上是語義空間，語義空間從自然語言處理的角度來說是相對穩定的，它跟不同的語言有關系，但核心部分是通用的。

英語的語料足夠大，覆寫面比中文要好，品質也比較高，比如英語的論文能被用來訓練的會比中文多不少。是以通過英語的語言訓練，很好地刻畫了語義空間。語義空間和語言是相對獨立的，但又不完全獨立，這時候再用一些中文語料，相當于在語義空間裡把中文和英文做某種對齊。這種情況下，它的主要能力是由英語帶過來的。

搜狐科技：中國現有的大模型似乎對中文的了解能力并不盡如人意，根據中文指令繪圖、寫作文的能力也不強，在您看來，該從什麼方面去提升大模型中文了解和創作的能力？

孫茂松：高品質的語料庫還要想辦法去建設，比如像中文的科技論文庫之類的，能不能拿來用，這是一方面。另外的話，大模型真的要做到通用程度的話，英文能力要有，再去做中文，中文的話盡量要把語料再搞大一點。這樣可能會把能力進一步地提升，因為語言之間有很多是可以打通的。

搜狐科技：在您看來，AI是如何賦能基礎科學的發展的？

孫茂松：AI賦能科學研究我覺得天地遼闊，現在才是剛剛開始，努力耕耘的話，應該很快就有不錯的收獲。

搜狐科技：很多外界人士認為，做科研工作會較為枯燥，有可能很多年都難以做出突破性的成績，能否請您分享一下對于科研工作價值意義的了解？

孫茂松：如果你覺得科研枯燥，就請你不要做科研。一定要有興趣才來做，而不是把它簡單當成一份工作，有興趣就不會覺得枯燥，反而會覺得其樂無窮。

GPT中文比國産大模型強？ | 對話科學家 清華大學孫茂松

GPT中文比國産大模型強？ | 對話科學家清華大學孫茂松