天天看點

中國已有79個10億參數大模型,業界呼籲盡快建立自主創新“護城河”

作者:第一财經

“據不完全統計,中國10億以上參數規模的大模型已經釋出了79個,從地區來看北京和廣東最多,自然語言處理是大模型研發最活躍的領域。”在中關村論壇上,中國科學技術資訊研究所所長,科技部新一代人工智能發展研究中心主任趙志耕披露了中國人工智能大模型的情況。

今天人工智能領域的競争比以往任何時候都更加激烈。有人把近日紮堆的大模型創業稱作“百模大戰”,從百度文心一言、阿裡通義千問到商湯、昆侖萬維等推出大模型,到王小川的百川智能、王慧文的光年之外、李志飛的序列猴子等,“中國版ChatGPT”在近幾個月裡幾乎迎來紮堆釋出的熱潮。而在大模型的應用層,已有包括線上辦公、金融科技、線上教育等多個細分垂直領域公布了大模型領域進展。

創新工場董事長、首席執行官李開複在論壇演講中表示,AI大模型是一個絕對不能錯過的曆史機遇, AI大模型已經慢慢走向實體經濟,它會改寫每一個應用,重構人類的工作,很多重複性的勞動會被取代。

論壇過後,有參會嘉賓被記者問到如何看待如火如荼的大模型創業潮時,評價“這說明中國企業非常熱情”,又補充一句:“像在煉丹。”

北京、廣東大模型數量最多

趙志耕表示,從全球大模型發展态勢來看,美國谷歌、OpenAI等機構不斷引領大模型前沿的技術方向,同時歐洲、俄羅斯、以色列等越來越多的研發團隊也在加入到大模型的研發中。

從全球已經釋出的大模型分布來看,中國和美國超過全球總數的80%,美國在大模型數量上居全球之首,中國從2020年進入大模型快速發展期,目前與美國保持同步增長态勢。

根據中關村論壇上釋出的《中國人工智能大模型地圖研究報告》,中國人工智能大模型的地域分布有明顯特點,14個省市地區都有開展大模型研究,其中北京和廣東最多,北京有38個大模型,廣東有20個大模型。

在模型領域分布上,自然語言處理仍是目前大模型研發最活躍的重點領域,其次是多模态領域。計算機視覺和智能語音等領域仍有待進一步突破,目前模型較少。

如果把大模型的生成式AI誕生過程比作“煉丹”,那麼作為GPU的算力就好比煉丹爐下燃燒的烈火。報告通過調研全國範圍内的算力基礎設施分布情況發現,北京、廣東、浙江、上海等地的大模型數量最多,同時這4個地方也是近三年人工智能伺服器采購數量最高的地區,表現出非常明顯的強相關性,為大模型研發應用提供了重要支撐。

在發表相關論文方面,中國大模型通過學術論文發表方式已經形成一定學術影響力。其中北京、廣東、上海三地無論是論文發表量還是引用量都居國内前列,展現出明顯的人才儲備優勢,江蘇、廣東、上海也是大模型人才相對較多的地區。

開源創新生态方面,目前已經有超過半數大模型實作開源。北京、廣東、上海三地開源數量和開源影響力均居國内前三,這背後主要是高校和機構在推動,如清華大學的ChatGLM-6B、複旦大學的MOSS以及百度的文心系列大模型開源等。

大模型人才稀缺、原始創新不足

人才為大模型研發提供關鍵智力要素支撐。但從數量上看,目前各地大模型人才總量仍然稀缺,數量均不充足。

李開複在談到目前AI大模型面臨的挑戰時,提到包括需要品質更高的資料、需要更多的AI工程師與AI科學家等。

此前拉勾招聘釋出的《2023第一季度AIGC人才供需報告》顯示,2023年第一季度,AIGC人才招聘需求連續三月攀升,今年3月AIGC人才崗位需求量環比增加42%。在招聘平台上,不少企業甚至開出百萬年薪以搶奪AI技術人才。

而中國的大模型自身也需要不斷打磨。在推動開源開放的同時,多位業内人士都提到中國還需要加強基礎研究,“自主創新是發展大模型的必經之路。”

李開複提到,要支援開源,但中國大模型公司不能過度依賴開源模型。“需要盡快建立自己的IP(知識産權)和技術優勢,形成護城河。”因為開源模型無法達到國外大廠自研模型的性能,它的能力會成為“天花闆”;同時海外大廠的開源技術還有關閉風險。而且,由于國内外文化、使用者習慣和法律法規不同,将在國外訓練好的模型帶到國内進行微調是存在風險的。

中國工程院院士戴瓊海也表示,目前大陸人工智能領域應用強,但原始創新不足,在基礎性技術和人才方面與美國相比處于弱勢。戴瓊海建議,大陸應從政策、機制和投入上深化人工智能的人才培養和基礎研究,強化原始創新。

此外,盡管國内大學、科研機構、企業等不同創新主體都在積極參與大模型研發,但學術界與産業界之間的聯合開發相對較少。趙志耕提到,“我們觀察到合作收縮趨勢,這是接下來需要注意的。”

她建議,要加強資源和研發力量的統籌,促進大模型的有序發展, 例如加強智算中心、超算中心、雲計算中心等計算資源的統籌。與此同時,加快基礎研究和技術創新,提升學術和開源影響力。

她還強調了強化國際合作,積極參與全球人工智能治理的重要性。各國對于AIGC合規性的重視正在推動相應的監管措施出台。今年4月中國國家網際網路資訊辦公室釋出了《生成式人工智能服務管理辦法(征求意見稿)》。趙志耕表示,希望這些治理原則和倫理規範能夠在大模型的全鍊條中落地生根。在增進共識的基礎上,加強人工治理的全球合作,創造中國的智慧和治理方案。有從業者指出,要參與規則的制定,中國的大模型要先上牌桌,才能擁有話語權,才有全球競賽的入場券。

繼續閱讀