天天看點

浪潮是AI的有“源”人站在人工智能的肩膀上“巨量模式”是基礎設施從來都沒有“暴力美學”“源1.0”有詩,更有遠方最徹底的開放計劃

作者:TechECR

“源1.0會不會替代記者?”

這确實是棘手的問題。“源1.0”是全球最大規模中文ai巨量模型,它能詩、能話、能寫小說、能寫新聞,也能激起現場數十位記者的複雜心情。但劉軍并沒有直接回答此問題:“李白鬥酒詩百篇,賈島二句三年得。未來‘源1.0’會成為每個人的‘助手’,會成為李白、賈島這樣的‘助手’。”

浪潮是AI的有“源”人站在人工智能的肩膀上“巨量模式”是基礎設施從來都沒有“暴力美學”“源1.0”有詩,更有遠方最徹底的開放計劃

确實如此。

正如浪潮資訊副總裁、浪潮資訊ai&hpc産品線總經理劉軍所說,人工智能是“助手”和“工具”,浪潮則希望站在人工智能的肩膀上思考,也希望科技産業,能站在人工智能的肩膀上完成創新。aicc 2021期間,浪潮人工智能研究院正式釋出“源1.0”,它是目前全球最大規模的中文ai巨量模型,參數規模高達2457億,訓練采用的中文資料集達5000gb。

現在回想,浪潮釋出“巨量模型”,應該是早有布局。2018年,浪潮已提出論斷——計算力就是生産力。2020年,浪潮又陸續提出“智算中心”、“元腦生态”等概念,這更為“巨量模型”落地,奠定了算力和生态基礎。

随後即是“源1.0”。

浪潮是AI的有“源”人站在人工智能的肩膀上“巨量模式”是基礎設施從來都沒有“暴力美學”“源1.0”有詩,更有遠方最徹底的開放計劃

雖然基礎已經奠定,但從計算力到生産力,中間卻是鴻溝。這就是從感覺智能,到認知智能間的鴻溝,從專用智能,到通用智能間的鴻溝。因為現在的人工智能,還很難了解場景與對象之間的關系,也很難形成微觀與宏觀之間的回環互動。

企業使用者和生态夥伴,對此更顯力不從心。他們關注應用,但無法承擔動辄上萬顆gpu的算力成本,也無法屏蔽多元算力的複雜性;他們也關注算法,但同樣無法完成t級資料的采集和訓練。

“巨量模式”的出現,提供了解決問題的方向。2020年,openai推出gpt-3模式,參數規模達到1750億,這将語言模型,乃至人工智能,都推向了新高度。此後谷歌、微軟及智源等機構和企業,也陸續推出“大模型”,英偉達聯合微軟,更是推出模型參數達到5300億的mt-nlg。

浪潮“源1.0”也是如此。其是複雜的巨系統,也是企業使用者和生态夥伴所必須的算法基礎設施。“源1.0”更将推動人工智能,在小樣本學習、泛化能力、限制推理、邏輯推理等方面,實作關鍵性突破。

舉例說明,傳統人工智能局限于一個蘿蔔一個坑,精雕細刻出來的一個資料模型,隻能落地于一個應用場景,但企業應用場景何止成百上千。“巨量模式”支援的小樣本學習,則解決了這一問題,以最少的資料量訓練出最通用的模型,并适用于不同的場景。

即使如此,“巨大”也并非是浪潮的追求。矽谷創業圈有“十倍思維”的概念,新産品要比别人好十倍,才好意思拿出手。或許,這就産生誤解由來——以大模型、大算力、大資料為代表的“十倍思維”,正在“暴力美學”地推動ai産業。

但這并非ai産業發展的核心邏輯。碎片化的“小模型”,對人工智能的推動已是無能為力。“小模型”并無法在小樣本學習、泛化能力等方面,表現出良好的價值,隻有随着參數規模的逐漸增長,相關能力會得到持續改進。

當然,“暴力美學”也确實是種美學。若對比十年前,起步記憶體隻有16gb,主頻隻有1ghz的iphone 4,現在的iphone 13确實是“暴力美學”,但想想十年後産業的發展,或許現在的“暴力”也會被視為太溫柔,或許那時就會感慨:是算力限制了我們想象力、模型限制了我們的想象力。

不僅如此

在“源1.0”的“圖靈測試”中,将“源1.0”模型生成的對話、小說續寫、新聞、詩歌、對聯,與由人類創作的同類作品進行混合,并由人群進行分辨。測試結果表明,人群能夠準确分辨人與“源1.0”作品差别的成功率已低于50%。

這就是“源1.0”的能力。

但“源1.0”不僅有詩,更有産業的遠方。“源1.0”聚焦自然語言處理領域,涉及典型應用場景包括:自動生成報告、智能助手、智能客服、智能運維、文字識别、文本搜尋、智能翻譯等。

浪潮是AI的有“源”人站在人工智能的肩膀上“巨量模式”是基礎設施從來都沒有“暴力美學”“源1.0”有詩,更有遠方最徹底的開放計劃

看看酒店大堂中,隻會賣萌的“花瓶”機器人;聽聽智能客服裡,充滿“套路”的所問非所答。你就知道現在的自然語言了解,到底有多少“水分”。以專業語言解釋,坐在你對面不一定是條“狗”,但一定是“邏輯順序引導的計算機系統”,它隻是在按照預定步驟,進行“邏輯引導”。

改變也将由此而來。“源1.0”将加快深度問答、多輪對話、記憶網絡等關鍵技術,錘煉打磨的速度,也将推動場景的複制速度。模型經過一次訓練,即可用于執行不同任務,就像學會寫詩的模型,也将可以寫小說,會寫散文的模型,也将會寫論文,這都是在推動從專用人工智能,到通用人工智能的發展。

與此同時。

基于“源1.0”的開源開放計劃,也同步推出。浪潮将通過開源開放的ai算法基礎設施,進一步提升自然語言了解領域的ai研究和創新實力,讓更多行業能夠擷取到巨量模型技術帶來的生産方式、生産效率變革。

而且這一次,浪潮開放的相當徹底。計劃初期,浪潮将面向高校和科研機構、元腦生态夥伴,以及智算中心三類夥伴,提供從資料集,到api、源代碼的全面開放。這顯然是覆寫了“産-學-研-用”的完整ai生态。

“源1.0”幾乎将近5年,中文網際網路中浩如煙海的内容全部閱讀。通過自研的文本分類模型,其獲得了5tb高品質中文資料集。同時,“源1.0”還閱讀了約2000個億詞彙,這相當一個人1萬年的閱讀量。即使是章太炎、王國維這樣的“書蟲”,也絕不可能達到如此高度。

現在浪潮将這些積累全部開放,将算法基礎設施,完整地開放給“産-學-研-用”生态夥伴。也就是說,輔以智算中心這樣的算力基礎設施,從計算力到生産力間的技術鴻溝、人才鴻溝、生态鴻溝,都将被彌補,“産-學-研-用”之間的合作,終将協同于“源1.0”。此時的浪潮,也将真正成為ai的有“源”人。

繼續閱讀