天天看點

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

在聯合國總部的花園裡,矗立着一尊青銅雕塑,名為“Let Us Beat Swords into Plowshares”,一個人手拿錘子,正在将劍改鑄為犁——“鑄劍為犁”,代表了近一個世紀以來,人類社會對于文明與發展的共識:将武器變為創造的工具,以造福全人類。

而在人工智能領域,作為發展關鍵技術的預訓練大模型,也同時具備了劍與犁的兩種屬性——

開疆做劍:大模型在全球掀起了軍備競賽,參數規模不斷更新,文心等大模型的出現,意味着中國将這一AI利器握在了手中,守住了智能科技的疆土;

開荒做犁:借助大模型強大的通用能力和開源開放,千行百業和開發者也是以受益,不必從零開始,可以低門檻地“開荒”引入AI,啟動智能化轉型更新。

近幾年,面對全球經濟和政治形勢的不确定性,人們從未如此迫切地渴望過,将科技“鑄劍為犁”,大模型也應當從軍備競賽變為産業發展的新動能。

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

如何才能讓大模型“鑄劍為犁”、服務于民生百業?我回想起了一件往事。

2019年的時候,大模型還算是各大科技巨頭的“不傳之秘”,某實驗室就因為不願意開放最新的大模型,被業界嘲諷是CloseAI(封閉AI)。而百度在當年釋出了中國首個正式開放的預訓練模型ERNIE 1.0(産業級知識增強大模型文心的前身),卻沒有藏器待時,而是直接開啟了大模型落地應用的探索,聚焦“産業智能化”。

這件事令我記憶猶新,可以說,以百度為代表的中國AI力量,在大模型趨勢初現之際,就選擇了“鑄劍為犁”、造福産業的發展方向。

那麼,時間來到2022年春,大模型能夠為普通人和千行百業所用了嗎?

4月16日,在剛剛結束的2021百度認知AI創意賽“AI創意派”決賽現場,我得到了AI大模型一些最新動向。簡單來說:1.大模型加速落地應用,展現出走進産業深處的無限可能;2.文心大模型應用門檻持續降低,公衆首次參賽,釋放出AI創意的無限遐想。

在這個乍暖還寒的春天,跟大家分享一下産業和個人,如何在當下用AI大模型種植希望。

幾度春風:AI大模型走進産業的百花深處

在你的印象中,都是哪些人在使用AI大模型?用GPT3訓練出“碾壓人類”小作文的,是世界頂尖算法工程師;用AlphaFold預測蛋白質的,是全球頂級AI實驗室;還有炸裂眼球的AI for science大模型,是為預算幾乎無上限的科學任務所準備的……這些AI大模型,千行百業的普通人不會用,也用不起。

難道,大模型注定與普通人無緣了?在2021百度認知AI創意賽“AI創意派”上,百度文心大模型,為我們展現了另一種打開方式。

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

正如百度集團副總裁吳甜在比賽現場所說:“隻有人工智能和大模型的門檻,低到了所有人都可友善地用起來,才能真正大規模爆發出各種創意。本次創意賽中,選手展現了基于文心大模型的豐富創意,讓我們看到了大模型廣泛應用的前景。”

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

這個“鑄劍為犁”的産業化過程,是怎麼發生的?

第一步:技術的鍛造。

與實驗室裡的算力怪獸、規模巨獸不同,面向産業落地應用的大模型,還有許多技術難題需要攻克,解決成本、效率、部署等問題。為此,百度做了許多技術創新工作。

一方面,不斷提升參數規模和模型效果。2021年12月,ERNIE 3.0 更新為全球首個知識增強千億大模型,成為目前為止全球最大的中文單體模型,這也意味着通用能力更出色,泛化能力更強,隻需學習少量行業資料,就能夠應用于很多業務場景,降低企業的應用門檻。

另一方面,為了保證超大規模模型的學習效果,百度産業級深度學習平台飛槳自主研發了端到端自适應分布式訓練架構與4D混合并行技術,有效支援文心大模型高效穩定的訓練,讓産業使用者可以低成本地使用。

在技術的錘煉下,才能鍛造出一個産業可用、好用的大模型,真正支撐産業應用。此次吳甜也提到,大模型未來的發展趨勢之一,将是技術的持續創新。

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

第二步:産業的熔爐。

目前,産業在落地應用AI上遇到的普遍阻礙,就是行業know-how與AI模型的不相融,無法解決真實複雜的業務問題。傳統深度學習是“蠻力計算”,無法了解資料深層的含義。

作為産業級大模型,文心與其他大模型的核心差異之一,就是為産業與AI的融合增加了一個關鍵的催化劑——“知識增強”,将大規模知識與深度學習相結合,讓AI能夠了解特定領域資料背後所隐含的知識關系,進而提升了解能力。

舉個例子,病曆品質控制對于醫療行業非常重要,但掌握全科醫學知識的醫生很少,醫院病案科的醫生在進行抽檢工作時,病曆數量多,工作難度大,依靠有限的知識很難對所有病曆做出非常準确的分析和判斷。如果AI算法不能了解醫學知識,也無法很好地幫助病案科工作提質增效。百度在文心大模型基礎上加入了藥典、醫學大百科等一系列知識,再基于大模型訓練出醫療相關的模型,達到醫學博士的水準,可以對每份病案進行秒級别的智能掃描分析,進而有效提升了病案質控的工作效率。

第三步:大生産的模具。

從農業生産到工業制造,規模化大生産必不可少的就是标準化模具的出現。AI的規模化應用,也離不開一系列配套工具與平台。

目前,文心大模型支援數百家企業與機構,開發者數量超過6萬,對外日調量已經超過了五千萬次。這是因為,借助百度飛槳、百度大腦等平台和工具,文心大模型的能力能夠被各行各業開發者低門檻地應用。

以飛槳企業版零門檻AI開發平台EasyDL為例,其就基于文心大模型推出了高精度NLP模型,最快15分鐘就可以完成垂直領域的模型訓練。哪怕是沒有AI基礎的金融、法律等從業人士,也能通過EasyDL一站式自動化訓練,用少量資料建構出自動分析合同條款、自動分析金融研報等定制模型。

這些配套工具與平台的支撐,讓文心大模型能夠進入規模化應用階段。是以,吳甜也認為2022年将是文心大模型産業落地的關鍵年。

從科學家和工程師手中的神兵利器,到普通人和千行百業的繩墨爐錘,文心大模型“鑄劍為犁”,與産業共同孕育出了百花齊放的智能之春。

低吟淺唱:放飛AI大模型的無盡想象

哥倫布發現美洲之後,辣椒進入了人類的餐桌;萊特兄弟對天空的向往,拉開了飛行的序幕;喬布斯天才般的創意,智能手機開始主宰你我的生活……每一次技術浪潮,都少不了天才人物的神來之筆,用創意點燃了新技術的無限想象。

AI時代,大家都不希望中國隻能跟在别人身後亦步亦趨,但是,創意從哪裡來?

百度給出了一個答案:“創意在民間。”百度集團副總裁吳甜在AI創意派的比賽現場這樣說道。

民間,意味着要讓AI大模型為最廣泛的人才所用,無論技術水準高低都能參與其中。

此次比賽中,百度首次将AI大模型的使用門檻降到了大衆級别,吸引了全國各地近2000名不同年齡、不同技術基礎的選手。“樂植問答”項目的開發者林傑,就是一個農業公司的産品負責人,沒有上手開發過。這次基于飛槳EasyDL平台使用ERNIE 3.0,林傑的開發過程還挺順利,一步步訓練出了能夠解答植物問題的DEMO。最近打算自己種菜的朋友越來越多,說不定未來林傑的産品真能拯救植物殺手們。

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

民間,意味着AI創新會貼近真實生活,大模型要能夠解決大量細節而具體的問題。

本次創意賽的300多份創意方案中,有不少是大廠想不到,普通人卻特别期待的。比如哈工大大二學生煥宜就用六天時間,打造了一個“朋友圈古風文案小能手”,隻要有圖檔,分分鐘讓你變身文案達人,在朋友圈裝一把文人墨客,吸引點贊無數。

民間,意味着未知的場景和挑戰,大模型會遭遇各種意想不到的用途和場景,也能在實踐中得到檢驗和提升。一個出乎意料的創意就是“反詐疫苗機器人”。

反詐App我下過、疫苗我打過、機器人我玩過,但這個“反詐疫苗機器人”究竟是啥,還真是一頭霧水。原來,開發者郭成(化名)對自己奶奶的各種反詐騙經曆印象深刻,就有了用NLP技術來幫助弱勢群體識别詐騙套路的想法。報名參賽後,郭成利用百度ERNIE 3.0大模型開發了一個對話機器人,使用者跟它對話就能從實踐中汲取反詐經驗,提高防騙能力,相當于打了一針“思想疫苗”。要了解騙子們狡詐詭谲的語言套路,自然就需要機器人具備極高的語義了解、意圖識别等能力,而這正是ERNIE 3.0大模型的優勢之一。

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

對于廣大圍觀群衆來說,一場比賽的創意可能無法全部落地變為現實。但每一個參賽者,一定能夠從項目實踐中,感受到大模型的真正實力。而AI大模型落地應用的無限可能,就藏在這些關注的眼眸、放飛的腦洞之中。

一犁新雨破春耕:文心為智能時代寫下風物詩

如果說,文心大模型深入産業,是從誕生之初就開始的“潤物細無聲”,那麼剛剛結束的AI創意賽就像是一犁新雨破春耕,讓我們格外清晰地看到,大模型如何為AI規模化應用插上騰飛的翅膀。

原因也很簡單,大模型要服務于産業,必須能夠解決那些具體的、細節的、工程化的問題。AI科學家們讨論的是模型收斂、魯棒性、認知智能這類專業問題,而當大模型走進千行百業,遭遇的問題則是如同參賽者們提出的一樣:如何找到合适的資料集?買不到GPU怎麼訓練?不會調參該如何操作?結果不符合預期怎麼辦?

大模型要“鑄劍為犁”,就必須指導并幫助産業人士解決這些現實問題。顯然,通過這次AI創意賽,對于上述問題,百度已經有了成功的探索和答案。當然,這不僅僅是文心大模型的功勞,而是百度通過一整套體系,確定大模型能力被融合到産業智能化更新中。

最核心的,就是飛槳與大模型的融合。前面提到的飛槳開發出4D混合并行政策、自适應分布式訓練等,有效地支援文心大模型高效穩定訓練,還有飛槳EasyDL等開發平台和工具,也早已開源給社會各界使用。飛槳與大模型的強強聯手、融合發展,成為一個技術領先、自主創新、能力堅實、産業可用的AI大底座,有力地支撐中國産業智能化轉型。

開疆作劍,開荒為犁:2022春天,文心大模型走進産業的百花深處

接下來,是雲與大模型的融合。産業智能化呼喚着更靈活、簡單、低成本的AI擷取方式,雲服務成為各行各業引入AI大模型、基礎算法、AI算力等的必經之路。在這樣的大背景下,百度很早就推動了AI與雲的深度融合,百度智能雲作為百度AI技術的産業出口,正在将文心大模型推向越來越多的産業場景。

當然,大模型的發展也離不開與人才生态的融合。提到AI人才教育,似乎總是伴随着嚴肅和焦慮,其實不然。中國人所向往的教育最高境界,是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,風乎舞雩,詠而歸”。而AI創意賽恰恰讓我有了這種感受,在文心大模型的臂膀托舉下,無數創意自由地、輕盈而舒展地飛揚。當普通人也能且歌且行,融入AI創意的洪流,我們還會擔心聽不到AI創新的聲音嗎?

經過三年耕耘,百度為AI大模型确立了從研緻用的新範式,推動大模型走向“鑄劍為犁”、服務産業的新階段。

随着更多人與産業加入大模型的合唱,一首智能時代的風物詩,将飄揚在華夏大地的每一個角落。

繼續閱讀