一年一度的百度Create AI開發者大會(以下簡稱Create大會)總是受人矚目。去年百度第一次把Create大會放進元宇宙裡,今年這場面向全球開發者、科技愛好者的技術盛會,主題從“人機共生”進展到了“人機共創”。
百度創始人、董事長兼CEO李彥宏的觀點并沒未改變,他相信随着技術應用門檻不斷降低,創造者們将迎來屬于人工智能的黃金10年。而持續人工智能全棧布局多年的百度,正在形成一個多元的開發者生态。
AICG矚目
大會開場,李彥宏展示了一幅以“危機”和“希望”兩個關鍵詞形成的AI畫作,AICG深入應用到了此次大會的每一個環節,包括大會歌曲、場景、演講腦圖等創作過程。
“‘人機共創’背後,是能力超群的天才創造者——百度文心大模型”,百度技術委員會主席吳華在大會演講中表示。
如果把文心大模型了解成一位街頭的肖像畫家,它首先得是一個有着豐富閱曆的觀察者,可以快速的了解對方的構想并且形成一個藍本;然後它也要是一個技藝紮實的畫手,能夠很好的實作這個藍本。
這個“觀察者”就是文心ERNIE 3.0 Zeus,而“畫手”是文心ERNIE-ViLG 2.0。
百度研發的知識增強型預訓練模型ERNIE 3.0在2021年問世,此次的Zeus版本則是ERNIE 3.0 系列模型的最新更新。
ERNIE 3.0 Zeus的了解能力來自于足夠豐富的無标注資料,其參數規模已經超過百億。從ERNIE 3.0開始,模型中開始引入大規模知識圖譜,這也是業界首次出現百億級以上的預訓練模型實作與知識圖譜的融合。後者的引入也進一步提升了文心ERNIE 3.0 Zeus對于世界知識和語言知識的學習能力和效率。
通過持續的從百餘種通用知識與專業知識并行的任務中學習,也顯著提升了模型的泛化能力,使得ERNIE 3.0 Zeus能夠實作多種語言了解,并且生成任務。
ERNIE的資料題材則來自百科、小說、新聞甚至戲劇和詩歌。而為了進一步學習特定任務的相關知識,ERNIE 3.0 Zeus提出了階層化提示(Prompt)學習技術。即在訓練過程引入了階層化的 Soft Prompt 模組化了不同任務之間的共性與特性,進一步提升了模型對于不同下遊任務的模組化能力。
這意味着閱讀了解、自由問答甚至寫文章的事都可以交給文心ERNIE 3.0 Zeus來完成。
比如今年聯考作文“本手、妙手和俗手”引發熱議,百度數字人度曉曉所“寫”的文章背後就是ERNIE的能力展現。
“很多電視劇劇本都是由一位總編劇制定總綱,再交給好幾位編劇去寫每一集的故事。是以如果你能編制一部電視劇的總綱,你就可以把每一集的要求交給ERNIE 3.0 Zeus大模型。你再經過合并整理,就可以成為天才大編劇了!”吳華在這次Create大會上表示。
而創作也不會隻停留在文字層面,構想變成一幅畫,劇本變成一場戲,都需要文心ERNIE-ViLG 2.0——百度另一個知識增強跨模态的大模型。
全球範圍内,AIGC作為一種嶄新的内容生産方式忽然而至,在底層是基于擴散生成算法的DALL-E 2和Stable Diffusion的一些模型成熟。這類基礎模型在國内尚處空白,文心ERNIE-ViLG 2.0是國内首個在AI作畫方向取得突破的項目。
生成圖像的語義一緻性和可控性仍然是目前AI作畫産品所面臨的一般問題,為此文心ERNIE-ViLG 2.0中,知識增強算法被融入擴散模型,在擴散模型學習過程中,引入語言、視覺等多源知識指引模型更加關注文本和圖像中的核心語義元素,實作精準的細粒度語義控制。
同時由于擴散模型在生成過程的各個階段對模型的要求不一樣,比如初始階段模型需要生成圖像輪廓,結尾階段變為對圖像細節模組化,是以百度在文心ERNIE-ViLG 2.0引入了混合降噪專家網絡,在不同階段選擇不同網絡來進行模組化,以減少降噪任務的互相幹擾,提升圖像生成的品質。
而在視覺内容生成方面,百度在文生圖的擴散模型基礎上加入時序模組化,這意味着此模型能根據文本或者圖像生成新的視訊。
文心ERNIE-ViLG 2.0在權威公開資料集MS-COCO上的測試也重新整理 SOTA 效果,性能超過了包括DALL-E 2、Imagen、Parti等模型。
除了ERNIE 3.0 Zeus和ERNIE-ViLG 2.0,百度文心大模型中仍有第三位天才創造者——VIMER-TCIR多任務大模型,一個基于大模型技術建構的涵蓋視覺内容生成與編輯的全套技術方案。
前兩者已經足夠完成圖文甚至視訊層面的AI創作,VIMER-TCIR則是一位“修複師”。
通過對超分辨率、去噪、去模糊、去壓縮等多任務的聯合預訓練,VIMER-TCIR可以同時實作對多種不同情況的修複和編輯,并通過畫質提升、邊緣銳化等方式增強視訊的清晰度,達到全方位提升視訊編輯效率和觀感體驗。
“以前的電影修複需要人工手動一幀一幀完成,現在使用大模型提升效率後,每天單機可修複視訊28.5萬幀,解決了絕大部分畫面的修複問題;即便是需要進一步精修,速度也能提升3-4倍。”吳華表示。
文心大模型已經在飛槳開發平台EasyDL和BML上內建,目前累計已有1萬開發者基于文心大模型建立了超過3萬個任務,應用的場景則覆寫諸多方面。平台上基于文心大模型的AI應用模型開發,使用者資料标注量平均降低70%,效果平均提升10.7%。
AICG的元素貫穿今年的Create大會,但百度在前沿技術上的探索遠不止如此。
一場技術盛宴
2013年百度早早開始了對于自動駕駛的研發投入,這番現在看來頗具前瞻性的布局逐漸顯出後勁,在近年成為百度新的技術名片。
百度在今年7月釋出了源自自研“阿波羅星河”架構平台的第六代量産無人車Apollo RT6,汽車與智能出行的元素當然不會缺席這場技術盛會。
在今年的Create大會上,百度釋出了自研的世界範圍内第一個能在手機端實作純軟體方案回聲消除的技術,實作自由語音互動。
之前的“不自由”在于,傳統的手機語音互動隻能做到單工互動,即它的輸出(說)和輸入(聽)是互相獨立的,不能同時進行。無法像真人對話那樣同時完成“說”和“聽”兩個動作,無法打斷說到一半的話,改換話題(即開始另一個任務),這意味着即時的交流确切來說并不存在。
但在駕駛場景中雙手被占據,這種更自由的語音互動又是必要的。這項技術叫做手機全雙工語音互動,目前在世界範圍内,還沒有一個能普适的支援在手機上實作全雙工的語音互動方案。
“要實作全雙工語音互動,必須先做回聲消除,避免手機終端識别自己播放的聲音。這在音箱、車載系統上比較容易實作,因為這些裝置都是前裝方案,可以通過硬體适配算法提前保證了回聲消除的效果。但是手機APP屬于純軟體後裝方案,需要讓算法适配不同型号的終端硬體。但手機終端款式多,硬體參差不齊,使得聲音信号的處理普遍面臨嚴重的非線性畸變以及參考時延抖動,導緻手機回聲消除效果難以保證。”
“而且手機硬體的疊代更新是非常快速的,這就使得這個風險被放大。”百度首席語音架構師賈磊說。
針對這個問題,百度研發了兩級AEC技術,融合傳統信号處理和深度學習模型各自的優點,基于語音識别目标,端到端地進行回聲消除和信号增強,解決手機場景下的回聲消除問題。
即使手機音量開到最大,回聲消除量也能達到40db。
另一方面,手機互動中面臨大量複雜的環境噪音,會幹擾資訊識别。百度研發了一個基于SMLTA2的多場景統一預訓練模型。噪聲、使用者口音和回聲消除殘餘吸收等難題可以通過一個模型解決。
“在各場景下識别率相對提升超過20%,這在業界同類技術中,準确率是最高的”,賈磊表示。
百度在此次Create大會上也展現了對于自動駕駛感覺能力的技術提升——一個支援多傳感器、多模态、多任務、時序融合等端到端感覺能力的車路一體解決方案UniBEV。
傳統的自動駕駛資訊感覺邏輯是将汽車上包括雷達、攝像頭在内的傳感器采集來的資料分别進行分析運算,然後把各項分析結果融合到一個統一的空間坐标系,規劃車輛的行駛軌迹。但這個過程中,每個獨立傳感器的收集資料會受其特定視角的局限,經過各自的分析運算後,在融合階段導緻誤差疊加,無法拼湊出道路實際情況的準确全貌,這給車輛的決策規劃帶來困難。
由于在自動駕駛過程中,高度資訊沒有那麼重要,于是有了另一個BEV方案。
BEV方案中,車身多個傳感器采集的資料,會輸入到一個統一模型進行整體分析推理,然後生成一個鳥瞰圖,有效地避免了誤差疊加。BEV方案可以實作時序融合,即不僅是收集和分析一個時刻的資料,而是支援把過去一個時間片段中的資料都融合進模型做環境感覺模組化,時序資訊的引入讓感覺到的結果更穩定,使得車輛對于道路情況的判斷更加準确。
在BEV方案的基礎上,百度提出了車路一體的解決方案UniBEV,內建了車端多相機、多傳感器的線上建圖、動态障礙物感覺,以及路側視角下的多路口多傳感器融合等任務,是業内首個車路一體的端到端感覺解決方案。
“基于統一的BEV空間, 更容易實作多模态、多視角、多時間上的時空特征融合,基于此的UniBEV 車路一體大模型,借助了大資料+大模型+小型化技術閉環,在車端路側的動靜态感覺任務上都取得了領先的成績”,百度資深研發工程師萬吉表示。
智路OS也出現在了此次大會上。
2021年4月,百度實作了Apollo AIR車路協同自動駕駛系統,僅使用路側感覺實作了開放道路、連續路段的L4級别自動駕駛。之後百度車路協同技術經曆了一段時間的現實場景探索,逐漸在60個地級市的輔助駕駛、智能信控、智慧停車等領域進行應用落地。
在這個過程中,一些空間多智能體協同所面臨的普遍問題出現,比如車路雲跨終端通信穩定性差、空間位置協定不标準以及行業生态碎片化,百度團隊選擇對車路協同自動駕駛關鍵技術能力進行進一步的抽象整合,最終在今年8月釋出了全球首個開源開放的智能網聯路側單元作業系統智路OS。
這标志着百度Apollo從“自動駕駛開放”更新到了“自動駕駛和車路協同的全面開放”階段。而智路OS最終将逐漸擴充為以機器人為核心的智能空間機器人作業系統。
底座浮現
近年的百度在技術産業落地方面,一種“底座”思維逐漸凸顯,文新大模型是AI創作的底座,希壤MetaStack則是一個使用者可以自建元宇宙的底座。
元宇宙希壤自2021年年底上線至今,已經形成國内最為開放和繁榮的元宇宙生态,20多個行業的120多個元宇宙空間及活動在其中落地。在此次Create大會上,百度釋出了全球首個獨立元宇宙解決方案MetaStack,通過這個子產品化工具箱,元宇宙的開發周期可以壓縮至40天。包括超媒體控股、廈門文廣集團、太一控股集團、世界人工智能大會等都已借助MetaStack,實作了獨立元宇宙APP的快速建立與高效營運。
文新大模型以及希壤背後,甚至包括Apollo在内整個百度的AI技術底座,都是産業級的深度學習平台飛槳。
“科技創新驅動人類發展曆史上每一次大的增長”,李彥宏表示,“沿着這個思路,如果讓我來判斷,第四次科技革命的标志是深度學習算法”。
此次Create大會,百度展現了飛漿在技術能力上的深度。
飛漿的能力開始進入人工智能科學計算(AI for Science)領域,并衍生出更多的科學計算開源工具元件,比如賽槳PaddleScience、螺旋槳PaddleHelix以及量槳PaddleQuantum。這些工具元件将會在複雜外形障礙物繞流、結構應力應變分析、材料分子模拟等豐富領域算例,廣泛支援AI加計算流體力學、生物計算、量子計算等前沿方向的科研探索和産業應用,使得AI在科學問題的解決過程中進一步發揮作用。
除此之外,百度基于百度飛槳平台完成了圖神經網絡架構的全新更新,在此次Create大會上釋出了超大規模圖學習訓練技術PGLBox。PGLBox是業界首個同時支援複雜算法+超大圖+超大離散模型的大規模圖學習訓練技術,可以實作單機對百億節點、數百億邊圖采樣和訓練的支援,并可通過多機擴充支援更大規模。
長期主義的果實
1000億元,這是百度過去十年在技術研發上的投入。
飛漿的首次開源在2018年,而百度對于深度學習的布局還要早得多。2013年1月19日,百度CEO李彥宏提出了建立專注于深度學習的研究院的初期構想,并命名為Institute of Deep Learning(簡稱IDL)。
2014年4月和5月,大資料實驗室(BDL)和矽谷人工智能實驗室(SVAIL)相繼建立,深度學習研究院則改為深度學習實驗室,歸于新組建的百度研究院之下。
百度研究院成為百度探索人工智能的核心陣地,當人們仍然以搜尋引擎的形象看待百度的時候,百度悄然開始了一場向前沿技術領域的轉型。
2017年,百度明确把人工智能作為公司發展戰略,那年也是百度Create大會的第一屆,坐着無人駕駛汽車在五環路上奔赴會場的李彥宏應該設想不到,五年後的百度已經有了自己的超導量子計算機,自動駕駛出行服務蘿蔔快跑商業化已經落地10餘城市,飛槳上的開發者數量已經超過535萬。
《2021中國開源年度報告》顯示,2021 年GitHub中國項目活躍度Top 30中,飛槳占據了5個項目,其中飛槳架構位列第一,而圍繞飛槳的産學研緊密協同,已經培養出超過300萬AI人才。去年12月釋出的Apollo EDU人才培養計劃,目前也已經覆寫超過33.5萬自動駕駛相關技術人才人和700多所院校。
李彥宏在去年Create大會上表示,未來5年,百度将圍繞包括自動駕駛、機器翻譯、生物計算、深度學習架構、數字城市營運、知識管理、AI晶片、個人智能助手在内的八大關鍵技術,為社會培養500萬AI人才。
一場技術長期主義的堅持開始結出果實。