天天看點

解讀人工智能的2021:超大規模預訓練模型爆發,自動駕駛迎來商業化前夜

作者 | 劉燕

一文道盡「人工智能的 2021 年」

本文是 “2021 InfoQ 年度技術盤點與展望” 系列文章之一,由 InfoQ 編輯部制作呈現,重點聚焦 AI 領域在 2021 年的重要進展、動态,希望能幫助你準确把握 2021 年 AI 領域的核心發展脈絡,在行業内始終保持足夠的技術敏銳度。

“InfoQ 年度技術盤點與展望”是 InfoQ 全年最重要的内容選題之一,将涵蓋架構、AI、大資料、大前端、雲計算、資料庫、中間件、作業系統、開源、程式設計語言十大領域,後續将聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。

特此感謝何苗、侯軍、蔣宏飛、劉知遠、馬澤君、吳韶華、許欣然、曾冠榮、張傑、張凱(按姓名首字母排序)對本文的貢獻,他們的真知灼見,是本文能與大家見面的關鍵。

即将過去的 2021 年,又是跌宕起伏的一年。疫情仍沒有結束的苗頭,缺芯造成的供應鍊中斷此起彼伏,與此同時,數字化、智能化轉型已是大勢所趨。全球企業和機構在不斷學會适應“新常态”,并從中捕捉新的商業機會。

2021 年, 人工智能領域依然熱潮洶湧。AphaFold2 成功預測 98% 蛋白質結構,預訓練大模型迎來大爆發,自動駕駛邁入商業化試點探索新階段,元宇宙概念東風勁吹,首個關于 AI 倫理的全球協定通過,商湯科技即将摘得“AI 第一股”... 前沿技術突破令人欣喜,落地應用“潤物細無聲”般深入各行業,業界也開始正視人工智能的問題和挑戰。

在歲末年初之際,InfoQ 采訪了衆多行業專家,回顧了 2021 年人工智能大模型、深度學習架構、 NLP、智能語音、自動駕駛、知識圖譜等各項 AI 技術的發展情況,并展望了未來一年可能的技術趨勢。

1

AI 技術 2021 年發展總結與展望

人工智能邁向“煉大模型”階段

今年是超大規模預訓練模型的爆發之年。

去年,GPT-3 橫空出世,這個具有 1750 億參數規模的預訓練模型所表現出來的零樣本與小樣本學習能力重新整理了人們的認知,也引爆了 2021 年 AI 大模型研究的熱潮。

谷歌、微軟、英偉達、智源人工智能研究院、阿裡、百度、浪潮等國内外科技巨頭和機構紛紛展開大模型研究和探索。

超大規模預訓練模型的“軍備競賽”

2021 年 1 月,Google 推出的 Switch Transformer 模型以高達 1.6 萬億的參數量打破了 GPT-3 作為最大 AI 模型的統治地位,成為史上首個萬億級語言模型。

國内研究機構也不甘示弱。今年 6 月,北京智源人工智能研究院釋出了超大規模智能模型“悟道 2.0”,達到 1.75 萬億參數,超過 Switch Transformer 成為全球最大的預訓練模型。

值得一提的是,今年國産化大模型研發工作進展飛速,華為、浪潮、阿裡、百度等都釋出了自研的大模型。

浪潮人工智能研究院首席研究員吳韶華向 InfoQ 表示,現在業界提高模型參數量有兩種技術路線,産生兩種不同的模型結構,一種是單體模型,一種是混合模型。如浪潮的源大模型,華為的盤古大模型、百度的文心大模型、英偉達聯合微軟釋出的自然語言生成模型 MT-NLG 等走的都是單體模型路線;而智源的悟道模型、阿裡 M6 等走的是混合模型路線。

預訓練模型技術新進展

OPPO 小布智能中心、 NLP 算法工程師曾冠榮認為,預訓練模型在今年取得的重要技術進展有:

知識表示和學習機理進一步創新突破

随着對預訓練模型的深入了解,預訓練模型的知識學習和表征的機理逐漸明确,人們得以更加順利地往模型裡注入需要其學習的知識,在這些知識的加持下,對複雜任務的應對能力得到了大幅提升。

對比學習、自監督和知識增強

以對比學習為中心,多種增強方法為工具的方式能進一步提升預訓練模型的語義了解和表征能力,增強方法的深入讓模型自監督成為可能,讓對比學習對樣本,尤其是正樣本的依賴降低,資料依賴的降低勢必讓模型對少樣本甚至無樣本任務的适應性提升,模型能更好地完成這類型的任務,這将讓預訓練模型落地的成本再降低一個層次。

降低 AI 規模化落地的門檻

預訓練大模型降低了 AI 應用的門檻,解決了 AI 應用的兩個難題:資料和行業知識。它既不需要大量的标注資料,又保障了基礎底座。

在預訓練模型的業務定制優化和應用方面,曾冠榮認為,從第一個預訓練語言模型 BERT 釋出至今,已在多個熱門任務下得到應用,逐漸從一種“潮流”變成前沿技術的“基本操作”,如預訓練模型已成為機器翻譯領域的基礎關鍵性技術。此外,預訓練模型也成為大系統中的一部分,發揮着其語義了解的優勢。

無論是業界還是科研,對預訓練模型的使用方式逐漸靈活,能從預訓練模型中拆解出适合任務的部分并組裝到自己的實際任務模型中。

時至今日,對預訓練大模型的性能優化仍未終止,在學界,仍有大量的研究在預訓練模型的落地能力上努力,壓縮、剪枝、蒸餾的工作仍起到重要作用。不止于算法本身,編譯、引擎、硬體等方面的優化也在大步邁進。

小結和展望

吳韶華認為,整體而言,現在大規模預訓練模型的研究,包括模型結構的演進和落地仍處在探索階段,各家的持續探索正在不斷擴大對大規模預訓練模型的認知邊界。

“大規模預訓練模型是人工智能的最新技術高地,是對海量資料、高性能計算和學習理論原始創新的全方位考驗”,清華大學教授、智源大模型技術委員會成員劉知遠在接受 InfoQ 采訪時展望了明年大模型的發展趨勢。

劉知遠表示,他明年将重點關注兩個層面的問題:

一是人工智能技術正呈現“大一統”趨勢,如預訓練模型在 Prompt Tuning 等技術的支援下可用于很多不同的任務,再如 Transformer 模型架構正在從自然語言處理擴充到計算機視覺模态,接下來我們也許會看到更多的從架構、模型和任務等方面推進人工智能技術趨向統一的工作 ; 另一個問題是,随着預訓練模型規模增大,如何更好更高效地實作任務适配和推理計算,将是讓大模型飛入千家萬戶的重要技術。

國産深度學習架構不再是“技術的跟随者”

過去十年湧現了大量的 AI 算法和應用,這背後都離不開開源深度學習架構提供的支援。

開源深度學習架構是 AI 算法研發和 AI 應用落地的“腳手架”,幫助 AI 研究員和開發者大幅降低算法研發門檻,提升研發效率。

IDC 的調研顯示,中國人工智能領域 90% 以上的産品都使用了開源的架構、庫或者其他工具包。

新進展,新趨勢

深度學習架構的發展核心是跟随着深度學習領域的發展而前進的。

開源深度學習架構曠視天元 MegEngine 研發負責人許欣然在接受 InfoQ 采訪時,分享了過去這一年他所觀察到的深度學習的新進展:

(1)以 ViT、Swin 為代表的 Transformer 類模型開始向 NLP 以外的領域進軍,在更多場景中展現威力,讓“大”模型的趨勢愈演愈烈。

相應的,深度學習架構也在訓練大模型方面進展頗多(如 DeepSpeed+ZeRO),多種混合并行方案層出不窮。無論是深度學習架構還是硬體廠商,都在思考 Transformer 是否是會長期固定的計算 pattern。

(2)A100 這類顯示卡的誕生,催生了一股從動态圖回到靜态圖的趨勢。本身對動态圖更友好的架構也紛紛嘗試通過編譯的方式提升效率,比如 PyTorch 的 LazyTensor、Jax 的 XLA。很多國産架構也在嘗試通過動靜結合的方式提升效率,比如曠視天元 MegEngine 推出的 Tensor Interpreter、MindSpore 的 Python 代碼轉靜态圖的方案等。

此外,MLIR 和 TVM 這兩個深度學習編譯器領域的燈塔都在快速增長,如何靠機器做好編譯也正成為各個深度學習架構研發的主要方向。同時随着深度學習方法的持續發展,也誕生了更多的新興架構,如圖神經網絡領域的 DGL。

技術自立之路

近兩年,國産深度學習架構陸續開源且發展迅速,逐漸在開源架構市場占有一席之地。

在技術研發方面,國産架構不再是技術的“跟随者”的角色,研發出了很多領先的創新點,比如 MegEngine 的 DTR 技術、OneFlow 的 SBP 并行方案和 MindSpore 的 AKG 等等。此外,在功能、代碼品質和文檔等方面都達到了很高的水準。

在開源生态建設方面,各家也都持續投入,通過開源社群扶植、産學研合作等方式,助力國産開源生态的發展和人才培養。

業界現有的主流深度學習架構多來自國外大廠,目前,國内企業自研的深度學習架構還沒有哪一款進階成為國際主流的學習架構。

許欣然坦言,國産深度學習架構在生态建設上還有很長的路要走,既需要持續投入、不斷完善生态建設,也需要找到差異化的技術競争點,充分結合我國國情和國産硬體,發揮好自身的技術優勢和更好的生态洞察力。

研發難點

現階段,在深度學習架構方面,業界普遍面臨的研發難點主要展現在以下三個方面:

(1)在訓練側,NPU 開始入場,不少廠商已經做出自己的訓練晶片,如何高效對接訓練 NPU 仍待解決;

(2)學術研究發展迅速,架構技術需要持續跟進,這為架構研發帶來了一定挑戰。接下來一段時間會持續一段大 Transformer 的趨勢,那麼,下一個趨勢是什麼?

(3)算力提升速度更多地開始依賴 DSA 硬體,隻是單純的手寫 kernel 已難以支撐,架構需要更多的編譯技術、domain knowledge 才能不斷提升訓練效率。随着 NPU、GPU 等晶片的快速疊代,包括 MLIR、XLA、TVM 在内的編譯技術将受到更多關注。

将更好地支援大模型訓練

随着大模型的持續火熱,預期深度學習架構将在并行政策、重計算等能力上不斷提升,以更好地支援大模型的訓練。

同時,目前訓練大模型仍需消耗大量資源,如何依靠深度學習架構的力量節省計算資源,甚至在更小規模上完成任務,将是一個值得探索的技術方向。

智能語音這一年:技術突破不斷,工業落地加速

語 領域的大規模預訓練模型層出不窮

位元組跳動 AILAB 語 技術總監 澤君向 InfoQ 表示,2021 年度,智能語音技術的演進呈現出三個層面的趨勢:

(1)基礎模組化技術在打破領域邊界加速融合,如 Transformer 系列模型在 然語 、視覺和語 領域都展現出 緻性的優勢,頗有“ 統江湖”的意思。

(2) 超 規模 監督學習技術(self-supervised learning)在上述多個領域展現出很強的通 學習能 ,即在海量 标簽資料上訓練 規模通 預訓練模型,然後 少量有标簽資料做精細調整就能取得 常好的效果。

過去 年裡,基于這種兩段訓練模式的超 模型不斷重新整理各項學術算法競賽紀錄,在 業界也成為 種模型訓練和調優範式。

最近 年,Facebook、亞 遜、 歌和微軟等公司的研究學者陸續提出語 領域的大規模預訓練模型, 如 Wav2vec、 HuBERT、 DecoAR、 BigSSL、WavLM 等。

(3)除基礎技術外,在不同應 場合場景下,多個領域模态的技術也在快速互相融合,形成視覺、語 和語義結合的多模态綜合系統,如虛拟數字 。

工業界落地加速

整體來說,智能語 技術在工業界的落地不斷加速,來自業務和技術兩個方向的合力共同作用牽引和驅動應用落地。

從應用場景的牽引看,一方面如短中長視訊業務,在全球仍保持着較高的增長速度,視訊内容創作者和内容消費者活躍度很高;另一方面,疫情令居家辦公和遠端協作的需求增長,智能語 技術能在視訊會議中提供通信增強和語音識别等關鍵能力,為參會者提供更佳的會議體驗;以智能汽 和虛拟現實 VR/AR 為代表的新場景不斷出現,需要更友善、更低延遲、更沉浸式的語音互動體驗。

從核心技術的驅動看,基礎模型改進和自監督技術不斷提升着模型性能上限,同時多模态技術融合使得技術方案的能力越來越強,可 持更複雜的場景并帶來更好的體驗。

商業化難點主要在于商業模式選擇

馬澤君認為,現階段,智能語音商業化的難點主要是商業模式探索和路線選擇的問題,具體包括如何更好地滿 需求,控制成本以及保證傳遞品質。

一方面,AI 商業模式探索需要始終圍繞需求展開,提升模型效果和在真實場景中解決使用者或客戶的問題不能等同。解決實際問題需要 AI 研發 員深入業務場景,了解需求和條件限制,找到合理的産品技術 案,并不斷思考和抽象功能和技術,沉澱通用的技術解決 案,探索驗證可規模化的标準産品,降低定制周期和代價。

另一方面,AI 技術研發成本非常高,如何通過優化算法低對領域資料依賴,建設自動化平台降低人力消耗和提升研發流程效率對成本控制非常關鍵。

最後還要重視傳遞品質和售後服務。隻有同時做好上述三個環節,才能完成從需求到傳遞到服務的整個鍊路,進而奠定規模商業化的基礎。

端到端和預訓練等技術仍然值得關注

端到端序列模組化技術

(1)準确率和推理速度更上 層樓的端到端技術值得期待,其中對 機制(alignmentmechanism)是端到端序列模組化的關鍵。位元組跳動 AILAB 正在探索的連續整合發放 CIF 模型(Continuous Integrate-and-Fire)是一種創新的序列端到端模組化對齊機制,具有軟對齊、計算代價低和容易擴充的特性。

(2)在端側裝置上的端到端語 識别和合成技術落地值得關注,特别是輕量級、低功耗、 準确度和定制靈活的端到端語 識别和合成技術。

(3)端到端語 識别技術 向的熱詞定制和領域 适應技術 常可能有重 進展。

無監督預訓練技術

(1)超 資料規模和模型 size 的語 監督預訓練技術值得關注,語 監督預訓練的 BERT 已經出現 (Wav2vec2.0/Hubert), 語 監督預訓練的 GPT-3 很可能在 2022 年到來。

(2)多模态語 監督預訓練技術也 常吸引 ,該技術可能會極 地提升預訓練模型的表征能 ,從 帶來 監督預訓練技術更 範圍的落地應 。

(3)無監督預訓練技術在語 合成、 樂分類、 樂識别領域的應 同樣值得關注,借助 監督預訓練的聲學 頻表征,可以有效提升下遊任務的性能。

語 對抗攻擊與防禦技術。

(1)語 領域的對抗攻擊,從攻擊 段上來看,将從目前的 盒攻擊,進 步進化成 盒攻擊;從攻擊内容來看,将從目前流 的 untarget 攻擊進化成 target 攻擊。

群雄逐鹿,誰能赢得自動駕駛之戰?

2021 年,自動駕駛領域格外熱鬧。

造車熱

今年,網際網路大廠、新造車勢力和傳統企業紛紛進場布局自動駕駛,可以說能下場的巨頭們基本上都下場造車了,自動駕駛“戰場”群雄逐鹿,不知未來誰執牛耳?

在資本市場上,自動駕駛也備受追捧。據零壹智庫分析,繼 2016-2018 年熱潮之後,2021 年自動駕駛領域迎來第二次投資熱潮。今年 11 月,Momenta 完成超 10 億美元 C 輪系列融資,創下本年度自動駕駛領域最大規模融資記錄。

商業化前夜

Robotaxi 是自動駕駛最有價值的商業模式,現階段,很多自動駕駛技術公司都在做 Robotaxi 的嘗試。今年,很多自動駕駛車輛從封閉路測場地走向真實道路。百度、小馬智行、文遠知行、等企業已實作面向公衆的示範營運,開始探索商業化。11 月,國内首個自動駕駛出行服務商業化試點在北京正式啟動,百度和小馬智行成為首批獲許開展商業化試點的企業。業内人士認為,這标志着國内自動駕駛領域從測試示範邁入商業化試點探索新階段。

今年,自動駕駛卡車賽道也格外火熱,量産和商業化均提速,頭部玩家走向上市。近日,毫末智行董事長張凱在接受 InfoQ 等媒體采訪時談到了自動駕駛卡車的發展,他表示,相對乘用車輔助自動駕駛運作場景的複雜性,RoboTruck 具有一些優勢,例如長時間運作在較暢通的高速公路上,運作場景相對簡單。現階段,RoboTruck 走得是類似于乘用車般從輔助駕駛到無人駕駛漸進式的發展路線。從發展前景看,Robotruck 具備商業化閉環的可行性,但自動駕駛系統的量産将會是一個坎。

毫末智行 COO 侯軍認為,2021 年是自動駕駛的爆發之年。一方面,得益于技術的持續進步、市場需求、政策加持、資本看好等各方面因素,進階别自動駕駛在落地探索方面,已有了初步的成果;另一方面,智能駕駛商業化落地也在快速滲透,開始走向量産時代。

2022,這些技術是下半場競争勝負的關鍵

根據張凱的預判,“2022 年将是自動駕駛行業發展最為關鍵的一年。乘用車輔助駕駛領域的競争将會正式進入下半場,而下半場競争的場景将會是城市開放場景。其他場景的自動駕駛也将正式進入商業化元年”。

張凱認為,2022 年,多項自動駕駛技術值得關注。

(1)資料智能将成為自動駕駛量産決勝的關鍵。資料智能體系是自動駕駛商業化閉環的關鍵所在,搭建高效、低成本的資料智能體系有助于推動自動駕駛系統不斷疊代前行。

(2)Transformer 與 CNN 技術深度融合,将會成為自動駕駛算法整合的粘合劑。Transformer 技術幫助自動駕駛感覺系統了解環境語義更深刻,與 CNN 技術深度融合能解決 AI 大模型量産部署的難題,這是自動駕駛行業下半場競争的關鍵技術。

(3)大算力計算平台将在 2022 年正式量産落地,Transformer 技術與 ONESTAGE CNN 技術都需要大算力計算平台做支撐。

(4)随着自動駕駛系統的量産和規模化,雷射雷達與機器視覺組成的 AI 感覺技術,将與大算力計算平台深度融合,這将大幅提升自動駕駛感覺、認知子產品的運作效率。

NLP,黃金時代持續?

這幾年,NLP 處于快速發展階段。去年,多位 NLP 專家評判,NLP 迎來了大爆發的黃金時代。那麼今年,NLP 的發展情況如何?

基于提示的微調技術迅速流行

作業幫 NLP 資深算法專家蔣宏飛博士告訴 InfoQ,今年基于提示的微調 (prompt-based tuning)的技術迅速流行起來,這是一種人類知識和大模型較高效的結合模式。該技術是今年較值得關注的新進展。

“今年 NLP 在基礎模型方面沒有大的突破。預訓練模型方面,今年湧現了很多很大的模型,但整體上同質化也較嚴重,對于工業界實踐效果來講,往往按照‘奧卡姆剃刀’原則,傾向于使用最适當的如 Bert 往往就夠了”蔣宏飛表示。

現階段,NLP 技術在發展過程中還存在不少技術挑戰,其中之一便是很難擷取到大量高品質的标注資料。深度學習依賴大規模标注資料,對于語音識别、圖像處理等感覺類任務,标注資料相對容易,但 NLP 往往是認識類任務,人的了解都有主觀性,且任務和領域衆多,導緻大規模語料标注的時間成本和人力成本都很大。

與 CV、語音識别相比,NLP 項目在業務中落地偏較慢

NLP 落地項目往往和業務強相關。不像圖像識别、語音識别,通用能力在具體業務也有大量落地場景,業務和算法協作邊界和名額相對好确定。而 NLP 項目在業務中落地往往會比較慢,需要上下遊不斷深度磨合對齊。

NLP 解決的是最難的認知智能,而人類語言的歧義性、複雜性、動态性令其挑戰重重。但 NLP 商業化落地必須面對這些本質的難題,是以不太可能有通用性的“一招吃遍天”的技術方案。

“盡管現在的預訓練模型一直在往這個方向努力,但我認為起碼目前這種 Transformer 式的,或者更通用地說,DNN 這種蜂巢智能式的技術範式不太行。是以,大家能看到也有不少研究學者在知識圖譜類的各種其他範式上在做努力”蔣宏飛說。

通用性的模型既然走不通,那垂類單一具體場景任務為什麼也不能快速搭建?這個問題又涉及到資料的問題。資料标準的對齊、資料标注一緻且高效、資料覆寫度和均衡度、長尾資料的處理、資料動态漂移等都是 NLP 從業者每天面對的麻煩事。而相關的方法論和基礎工具還很不系統、不齊備,這是未來想達到快速商業化目的前必須打好的基礎。

明年,NLP 将在哪些場景實作規模化落地?

2022 年,NLP 的大規模化應用可能會出現在以下行業出現突破:

教育智能化。

場景化高标準機器輔助翻譯,如專業領域文檔翻譯、會議實時翻譯等。

服務營運智能化:教育訓練、銷售、營銷、服務等場景的智能化。

外文學習 / 寫作智能輔助,參考 Grammarly 和 Duolingo 的快速發展。

醫療智能化。文本廣泛存在于電子病曆、臨床試驗報告、醫學産品說明書、醫學文獻中。分析、挖掘和利用這些文本,有大量且能直接使用的場景,可能會有突破式發展。

代碼智能分析。代碼 bug 識别、代碼智能優化等。

2022 年,NLP 值得關注的技術點

基于提示的微調 (prompt-based tuning) 的技術。

具有邏輯推理的文本生成技術、具有良好控制性以及一緻性的文本生成技術。文本生成要在嚴肅場景用起來就必須滿足這些,否則隻能應用在娛樂場景。

多模态技術。如 NLP+CV、 NLP + Image、 NLP+ Speech 等。

主動學習、資料增強等。NLP 大規模快速落地時的很多痛點需要這些技術來緩解。

代碼智能。代碼問題識别、代碼翻譯、自動代碼優化、代碼工作量評估 (如 Merico 的方案)。

元宇宙概念大火,計算機視覺是基石技術之一

回首過去的一年,OPPO AI 技術産品化專家(語音語義和計算機視覺以及多模态融合方向)何苗總結了計算機視覺在工業界和學術界的進展。

具身智能,從被動式 AI 轉向主動式人工智能

具身智能(embodied AI),強調智能體(agent)要與真實世界進行互動,并通過多模态的互動 — 不僅僅是讓 AI 學習提取視覺上的高維特征,被“輸入”的認知世界,而是通過“眼耳鼻舌身意”六根來主動擷取實體世界的真實回報,通過回報進一步讓智能體學習并使其更“智能”、乃至“進化”。

今年 2 月,李飛飛提出了一套新的計算架構—— DERL(deep evolution reinforcement learning)深度進化強化學習。她提到了生物進化論與智能體進化的關系,并借鑒了進化論的理論應用于假設的智能體的進化學習中。

進入元宇宙,需要智能感覺和互動這張門票

今年,元宇宙概念大火,各家紛紛入局。

Facebook 極為推崇元宇宙,為了表示投入元宇宙的決心,今年,Facebook 改名為 meta,并宣布 “all in 元宇宙”。

紮克伯格提出雲宇宙需要具備八要素,其中之一是 Presence 開發平台 / 套件。Presence 是 meta 為 Oculus VR 頭顯開發者提供的元宇宙基礎開發套件,提供的即為基于計算機視覺和智能語音技術的工具集,分别是 insight sdk、interaction sdk 和 voice sdk。

進入元宇宙需要智能感覺與互動技術這張門票,而這張門票裡的視覺和語音技術是最重要的基石。

趨勢一:面向内容生成的 AIGC

元宇宙世界需要孿生大量現實世界的物體或是對于現實世界的人物進行重建,而這些海量的重建必然不能按照傳統遊戲世界中的方法,由 CG 工程師一個個手工制作,這樣效率遠遠無法滿足實際場景的需求。是以面向内容生成的 AIGC(算法層面)是必要的。相關技術方向包括:圖像超分、domain 遷移、外推、類似 CLIP(對比式語言圖像預訓練模型,可以從自然語言監督中有效學習視覺模型)的隐式神經表示 — 通過文字描述來生成圖像等多模态的(CV+NLP)等相關技術。

趨勢二:SCV 合成

虛拟現實引擎有專門的生成合成資料的元件,這些合成資料不僅美觀,而且有助于訓練更好的算法。

生成 / 合成的資料不僅是元宇宙的必備要素,也是訓練模型的重要原料。如果有合适的工具來建構資料集,就可省去繁瑣的給資料手工打标的過程,更好地對計算機視覺算法進行開發和訓練。

知名資料分析公司 Gartner 認為在未來 3 年中,合成資料将比真實資料更占優勢。在合成計算機視覺(SCV)中,我們使用虛拟現實引擎訓練計算機視覺模型,并将訓練好的模型部署到現實世界。

制約知識圖譜商業化落地的主要問題在于标準化

重要技術進展

知識圖譜技術在過去這一年取得的重要技術進展有:

知識抽取方面,多模态資訊抽取在同時處理文本和視訊方面取得了進展;知識表示方面,自注意力機制的知識表示方法越來越走向實用;知識應用方面,很多行業開始建構行業知識庫,用于各類下遊任務。

明略科技資深科學家張傑在接受 InfoQ 采訪時指出,現階段,在知識圖譜方面,業界普遍面臨的研發難點主要展現在兩個方面:算法方面,針對非結構化資料的資訊抽取和實體對齊的準确度難以保障直接商用,需人工校驗;工程方面,行業圖譜建構成本高,需要大量的人工标注,另外建構進度也不是一蹴而就,需要業務專家不斷運維。

張傑預測,2022 年,領域預訓練語言模型和 Prompt 在知識圖譜中的應用,有望使得資訊抽取環節得到進一步提升。針對技能性知識的抽取技術和多模态抽取技術,商用前景廣闊。

應用落地進展

2021 年,知識圖譜技術的應用落地,在 ToC 場景中仍主要用于搜尋、推薦的提升,在 ToB 場景中集中在可視化上。

張傑認為,現階段,制約知識圖譜商業化落地的主要因素在于标準化,行業圖譜的 schema 很難在企業内部大範圍内達成認知的一緻性,影響了後續的标注、抽取、應用。

2022 年,知識圖譜技術的大規模化應用可能會在制造業出現突破,制造業的知識密度高、重視标準化,頭部企業重視數字化建設,積累了大量原始資料。

2

2021 年度 AI 技術突破

人工智能預測蛋白質結構

12 月 15 日,Nature 釋出了《2021 年十大科學新聞》;12 月 17 日,Science 緊随其後,公布了《2021 年度十大科學突破》。Nature 和 Science 都将「人工智能預測蛋白質結構」評為本年度最重要的發現,Science 更是将其列為“2021 年十大科學突破進展”之首。

長期以來,蛋白質結構的預測一直是生物學領域的研究熱點和難點。傳統的蛋白質結構探測方法主要有三種:X 射線晶體學、核磁共振和冷凍電鏡。但這些方法成本較高,研究周期漫長,且進展有限。

人工智能為這一困擾生物學界數十年的難題按下了快進鍵。

今年 7 月,蛋白結構兩大 AI 預測算法 —— DeepMind 的 AphaFold2 和華盛頓大學等機構研發的 RoseTTAFold 相繼開源。

AphaFold2“解鎖”98% 人類蛋白質組

7 月 16 日,DeepMind 在 Nature 發表論文,宣布已利用 Alpha Fold2 預測了 35 萬種蛋白質結構,涵蓋了 98.5% 的人類蛋白質組,及其他 20 種生物幾乎完整的蛋白質組。研究團隊還公布了 AlphaFold2 的開源代碼和技術細節。

RoseTTAFold 可十分鐘内計算出蛋白質結構

同日,華盛頓大學蛋白設計研究所 David Baker 教授課題組及其他合作機構在 Science 上發表論文 ,公布了其開源蛋白質預測工具 RoseTTAFold 的研究結果。研究團隊探索了結合相關思想的網絡架構,并通過三軌網絡獲得了最佳性能。三軌網絡産生的結構預測精度接近 CASP14 中的 DeepMind 團隊的 AlphaFold2,且速度更快、所需計算機處理能力更低。僅用一台遊戲計算機,在短短十分鐘内就能可靠地計算出蛋白質結構。

其他研究進展

8 月,中國研究人員使用 Alpha Fold2 繪制了近 200 種與 DNA 結合的蛋白質結構圖。11 月,德國和美國的研究人員利用 Alpha Fold2 和冷凍電鏡繪制了核孔複合物的結構圖。12 月 22 日,深勢科技推出了蛋白結構預測工具 Uni-Fold,在國内首次複現谷歌 Alphafold2 全規模訓練并開源訓練、推理代碼。

3

2022 年,值得關注的重要技術趨勢

人工智能工程化

近兩年,人工智能工程化(AI Engineering)格外受關注。在 Gartner 釋出的 2021 年和 2022 年重要戰略技術趨勢中,人工智能工程化都被列入其中。人工智能工程化是一種實作人工智能模型操作化的綜合方法。

不久前,Gartner 進階研究總監高挺曾在接受 InfoQ 采訪時表示,AI 工程化本質上是 AI 在企業中大規模、全流程的落地過程,盡管目前大家現在對 AI 期待很高,但實際上 AI 目前的應用仍然是被低估的。因為,很多 AI 項目的價值隻能展現在一些“點對點”的一次性的方案中。将 AI 大規模落地的工程化方法(包含 DataOps、ModelOps 和 DevOps)總和起來,便是“AI 的工程化”的一整套體系。

人工智能工程化對企業有很多好處,企業在進行人工智能落地的時候,落地效率、落地廣泛度會更高。

可以預見,人工智能工程化将會是未來 2-3 年需要持續關注的方向,人工智能工程化應該關注三大核心要點:資料運維、模型運維、開發運維。

Gartner 預測,到 2025 年,10% 建立人工智能工程化最佳實踐的企業從其人工智能工作中産生的價值将至少比 90% 未建立該實踐的企業高出三倍。

生成式 AI 漸成趨勢

生成式人工智能(Generative Artificial Intelligence)也被 Gartner 評為 2022 年重要戰略技術趨勢之一。

該機器學習方法從其資料中學習内容或對象,并運用資料生成全新、完全原創的實際工件。人們可以用 AI 來創造出一些新事物,如内容創作、建立軟體代碼、輔助藥物研發等。

近日,機器學習大牛吳恩達發文回顧了 AI 在 2021 年的四個重要進展,其中之一便是,AI 生成音頻内容呈現出主流化傾向。現在音樂家和電影制作人們,已經習慣于使用 AI 支援型音頻制作工具。

在國内的優酷、愛奇藝等視訊平台,AI 也已經廣泛用于音、視訊的内容生産和創作中,如 AI 輔助視訊制作、智能字幕生成、智能翻譯、特效生成等。

Gartner 認為,未來一段時間内,AI 會逐漸從一個做判斷的機器變成一個做創造的機器。預計到 2025 年,生成式人工智能将占所有生成資料的 10%,而目前這一比例還不到 1%。

不過該技術還存在一定的争議,如會被濫用于詐騙、欺詐、政治造謠、僞造身份等,存在道德和法律風險。

元宇宙,狂熱的新風口

2021 年,可能沒什麼技術名詞比“元宇宙”熱度更高了。全球很多公司都在講元宇宙的概念,認為元宇宙是指向網際網路的“終極形态”。如今,移動網際網路的紅利已經見頂,不知道網際網路的盡頭是否會是元宇宙?

所謂元宇宙,是一個虛拟時空間的集合, 由一系列的增強現實(AR), 虛拟現實(VR) 和網際網路(Internet)所組成。元宇宙的實作,仰賴一系列前沿技術作支撐,包括人工智能、VR/VR、5G、雲計算、大資料、區塊鍊等基礎設施。

元宇宙中可以重點關注的細分賽道有 VR/AR 、遊戲、社交、Metahuman 等。文娛基金易凱資本在其元宇宙報告中也表示,長期看好基于上述形态的底層技術公司。易凱資本預測,在未來十年,元宇宙概念将依舊集中于社交、遊戲、内容等娛樂領域,到 2030 年會滲透到提升生産生活效率的領域。

4

寫在最後

總結人工智能在 2021 年的發展,湧現了不少激動人心的重大突破,人工智能也正在賦能、改變甚至颠覆許多行業。當然也仍有很多難點需要投入更多時間攻克。

近日,李彥宏對 AI 的未來發表評論:“人機共生”時代,中國将迎來 AI 黃金十年。而未來十年,AI 技術應用門檻将顯著降低,為各行各業的智能化轉型提供技術“大底座”。

人工智能發展已漸入深水區,期待明年以及之後的 10 年,人工智能能夠在技術和落地上取得更多進展,為下一個“黃金十年”而努力。

采訪嘉賓介紹(按姓名首字母排序):

何苗,OPPO AI 技術産品化專家

侯軍,毫末智行 COO

蔣宏飛,作業幫 NLP 資深算法專家

劉知遠,清華大學教授、智源大模型技術委員會成員

澤君,位元組跳動 AILAB 語 技術總監

吳韶華,浪潮人工智能研究院首席研究員

許欣然,開源深度學習架構曠視天元 MegEngine 研發負責人

曾冠榮,OPPO 小布智能中心、 NLP 算法工程師

張傑,明略科技資深科學家

張凱,毫末智行董事長

繼續閱讀