天天看點

印象 2021|人工智能風起雲湧

作者:尚工機器人

如今,人工智能經過幾年的發展,再也沒有當初的神秘感。回顧 2021 年,無論是人工智能技術還是産業有很多值得稱道的研究和落地成果。AI 基礎理論研究逐漸深入,多模态、機器學習、自然語言處理、計算機視覺、晶片和基礎科學等領域都有不錯的研究引發熱烈讨論。如果你還把目光停留在語音識别、圖像識别、智能閱片、病毒測序……那麼下面這些前沿的技術和産業研究相信你會感興趣。

DeepMind 機器學習架構幫助發現兩個數學新猜想

英國《自然》雜志 12 月 1 日發表了由人工智能公司 DeepMind 開發的一個機器學習架構,該架構已經幫助發現了純數學領域的兩個新猜想。這項研究展示了機器學習可以支援數學研究,這也是計算機科學家和數學家首次使用人工智能來幫助證明或提出紐結理論和表示論等數學領域的複雜定理。

純數學研究工作的關鍵目标之一是發現數學對象間的規律,并利用這些聯系形成猜想。從 20 世紀 60 年代起,數學家開始使用計算機幫助發現規律和提出猜想,但人工智能系統尚未普遍應用于理論數學研究領域。

此次,DeepMind 團隊和數學家一起建立了一個機器學習架構,用于協助數學研究。團隊還表示,他們的架構能鼓勵未來數學和人工智能的進一步合作。

索尼釋出感存算一體化設計近光學傳感器 AI-ISP 晶片

随着物聯網、零售、智慧城市等産業的發展,在相機産品中搭載 AI 處理能力的需求快速增長。邊緣端晶片的 AI 處理能力能夠解決隻在雲計算系統中出現的問題,如延遲、雲端通訊、處理開銷,以及隐私問題等。目前市場對邊緣端智能相機要求包括小型、低功耗、低成本、易部署等,但目前傳統的 CMOS 圖像傳感器隻能輸出原始圖像資料。是以,在設計具有 AI 能力的智能相機時,将圖像信号處理器 (ISP)、神經網絡處理能力、DRAM 等結合在一起十分重要。

在 2021 IEEE 國際固态電路會議 (ISSCC) 上,索尼釋出了其背照式堆疊型 CMOS 圖像傳感器晶片,晶片能耗比達到 4.97TOPS/W。通過将圖像傳感器、CNN 處理器,以及 ISP、DSP、記憶體等子系統進行堆疊設計,在單晶片上實作完整的 AI 圖像處理能力。

TRFold引領國内計算生物學突圍

2021 年 7 月,DeepMind 公開了 AlphaFold2 的源代碼,并在頂級科技雜志 Nature 上發表論文闡述了 AlphaFold2 的技術細節。同一天 DavidBaker 也公開了 RoseTTAFold 的算法,并将研究成果經 Science 刊出。

這次開源在生物學界掀起了巨大的波瀾,意味着生物學家有機會擺脫先進裝置的掣肘,而這些裝置往往都非常昂貴,隻有經費充足的大學或研究機構才有條件配置。此後,那些小型團隊或者個人研究者也能參與到蛋白質的研究中來。

中國人工智能企業天壤自研的深度學習蛋白質折疊預測平台 TRFold 在基于 CASP14(2020 年第 14 屆國際蛋白質結構預測競賽) 蛋白質測試集的企業内測中,獲得 82.7/100 的成績 (TM-Score),已經超過來自華盛頓大學的生物學家 DavidBaker 團隊研發的 RoseTTAFold81.3/100 的成績,僅次于 AlphaFold2 的 91.1/100 的成績。在 400 個氨基酸的蛋白鍊預測時,TRFold 僅耗時 16 秒。這是目前國内所有公開蛋白質結構預測模型中取得的最好成績,它标志着中國計算生物學領域的表現已經處于世界第一梯隊。

在新冠肺炎疫情大流行的背景下,全球生命科學領域正面臨轉型,AI+生命科學元年正在開啟。相信在未來幾年内,将有大量的機構和公司加入到技術創新與生命科學研究的熱潮中。

DeepMind 發表語言模型社會危害評估論文

2021 年 12 月,DeepMind 發表論文,研究預訓練語言模型帶來的倫理和社會危害。研究者主要探究了模型在六大方面的不良影響,并談到兩個倫理和社會影響方面需要研究者持續關注。一是目前的基準測試工具不足以評估一些倫理和社會危害。例如,當語言模型生成錯誤資訊,人類會相信這種資訊為真。評估這種危害需要更多與語言模型進行人機互動。二是對于風險控制的研究依然不足。例如,語言模型會學習複現和放大社會偏見,但是關于這一問題的研究仍處于早期階段。

MIT-IBM 聯合實驗室基于果蠅大腦建構神經網絡學習 NLP 任務

2021 年 3 月,MIT-IBM 聯合實驗室的研究者基于果蠅大腦中的成熟神經生物學網絡模體 (Motif), 将結構進行數學形式化後建構神經網絡。該網絡可以學習語義表征,生成靜态的、依賴于上下文的詞嵌入。根據實驗,該網絡的性能不僅可以與現有 NLP 方法相媲美,記憶體占用率也更小,需要的訓練時間更短。在上下文單詞任務中,果蠅網絡的表現比 GloVe 高出近 3%,比 Word2Vec 高出 6% 以上。

OpenAI 提出大規模多模态預訓練模型 DALL·E 和 CLIP

在大資料、大參數和大算力的支援下,預訓練模型能夠充分學習文本中的表征,掌握一定的知識。如果模型能夠學習多種模态的資料,在圖文生成、看圖問答等視覺語言 (VisionLanguage) 任務上具有更強表現。

2021 年 1 月,OpenAI 同時釋出了兩個大規模多模态預訓練模型——DALL·E 和 CLIP。DALL·E 可以基于短文本提示 (如一句話或一段文字) 生成對應的圖像,CLIP 則可以基于文本提示對圖檔進行分類。OpenAI 表示,研發多模态大模型的目标是突破自然語言處理和計算機視覺的界限,實作多模态的人工智能系統。

谷歌提出多任務統一模型 MUM

2021 年 5 月,谷歌在 2021IO 大會上公開了多任務統一模型 (MultitaskUnifiedModel,MUM) 的發展情況。MUM 模型能夠了解 75 種語言,并預訓練了大量的網頁資料,擅長了解和解答複雜的決策問題,并能夠從跨語言多模态網頁資料中尋找資訊,在客服、問答、營銷等網際網路場景中具有應用價值。

華為諾亞實驗室等研究者提出動态分辨率網絡 DRNet

深度卷積神經網絡通暢采用精細的設計,有着大量的可學習參數,在視覺任務上實作很高精确度要求。為了降低将網絡部署在移動端成本較高的問題,近來發掘在預定義架構上的備援已經取得了巨大的成果,但對于 CNN 輸入圖像清晰度的備援問題還沒有被完全研究過,即目前輸入圖像的清晰度都是固定的。

2021 年 10 月,華為諾亞實驗室、中國科學院大學等機構研究者提出一種新型的視覺神經網絡 DRNet(DynamicResolutionNetwork)。基于每個輸入樣本,該網絡可以動态地決定輸入圖像的清晰度。該網絡中設定了一個清晰度預測器,其計算成本幾乎可以忽略,能夠和整個網絡共同進行優化。該預測器可以對圖像學到其需要的最小清晰度,甚至能夠實作超過過去識别準确率的性能。實驗結果顯示,DRNet 可以嵌入到任何成熟的網絡架構中,實作顯著的計算複雜度降低。例如,DR-ResNet-50 在實作同樣性能表現的前提下可以降低 34% 的計算,相比 ResNet-50 在 ImageNet 上提升 1.4 個點的性能同時能夠降低 10% 的計算。

瀾舟科技等研發中文語言模型 “孟子”

2021 年 7 月,瀾舟科技-創新工場團隊與上海交通大學、北京理工大學等機關聯合研發了中文語言模型 “孟子”,參數規模僅 10 億,在 CLUE 中文了解評測的總排行榜,以及分類排行榜和閱讀了解排行榜均位列榜首。其中,總排行榜分數突破 84 分,逼近人類基準分數 (85.61)。

北京大學團隊提出模拟靈長類視網膜中央凹編碼機理的脈沖視覺模型

深度學習支撐機器視覺在過去十年取得了巨大進步,但與生物視覺相比還存在巨大差距,例如對抗攻擊脆弱、計算複雜度随分辨率線性增長等。近來,北京大學團隊提出了模拟靈長類視網膜中央凹編碼機理的脈沖視覺模型,推翻了沿用近兩個世紀的相機和視訊概念,專利獲得中美日韓歐授權,研制了比人類視覺和影視視訊快千倍的脈沖視覺晶片和相機,用普通器件實作了高鐵會車、瞬态電弧、風洞激波等高速實體過程的連續成像,并結合脈沖神經網絡,在筆記本算力條件下實作了超高速目标的實時檢測跟蹤和識别,在硬體和算力相當的情況下将機器視覺性能提升了三個數量級。

團隊還深入研究了生物視網膜編碼複雜動态場景的神經網絡結構和信号編碼機理,提出并實作了一種基于卷積循環神經網絡 (CRNN) 的視網膜編碼模型,能夠高精度地預測大規模視網膜神經節細胞對動态自然場景的響應,可學習出視網膜神經節細胞感受野的形狀及位置,模型結構更接近生物視網膜,可以使用更少的參數學習出精度更高的編碼模型。還提出了評估刺激時空複雜度和感受野時空規律性的定量名額,實驗結果揭示了網絡的循環連接配接結構是影響視網膜編碼的關鍵因素,這一模型不僅具有生物學價值,而且對設計新一代脈沖視覺模型、晶片乃至研制視網膜假體都具有重要意義,論文已在《細胞·模式》(Cell·Patterns) 發表。

繼續閱讀