小鼠分等級，它的身份刻在大腦裡！上交盧策吾團隊發現登Nature

新智元報道

編輯：好困

【新智元導讀】衆所周知，社會性動物有等級之分。然而最近的一篇Nature發現，這種意識竟是天生就刻在大腦裡的！今晚19:00，新智元請到了作者盧策吾教授，感興趣的讀者可在文末或直播間留言提問。（線上騰訊會議号：498-116-229，或掃描海報二維碼，或添加微信号：aiera2015_2）

在AI for Science這個領域，DeepMind要說第二，恐怕沒人敢叫闆第一。

前腳解決了困擾學界50年的蛋白質結構問題，連登數次Nature；後腳又用深度強化學習完美控制了核聚變反應堆，再上Nature。

最近，來自國内的團隊也在這一前沿方向上做出突破性貢獻！

3月16日，一篇關于行為了解機理工作登上Nature，成功發現并解析了小鼠群體大腦中形成「社會等級身份」行為機制的神經回路。

論文用機器學習行為了解手段揭示了哺乳動物的大腦如何編碼社會等級，并利用該資訊來塑造自己的行為。

作者正是來自上海交通大學電院盧策吾教授的團隊。該論文的另一位共同通訊作者是Salk研究院Kay M. Tye教授。

論文連結：https://www.nature.com/articles/s41586-022-04507-5

團隊基于計算機視覺分析大規模小鼠的社交和競争與腦神經信号關聯，發現小鼠群體産生的「社會等級（Social rank）」行為竟然是由大腦中的神經回路所控制的。

也就是說，哺乳動物天生就會去判斷其他個體與自己在社會群體地位的高低，并依此做出行為決策。比如低等級小鼠會讓高等級小鼠優先進食，低等級小鼠會表現出服從行為等等。

文章一經發表，吃瓜群衆都懵了。

萬萬沒想到自己一直以來都深信不疑的認知就這麼給「颠覆」了。

鼠群社會等級，竟然是刻在大腦裡的？！

為了便于了解，我們可以把這個研究拆成兩個部分來解答。

當哺乳動物（行為主體）在執行某個行為時，其大腦是否産生了對應的穩定腦神經模式映射？

如果存在穩定映射，是否能運用機器學習方法發現與解析未知行為神經回路（如社會身份相關行為）？

于是為了回答這一系列行為了解的本質問題，團隊為每隻小鼠佩戴了無線電生理記錄裝置，用于記錄社交活動中的特定腦區内側前額葉皮層（mPFC）的序列腦神經信号，并同時通過多個攝像頭跟蹤定位每隻小鼠。

基于盧策吾教授團隊研究開發的姿态估計（如AlphaPose）與行為分類研究成果提取行為語義标簽，使得行為了解能規模化，定量化地關聯腦神經信号。該系統內建了計算機視覺行為了解最先進的技術，如算法對小鼠姿态估計點準确率達到了比人眼還要高的水準。

然後再利用自動采集的大量資料，通過隐馬爾可夫模型來訓練從「小鼠mPFC腦區的神經活動信号」到「行為标簽」的回歸模型。團隊發現，訓練完的模型在測試集上仍然有着穩定映射關系。由此也就可以确定，行為視覺類型與其行為主體大腦中的腦神經信号模式存在穩定的映射關系。

于是，在有了這樣的一個視覺行為檢測-腦神經信号關聯模型之後，就可以去探索那些新的行為神經回路了。

圖1. 視覺行為檢測-腦神經信号關聯模型（左：小鼠視覺機器行為檢測；右：系統架構與模型學習）

對于最初提到的「哺乳動社會層級」來說，它則涉及到了十分複雜的行為概念，比如低等級小鼠會讓高等級小鼠優先進食，低等級小鼠會表現出服從行為等等。

那麼，這些哺乳動物是如何判斷其他個體與自己的社會群體地位高低的？其背後的神經控制機制是怎麼樣的呢？對于學界來說，這個一直以來都是未曾攻破的難關。

圖2. 基于計算機視覺與機器學習的社會層級行為神經機制解析

不過，在「視覺行為檢測-腦神經信号關聯模型」的加持下，盧策吾團隊與合作者成功地記錄到了小鼠在進行「社會等級」行為時的腦部活動狀态。

在此之上，團隊又進一步地發現了這種行為的形成機制——大腦内側前額葉皮層-外側下丘腦（mPFC-LH）回路具有控制社會等級行為的功能。并且，這個結論還在嚴格的生物學實驗中得到了證明。

可以說，這項研究帶來了一種全新的基于機器視覺學習發現未知行為功能神經回路的研究範式。

機器行為了解——三大問題

上述工作屬于行為了解的基礎研究的一部分，也是人工智能一個重要問題。

機器在檢測到真實世界實體後，希望進一步了解她/他/它在什麼，跟進一步行為執行實體（人或機器人）了解他自己在幹什麼。

不過，想要讓AI能夠真正地了解行為，就不得不去解答以下的三個問題：

神經認知角度：機器認知語義與神經認知的内在關聯是什麼？

機器認知角度：如何讓機器看懂行為？

具身認知角度：如何将行為了解知識遷移到的智能本體（機器人系統）？

剛才的這篇Nature論文，正是面向的第一個「神經認知角度」問題。

圖3. 盧策吾團隊圍繞行為了解主要工作

當然，對于後面的兩個問題，盧策吾團隊也有着多年的積累。

眼睛：我會了！腦子：不，你不會！

人類覺得一眼就看到一個行為，覺得很輕松，但對于機器卻是非常挑戰。比起常見物體識别，行為了解在我們大腦裡更加抽象和缥缈的概念。

比如，當你閉上眼睛想象一個行為概念的時候會有成千上萬的可能模式，不像物體（如蘋果，桌子）模式單一。

如此巨大的可能空間，導緻「看懂行為」很難像之前那樣用深度學習蠻力去學。實驗也表明，行為識别準确率仍然很低。

面向這一挑戰，盧策吾團隊從行為知識推理、行為對象可泛化以及支撐行為了解的基礎工具——姿态估計，等多個次元展開了研究，主要成果包括三部分内容：

一、人類行為知識引擎HAKE（Human Activity Knowledge Engine）

差別于一般的直接深度學習「黑盒」模式，盧策吾團隊建構了知識引導與資料驅動的行為推理引擎HAKE（http://hake-mvig.cn/home/）。

首先，HAKE将行為了解任務分為兩階段：

将視覺模式映射到人體局部狀态原語空間，用有限且接近完備的原子的原語表達多樣的行為模式；

将原語依據邏輯規則進行程式設計，以可推理行為語義。

圖4. HAKE系統架構

其次，HAKE提供了大型的行為原語知識庫以支援高效的原語分解，并借助組合泛化和可微神經符号推理完成行為了解：

規則可學習：HAKE可根據少量人類行為-原語的先驗知識進行邏輯規則的自動挖掘和驗證，即對原語組合規則進行總結，并在實際資料上進行演繹驗證，以發現有效且可泛化的規則，發現未知行為規則。

圖5. 學習未見行為規則

人類性能upper bound：在87類複雜行為執行個體級别行為檢測測試集（10,000張圖像）上，具備完備原語檢測的HAKE系統的性能甚至可接近人類的行為感覺性能，驗證了其巨大潛力。

行為了解「圖靈測試」：HAKE的「抹去手法」和人類十分相似，側面印證了在行為「可解釋性」的了解上與人類相近。

這項特殊的「圖靈測試」分别讓HAKE和人類受試者去抹掉圖像中的一些關鍵像素，進而讓人無法分辨出圖檔想表達的内容。

而負責驗證結果的人類志願者則需要針對處理後的圖像做出判斷。如果答案錯誤，就說明執行「抹去操作」的AI/人可以較好地了解圖中的行為了。

結果顯示，對于那些被HAKE抹過的圖檔，人類的正确率隻有差不多59.55%，比随機猜測的50%高了不到10%。

圖6. HAEK的「抹去手法」和人類十分相似

二、行為對象可泛化的腦啟發計算模型

對于某個特定行為（如「洗」），人類大腦能抽象出泛化的行為動态概念，适用于不同的視覺對象（如衣服、茶具、鞋），并以此做出行為識别。

神經科學領域研究發現，對于連續視覺信号輸入，在人類的記憶形成過程中，時空動态資訊與物體對象資訊是通過兩個相對獨立的資訊通路到達海馬體以形成完整的記憶，這個帶來行為對象可泛化的可能性。

簡單來說就是，當你看過「狗跳」之後，如果一隻完全不同的動物，比如貓，也做了相同的動作，這時你依然能夠了解看到的是「貓跳」。

圖7. 解耦合地處理行為對象概念和行為動态概念，帶來的泛化性

基于腦科學啟發，盧策吾團隊通過模仿人類的認知行為對象與動态概念在各種腦區獨立工作的機制，提出了适用于高次元資訊的半耦合結構模型（SCS）。

SCS可以自主發掘（awareness）行為視覺對象概念與行為動态概念，并将兩種概念分别記憶存儲在相對獨立的兩部分神經元上，經過深度耦合模型架構下設計資訊獨立誤差反傳（decouple back-propagation）機制，來限制兩類神經元隻能去關注自己的概念，進而初步實作了行為了解對行為主體對象的泛化。

所提出半耦合結構模型工作發表在《自然·機器智能》，并獲得2020年世界人工智能大會優秀青年論文獎。

圖8. 可視化表征「視覺對象」與「行為動态概念」的神經元（左：視訊序列；中：對象神經元；右：動态神經元）

三、人體姿态估計

人體姿态估計是行為了解的重要基礎，也是一個如何在結構限制下擷取精準感覺的問題。

為此，團隊了提出圖競争比對、姿态流全局優化、神經-解析混合的逆運動優化等算法，系統性地解決人體運動結構感中密集人群幹擾大、姿态跟蹤不穩定、三維人體常識性錯誤嚴重等難題，前後發表CVPR，ICCV等計算機視覺頂會論文20多篇。

圖9. 結構感覺的工作（左：密集人群姿态估計；中：姿态跟蹤；右：三維人體形體估計）

相關研究成果積累形成開源系統AlphaPose（https://github.com/MVIG-SJTU/AlphaPose），并被傳感器領域、機器人領域、醫學領域、城市建設領域廣泛使用。

圖10. AlphaPose

在姿态估計AlphaPose後，團隊進一步形成開源視訊行為了解開源架構AlphAction（https://github.com/MVIG-SJTU/AlphAction）。

圖11. AlphAction

腦子：我也會了！手：不，你還是不會！

好的，既然機器已經可以看懂了這些行為，是不是就說明我的AI就可以派上用場了呢？

别急，還是不行！

時間退回到59年前，兩位科學家在1963年做了一個非常著名的實驗。

研究人員首先将一對從來沒有見過光的小貓連在一個旋轉木馬上。其中一隻雖然被套住但可以站在地上自己走動，而另一隻則被固定在吊車上。當那隻能夠走動的貓開始移動的時候，另一隻也會跟着轉。

讓這兩隻貓經過一波「學習」之後，研究人員發，雖然在這兩隻貓的眼中周圍環境的變化都是一樣的，但最後隻有那隻能走路的小貓發展出了正常的視覺感覺。

原因在于，那隻裝在吊車裡的貓來隻學到了，當有東西接近時，它會看起來「更大」，但并不知道這其實意味的是實體離自己「更近」。

甚至在之後的測試中，當物體都快貼臉的時候，這隻貓連眼睛都不會眨一下。也就是說，視野中的圖案變化對它來說，在空間上是沒有任何意義的。

那麼，為了讓AI能夠獲得具有深度的正常視覺感覺，給它「一具身體」進而在實體層面上實作和真實世界的互動是很必要的。

将這個結論推廣一下，就不難得出，隻有當智能體（機器人）能學習人類行為并據此完成了通用的任務時，才能夠證明機器了解了行為本質。

圖13. 「Movement-produced stimulation in the development of visually guided behavior」

是以，探索結合第一人稱角度了解人類行為本質，也需要從單純考慮「她/他在做什麼」拓展到聯合考慮「我在做什麼」，這種研究範式也正是「具身智能」（Embodied AI）的研究思路。

探索将該了解能力與學習得到的行為知識遷移到具身智能本體（人形機器人），使機器人初步具有「人類行為能力」，最後驅動機器人完成真實世界的部分任務，為通用服務機器人打下基礎。

以上科學問題的解決将：

提高行為語義檢測性能和提升語義了解範圍；

提高智能體（特别是人形機器人）對真實世界的了解能力，同時根據完成任務過程中真實世界的回報檢驗機器對行為概念本質的了解程度，為通用智能機器人的實作打下重要基礎。

近年來盧策吾團隊在具身智能領域聯合非夕科技建構通用物體抓取架構GraspNet（https://graspnet.net/anygrasp.html），實作了任意場景下剛體、可變形物體、透明物體等各種類型的未見物體的抓取。

GraspNet首次将PPH（picks per hour）名額超越人類水準，為之前性能最優的DexNet算法的三倍，相關論文發表一年内被引用70次。

5.7MB

圖14. GraspNet

作者介紹

盧策吾，上海交通大學教授、博士生導師，研究興趣包括計算機視覺，機器人學習。

個人首頁：https://mvig.sjtu.edu.cn/

他是2016年海外高層次青年引進人才，2018年被《麻省理工科技評論》評為35位35歲以下中國科技精英（MIT TR35），2019年獲求是傑出青年學者，以通訊作者或第一作者在《自然》，《自然機器·智能》，TPAMI等高水準期刊和會議發表論文100多篇。

此外，他還擔任《Science》等審稿人，CVPR、NeurIPS、ICCV、ECCV、IROS等人工智能與機器頂會的領域主席。

參考資料：https://www.nature.com/articles/s41586-022-04507-5

小鼠分等級，它的身份刻在大腦裡！上交盧策吾團隊發現登Nature

繼續閱讀

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行

李開複：預測到2027年人工智能将取代50%的工作