天天看點

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

作者:将門創投

人工智能(AI)正越來越多地融入科學發現(Scientific Discovery)中,以增強和加速研究,幫助科學家生成假設、設計實驗、收集和解釋大規模資料,并獲得傳統科學無法獲得的洞見。Nature雜志在8月2日上線了由計算機科學家Yoshua Bengio領銜的合作團隊的綜述文章,以前瞻視角探讨人工智能時代的科學發現。這篇論文審視了過去十年的人工智能技術突破,包括自監督學習(使模型能夠在大量未标記的資料上進行訓練)、幾何深度學習(利用對科學資料結構的知識來提高模型的準确性和效率)、生成式AI方法(通過分析包括圖像和序列在内的多樣資料源來建立設計,例如小分子藥物和蛋白質)。文章讨論了這些方法如何在整個科學過程中幫助科學家,以及在進展之外仍存在的核心問題。無論是AI工具的開發者還是使用者,都需要更好地了解何時需要改進這些方法,并且直面資料品質和管理所帶來的挑戰。這些問題涉及各個科學領域,并需要發展基礎算法方法,以促進科學了解或自主擷取科學了解,使其成為人工智能創新的關鍵領域。綜述作者之一、斯坦福博士後王瀚宸撰寫了這篇筆記文章,介紹綜述所涉及的一系列觀點。

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

論文連結:

https://www.nature.com/articles/s41586-023-06221-2

一、Science is about making new discoveries.

在這篇14頁的文章中,我們主要關注AI如何助力科學發現,不論是牛頓的萬有引力定律、愛因斯坦的相對論、哥白尼的日心說、弗萊明對青黴素的發現,還是運用計算機模拟蛋白質折疊,都代表着新的規則和現象的發現。是以,"AI for Science"的核心可以說就是"借助AI推動科學發現、科技進步"。這與湯老師觀點并不沖突,無論是增強AI的預測能力,還是利用科學知識指導AI的發展,在科學領域最終都是為了實作"創造新的發現"這一終極目标。當然,如果有一天自然科學能夠切實指導AI的發展,即"Science for AI",那将會是另一件改變世界的事兒,因為AI的影響力遠不止在自然科學,當然這不在本文的讨論範圍之内。

這篇綜述講了啥

"AI for Science"的視角實在是太宏大了,我們在着眼大局的同時,也力求細緻入微地描繪細節。為了豐富文章的内涵,我們幾個核心成員可以說是精讀了截止至2022年秋季的近十年來所有CNS及其子刊中與AI相關的文章。我們在早期集思廣益建構了數個版本的架構和圖表,在一年多的寫作過程中,不斷地内部讨論修改[1]。自23年1月份文章不經修改直接被原則上接受後,我們又與Reviewer和Editorial Team進行了兩輪、長達四個多月的細緻讨論和修改,最終定稿(事實證明修還是要修的)。接下來通過文章的四個圖,我将簡單介紹下這篇文章的主體,即我們對近些年"AI for Science"發展的觀察和思考,以及讨論下未來需要解決的問題和挑戰。對此感興趣的朋友,強烈推薦閱讀原文。

當然,Science雜志在7月中旬率先上了一個專注于AI+Science的特刊,其中包含一些優秀的觀點和評論文章,它們大多關注在單個或少數幾個學科的特定問題上,此外arXiv上也有一些或長或短的材料可供參考。但如果你隻打算閱讀一篇關于"AI for Science"的綜述性文章的話,我推薦我們這篇:思考更深、視角更全、極度精煉,經過了Peer Review的捶打(其實Editor要求更改的地方更多)。此外,作者團隊中有很多established scholars和rising stars,能把大家聚在一起讨論出我們都能接受的架構也挺磨人的。至于影響力,of course time will tell,有這份自信。

扯遠了,回到文章本身。盡管科學實踐和流程在不同學科中有所不同,我們還是可以将其大緻劃分為三個互相關聯且有遞進、循環關系的階段:假設建構、實驗設計以及資料收集與分析。在這個過程中,人工智能在每個階段都在發光發熱,重塑科學發現的過程。舉幾個具體的例子,如AI優化實驗參數和功能,AU自動化資料收集、處理和可視化,AI大規模探索候選假設以形成理論、生成假設并估計其不确定性以改進相關實驗…,都已經成為科研小将們的必備工具。圖1列出了各個學科的一些具體例子,有關具體文章,可以在我們的原文中找到。

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

圖1 | 這裡用的自己畫的最後一版(約摸着是總第六/七版),最終用的是editorial team“潤色”的版本。

圖2-4我們具體闡述了在這三個階段,AI在方法和應用上的一些共性,分别說下。

AI-aided data collection and curation for scientific research

首先是資料。作為一切的出發點,AI在資料進行中可以幹這麼幾件事兒,比如說:

  • Selection. 一個典型的粒子碰撞實驗每秒鐘能産生超過100 TB的資料量,而其中超過99.99%的原始資料實際上是需要實時識别并舍棄的背景噪音,目的是為了保留那些稀有且含有有價值資訊的資料。一種常見的處理政策是利用異常檢測(Anomaly Detection)算法,将這些稀有事件視為異常資料進行識别并儲存。這種思路在實體學、神經科學、地球科學、海洋學以及天文學等領域都得到了廣泛的應用;
  • Annotation. 訓練有監督的模型需要依賴帶有标簽的資料集,然而對于生物學、醫學等實驗性學科來說,生成大量準确标簽的資料集既耗時又耗力。僞标簽法(Pseudo Labelling)和标簽傳播法(Label Propagation)是以成為了優秀的替代方案,它們允許在隻有少量準确注釋的大型無标簽資料集上進行自動注釋。此外,主動學習(Active Learning)可以幫助我們确定最有必要進行實驗标注的資料點,進而進一步降低成本。另一種資料注解政策則是借助專業領域知識來制定标簽規則,如Data Programming (NeurIPS '22)和Snorkel (VLDB '17)等;
  • Generation. 通常來說,AI的性能随着訓練資料集的品質、多樣性和規模的提高而提高。通過自動資料增強(AutoAugment)和深度生成模型(Deep Generative AI)生成額外的合成資料點,以擴充訓練資料集,是建立更好模型的一種有效方法。除了手動設計之外,強化學習方法(Reinforcement Learning)還可以發現一種自動資料增強的政策,這種政策既靈活又不依賴于下遊任務。舉例來說,生成對抗網絡(Generative Adversatial Netowrk)已被證明對科學圖像有益,它們可以在多個領域中生成逼真且有用的資料,從粒子碰撞事件、病理切片、胸部X光、磁共振對比、三維材料微結構、蛋白質功能到基因序列;
  • Refinement. 高精度的儀器,如超高分辨率雷射器和無創顯微系統,可以直接或間接測量實體量,得到非常精确的結果。AI則能夠進一步提高了測量分辨率,減少噪聲,并減小測量精度的誤差,使之具有一緻性。具體例子比如黑洞成像、捕捉實體粒子碰撞、提高活細胞圖像的分辨率,以及細胞類型檢測。

Deep Learning能夠在多層次上提取科學資料的meaningful representation,并優化這些表示以指導研究。好的Representation應該盡可能地保留資料的資訊,同時simple, accessible, compact, discriminative, and disentangle。在文中,我們簡單了介紹幾種政策:幾何深度學習(Geometric deep learning),自監督學習(Self-Supervised Learning),語言模型(Language Modelling)和神經算子(Neural Operators),此處就不贅述了。

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

圖2 | AI for Science中Representation Learning常見的幾種政策

AI-based generation of scientific hypotheses

可驗證的假設是科學發現的關鍵。這些假設有多種形式,從數學的符号表達式,到化學的分子,再到生物學的基因變異。建構有意義的假設通常是一項耗時費力的過程,正如約翰内斯·開普勒在分析星體和行星資料四年後才得出了一個導緻發現行星運動定律的假設。AI在此過程的多個階段都可以發揮作用。它們可以通過從噪聲觀測中識别出候選的符号表達式來生成假設。它們也能幫助設計物體,比如一個能與治療目标結合的分子,或是一個可以推翻數學猜想的反例,這些都指向了實驗室中的實驗評估。此外,AI可以學習假設的貝葉斯後驗分布,并利用這個分布生成與科學資料和知識相吻合的假設。我們在此簡單總結了以下三點,具體内容沒有在這裡展開講解,歡迎大家閱讀原文深入了解。

  • Black-box predictors of scientific hypotheses
  • Navigating combinatorial hypothesis spaces
  • Optimizing differentiable hypothesis spaces
38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

圖3 | AI幫助科學假設檢驗的幾種常見模式

AI-driven experimentation and simulation

通過實驗評估科學假設是科學發現的關鍵環節。然而,實驗室實驗可能成本高昂,操作複雜。計算機模拟已經成為一種具有前景的替代方案,為我們提供了更為有效和靈活的實驗手段。雖然模拟需要依賴人工設定的參數和啟發式政策來模仿現實世界的情況,并且需要在精度和速度之間做出權衡,這就需要了解底層的機制。随着AI的出現,這些挑戰正在得到解決,我們可以通過識别和優化假設來進行有效的測試,并且可以利用計算機模拟将觀察結果和假設聯系起來。這裡我們簡要地總結了以下兩點,具體細節就不展開了,歡迎大家閱讀原文深入了解。

  • Efficient evaluation of scientific hypotheses
  • Deducing observables from hypotheses using simulations
38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

圖4 | AI指導科學實驗的幾個常見例子

Grand challenges

最後說下挑戰和展望。這裡我們簡要地總結了以下三點,前兩點很好了解,展開說說第三個。

  • Practical considerations
  • Algorithmic innovations
  • Conduct of science and the scientific enterprise

長遠來看,自然科學中的AI需求将受到兩種力量的驅動。

首先,有些問題正處在可以從AI的應用中受益的邊緣,例如全自動化實驗室。其次,AI工具有能力提升已有技術并創造新的機會,例如探究在實驗中難以達到的長度和時間尺度上的生物、化學或實體過程。基于這兩大動力,我們預見研究團隊的構成将發生改變,以包括AI專家、軟硬體工程師,以及涉及各級政府、教育機構和公司的新型合作方式。目前最先進的深度學習模型的規模正在不斷擴大,這些模型的參數量達到了十億甚至萬億級别,每年呈倍增态勢,而滿足這些模型的計算和資料需求非常巨大。是以,大型科技公司大量投資于計算基礎設施和雲服務,推動規模和效率的極限。雖然盈利和非學術組織擁有龐大的計算基礎設施,但高等教育機構可以在多個學科中實作更好的整合。此外,學術機構往往擁有獨特的曆史資料庫和測量技術,這些在其他地方可能無法獲得,但對于AI for Science來說是必不可少的。這些互補性的資源促成了新型的産學合作模式的形成,這可能會影響研究問題的選擇。

随着AI系統的表現越來越接近甚至超越人類,将其作為日常實驗室工作的替代已變得切實可行。這種方法使研究人員能夠疊代地從實驗資料中開發預測模型,并選擇實驗以改進它們,而無需手動執行繁瑣和重複的任務。為了支援這種範式轉變,新的教育項目正在湧現,旨在培養科學家在科研中設計、實施并應用實驗室自動化和AI。這些項目幫助科學家了解何時應适宜使用AI,并防止AI分析的誤解,例如Hallucination。

AI工具的誤用和對其結果的誤解可能會帶來重大的負面影響,而且這些風險的應用範圍非常廣泛。然而,AI的誤用并非僅僅是一個技術問題,它還取決于那些引領AI創新和投資AI實施的人的動機。建立道德審查流程和負責任的實施政策是必不可少的,包括全面審視AI的範圍和适用性。此外,必須考慮與AI相關的安全風險,因為将算法實作複用為雙重用途已變得越來越簡單。由于算法能适應廣泛的應用,它們可以為一個目的而開發,但用于另一個目的,進而産生威脅和操縱的風險。這些都是亟需解決且影響深遠的問題。

二、AI for Science值不值得研究?

可以看這麼兩點:

2.1 “有沒有搞頭”(天時)

毫無疑問,"AI for Science"的學術前景廣闊。我們可以通過AlphaGo和AlphaFoldv2的對比來直覺地看到這一點。AlphaGo于2016年在Nature上發表,至今已經有45萬+的研究者閱讀過這篇文章,引用次數達到了7600+;而AlphaFoldv2于2021年也在Nature上發表,至今已有118萬+的研究者閱讀過這篇文章,引用次數達到了8000+。僅從這些數字來看,AlphaFoldv2在學術界和科技界的影響力至少是AlphaGo的幾倍。值得一提的是,AlphaGo是上一波的人工智能浪潮的标志性事件之一。

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

AlphaGo

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

AlphaFoldv2

現在以ChatGPT等AI工具可能成為下一代計算平台的底層架構的觀點,已經得到了越來越多人的認同。從這個角度看,"AI for Science"的影響可能會超過上世紀中後期把計算機引入自然科學的影響。Nature曾經評選出十個改變科學的計算機程式,這其中包括:

  1. 1957年,基于Fortran編譯器的科學模拟程式被用于天氣預報、航天軌道計算、材料性質計算等;
  2. 1965年,快速傅立葉變換被應用于天文測量;
  3. 1990年,BLAST序列搜尋工具被廣泛應用于基因研究;

AI for Science将有可能引領另一次科學的巨變,這将是一個非常值得期待的未來。

https://www.beren.io/2023-04-11-Scaffolded-LLMs-natural-language-computers/

https://www.nature.com/articles/d41586-021-00075-2

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現

2010年代第三波AI浪潮的标志性事件之一:Deep Learning三巨頭發表在Nature上的綜述AI for Science無疑具有廣闊的商業化應用和成果轉化的潛力。例如,在材料研發、基因編輯/篩選/設計、天氣預報、核聚變反應控制以及農業收成預測等領域,AI都有可能實作革新性的創新。這種創新不僅能産生經濟效益,而且可以真正提升人類社會的福祉。當然,這些應用的商業模型和技術還面臨着許多需要突破的挑戰。值得注意的是,國家科技部、美國能源部以及微軟等科技巨頭也都表明了對AI for Science的高度關注,并對此有相關的政策支援和傾斜。

https://www.microsoft.com/en-us/research/lab/microsoft-research-ai4science/https://www.zhihu.com/question/592157178https://www.osti.gov/biblio/1604756

2. 2 “能不能做好” (地利人和)

我們都知道英偉達作為這波AI浪潮的挖井人賺得盆滿缽滿,但并不意味着我們每個人也能去造顯示卡、賺大錢。同理,AI for Science雖然大勢很好,但門檻也很高,能不能吃好這碗飯因人而異。首先來講doing AI和doing Science的技能樹和腦回路是不太一樣的。我自己是高一保送的實體大學,之後博士在工程系讀的是機器學習,對這兩者的差異體會很深。簡單來說,Science一直很講究Taste和Intuition,這主要反正在“找問題”的能力上;而現在的AI更偏向于工程,看你bag裡面有哪些tricks。當然二者也有相通之處,很多傑出的研究工作都以解決某個重要問題為核心,而單純在已經定義好的評價體系下(比如我導師Jure做的Open Graph Benchmark)進行技術優化往往并不是最重要的,除非你能做到像AF2那樣一騎絕塵。找到“金礦”和定義何為“金礦”的能力,常常比快速有效地挖礦更為重要。其次需要優秀的科學直覺和極緻的工程能力的完美結合。科學直覺的重要性自不必多說,工程能力其實也非常重要。很多研究項目或初創公司的想法和故事并不新奇,但如何将其執行到極緻,不同的個體和團隊是雲泥之别[2]。當然平台和資源也都非常重要,這點相信大家應該體會都很深,這些都是與能力相輔相成的。最後我們來談成本,簡單說說個人職業發展方面的。

  • 首先讀CS/AI PhD就是一個成本很大的事情,此外單從學術方向而言,AI for Science的Top Researcher需要Top Conference和Top Journal兩手抓 (e.g., Brian Hie[https://brianhie.com/], James Zou[https://www.james-zou.com/], Marinka Zitnik[https://zitniklab.hms.harvard.edu/])[3],這兩者的投審稿風格也很不同,有機會細講;
  • 其次AI for Science這個方向在大廠裡并不是很受待見,比如Meta的蛋白質組,CNS咔咔發、工作确實不錯,但是從個人職業晉升角度來說并不吃香,因為公司、stackholders看不到回頭錢,團隊帶頭人Alex也回到學界了;
  • 此外,AI for Science對于其他職業路徑比如Quant,也并沒有太大的幫助或被普遍認可(雖然也時不時收到hr和獵頭的reach out,不過主要是跟我之前做過點兒Quant有關)
    https://zhuanlan.zhihu.com/p/372884253https://www.zhihu.com/question/58470970/answer/2364977070

是以其實AI for Science的Researcher,比較适合在各類Science都很強的Top University自己支個攤兒、在Local Community多合作、與業界大牛搞好關系,遇到合适的機會再搞搞Startups。當然公司要追求Profit而不是Science、投資人的錢也不是大風刮來的。想要同時做到這幾點難度很大,聰明才智大家都有,但更需要興趣驅動且個人ego要極強、喜歡追求上界、多次自我颠覆。其他職業路徑比如大廠Scientist、Quant、搞投資之類的,對于Top Talents的機會總是很多。當然AI各領域能留在頂級名校當老師的年輕一代,每一位都放棄了非常多的機會,給他們點贊 ,也希望自己幾年後、而立之年左右成為他們中的一員 :)總的來說,AI for Science的想象力空間巨大、發展勢頭剛起,但是否要躬身入局,還是要結合自身情況,量力而行。總之踏實做事、忠厚待人、廣結善緣,生活總不會太差,與君共勉。

三、寫在文章發表後

從我個人21年下半年開始推動直到文章最終發表出來,曆時近兩年,波折很多,很磨煉心氣兒。但哪篇CNS或者大子刊的背後沒有“故事”呢,這也不是我第一篇/故事,把事兒做成最重要。有點可惜的是,因為定稿于年初,近期的一些很好的工作(比如華為的盤古天氣預報模型)沒有包括進來,當然這也說明了領域發展日新月異。有篇Nature是好事兒,不過說破天也就是篇綜述,要做出領域内impacts主要還是憑靠原創性的工作,survey這種東西寫一篇就夠了,在精不在多。通常我們評價一個Micro/Junior PI的能力,主要是看他/她作為lead author (first/last) 發了哪些paper、拿了哪些funding、有哪些大佬願意真的挺你、公司搞得如何、與policy maker們的關系有多鐵,其他都是虛的(一家之言)。未來準備還是小範圍核心團隊圈子多搞事情,不結惡緣。最後感謝下師姐、哈佛醫學院教授Marinka Zitnik,領着我們一起把這個作品呈現給大家,沒有她這事兒也成不了[4],這也都是我們彼此的第一篇CNS(作為一作or通訊,不比Aviv能做到年均5+篇CNS通訊),希望自己之後的CNS投稿能夠再多些順意。也謝謝成文期間參與讨論、給與指導的朋友和同僚,鐘源博士、Demis Hassabis博士等。參考

  1. ^非常感謝Yoshua、Connor等PI通篇改架構、文章
  2. ^比如說”寫AI for Science的Survey“這個想法簡直爛大街 :)
  3. ^不然Science的人說你解決不了問題,AI的人說你算法沒什麼創新 :)
  4. ^Author裡我們把Junior靠前,從Anima到張林峰,是按照字母序排
作者:Hanchen來源:【知乎】https://zhuanlan.zhihu.com/p/642293473

Illustration by TechCrunch

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼

将門是一家以專注于數智核心科技領域的新型創投機構,也是北京市标杆型孵化器。公司緻力于通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

38所機構、200餘篇文獻,Nature正刊長文:AI時代的科學發現