天天看點

模拟資料注入優化加速資料驅動的材料發現

作者:初六睡不醒

文丨初六睡不醒

編輯丨初六睡不醒

前言

人工智能的最新進展為加速新材料的發現鋪平了道路。這些進步包括資料驅動方法,它利用機器學習模型和優化算法對可能具有所需目标特性的潛在候選材料做出明智的決策。

負擔就留給驗證方法,例如實驗室測試或計算方法,以确定建議的材料是否确實是正在尋找的目标材料。如果材料被驗證為不是最佳或不合适的,其資料将被吸收用于改進的ML模型,并且該過程将繼續進行,直到發現所需材料或資源耗盡。

模拟資料注入優化加速資料驅動的材料發現

使用這種資料驅動的發現方法使實驗自動化,例如通過使用自動駕駛實驗室,典型的資料驅動方法要麼嘗試使用更具代表性的分布來豐富資料,以提高底層ML模型的預測能力,過程稱為主動學習,要麼嘗試通過擷取盡可能少的資料來定位全局最優值。

研究的過程

通過資料驅動的過程,底層ML模型是以在預測尚未合成或發現的材料特性方面變得更加準确,并且這些模型幫助預測的一些材料特性包括帶隙形成能量、相穩定性、晶體結構等,通過使用人工智能,研究人員能夠消除實驗室合成、分子模拟或DFT計算的重大負擔。

模拟資料注入優化加速資料驅動的材料發現

盡管這些ML模型比傳統的DFT計算快幾個數量級,但它們依賴于利基資料分布,對于特定用例,電子相關資料,以産生樣本外預測精度這與決策所需的決議不相上下。通常對于新材料,ML預測的準确性可能不會接近建議具有所需特性的候選材料所需的分辨率。

所有這些問題都充分激發了一種更快的資料驅動方法,通過高度選擇性的候選材料建議來擷取更能代表目标問題的資料。貝葉斯優化是一種廣泛用于此類資料驅動材料發現的方法,但它存在順序執行瓶頸。

模拟資料注入優化加速資料驅動的材料發現

為了加速這一過程,可以利用批處理優化技術,其中可以一次選擇材料的多個候選參數,通過多個分布式DFT計算或實驗室實驗進行驗證和同化。專注于基于虛假資料注入方法的批量優化技術,并将其性能與其他基線進行比較。

這項工作采用了之前關于鈣钛礦系列材料的順序貝葉斯優化工作中的用例。鹵化物鈣钛礦為成分和結構調整提供了巨大的潛力,使發現用于能量轉換的高性能材料成為可能。

模拟資料注入優化加速資料驅動的材料發現

雜化鹵化物鈣钛礦由位于其A位點的有機分子組成,在其B位的金屬Ge、Pb或Sn,X位的I、Br 、Cl以及上述成分的混合物。在工作中,利用甲基铵鹵化鉛作為鈣钛礦族的基線,因為它具有合适的帶隙且易于合成。

Tao等人提供了關于鈣钛礦系列材料的各種ML模型的完整清單。來預測帶隙、形成能、可成形性和穩定性等特性。分析基于DFT計算來确定混合的焓,以預測混合鈣钛礦的相穩定性,表明兩種穩定的雜化鈣钛礦化合物混合形成均勻固溶體的可能性有多大。

模拟資料注入優化加速資料驅動的材料發現

材料發現鈣钛礦用例

材料的設計和發現通常是多目标标準,需要優化以産生同時具有更好的轉化率、穩定性和其他特定領域特性的結構。鈣钛礦用于太陽能電池,因為它們屬于薄膜太陽能電池家族,在利基應用市場中具有良好的前景。

鈣钛礦吸光層的優化圍繞着尋找合适的金屬離子、鹵化物和陽離子組成,以實作良好的功率轉換性能,同時確定長時間的電池穩定性。

模拟資料注入優化加速資料驅動的材料發現

這種優化标準非常适合我們的用例,因為我們可以限制某些已知的金屬離子、鹵化物和陽離子,并主要探索這些替代品跨越的配置空間。在用例中,将替代品限制為乙基鹵化鉛。

限制這些替代品簡化了尋找甲基铵和乙基铵濃度及其相應取向的問題,這些取向産生與最低混合焓相對應的更穩定的構型有利于形成均勻的固溶體,不易分離成母體單陽離子甲基铵和乙基铵化合物。

模拟資料注入優化加速資料驅動的材料發現

此類材料的優化通常通過DFT和動力學計算進行,這被認為是實驗室合成的一種更快、更便宜的替代方法。然而DFT計算仍然比ML預測更耗時。

對于在具有48個CPU的單個節點上運作的現代HPC上的甲基铵鹵化鉛的2×2×2超晶胞尺寸的單次DFT計算,使用PBE函數完成一次VASP計算需要35到70分鐘。

模拟資料注入優化加速資料驅動的材料發現

假設在單個配置上運作DFT需要1小時的CPU時間,那麼所有配置所需的時間将需要幾千年。這樣的成本需要一種更有原則的方法來從搜尋空間中采樣,通常用于材料發現的兩種主要方法。

人在環路方法

典型的人在回路中的方法依賴于專家的知識或直覺以及可選的一些科學模型來指導潛在候選材料的探索和開發。并從專家基于一些科學模型或資料的先驗知識開始,然後利用這些知識為DFT計算提出合适的候選成分。

模拟資料注入優化加速資料驅動的材料發現

對計算結果進行統計或定性分析,可以證明或反駁專家的假設。基于觀察,專家通過認知或通過模型更新他的假設以建議下一個候選材料。就領域的“認知學習”而言,這種人在環中的方法可能是好的。

正如Park等人所指出的那樣。這可能會導緻增加專家的誘導偏見,這可能會限制他探索其他可能提供資訊的配置。Peng等人介紹了人在回路中的固有認知偏差的局限性及其與以機器為中心的材料設計的比較。

模拟資料注入優化加速資料驅動的材料發現

涵蓋基于模型的系統、基于描述符的系統、資料驅動方法,包括主動學習、貝葉斯優化和逆向設計。典型的人在回路中的方法受到專家可用性的要求以及歸因于從資料中擷取知識、執行分析和為進一步行動建立新假設的認知延遲的影響。

資料驅動方法

資料驅動的方法能夠以更有原則的方式搜尋最佳或合适的材料配置。然而,它們依賴于資料采集模型的品質。有幾種優化方法可用于搜尋某些黑盒函數的最優值。可以将它們分為順序或并行方法。

模拟資料注入優化加速資料驅動的材料發現

貝葉斯優化、強化學習和馬爾可夫鍊蒙特卡洛算法是順序優化的幾個例子,而粒子群優化、模拟退火和蟻群優化是批量的例子。大多數資料驅動方法結合使用僞随機技術以及探索和開發政策來定位全局最佳值。

根據這些資料驅動方法的性質,要麼利用所有資料來确定下一個評估候選者,要麼利用迄今為止擷取的資料中的最佳值來計算下一個候選者候選評估,例如PSO的某些變體或僅使用目前資料點,例如Markov-Chain-Monte-Carlo算法。每一種都有其優點和缺點。

模拟資料注入優化加速資料驅動的材料發現

與資料無關的方法要麼随機擷取新的資料點,要麼徹底掃描搜尋空間。如果運作實驗或DFT計算以擷取新資料的成本很高,這通常會帶來挑戰,進而導緻完全依賴與資料無關的方法來獲得全局最佳值是不切實際的。

在優化資料收集過程的各種資料驅動方法中,我們重點關注粒子群優化、模拟退火、遺傳算法和貝葉斯優化,因為它們廣泛應用于計算材料科學,适合在HPC的并行節點中運作。

模拟資料注入優化加速資料驅動的材料發現

使用預測器而不是運作實際實驗的好處是獲得快速而淺顯的初始建議。此建議生成過程相對較快,另一種實作批量建議的方法是基于擷取函數的局部懲罰。這反過來會在之後受到懲罰參數建議被采納。這種方法的缺點是采集函數應該是多模态的。

不是一次運作單個DFT計算,而是運作k-DFT計算以最大限度地利用高性能計算環境中的計算資源。該方法改編自Kriging believer's啟發式,并附加了一個貪心算法以頻率為unbias搜尋方向。

模拟資料注入優化加速資料驅動的材料發現

對每種方法進行了25次試驗,以獲得平均性能并降低由于優化方法的随機種子而引入的任何異常值。訓示每個DFT計算的CPU開始和結束時間的資料的計算配置檔案以及相應的值顯示。

對于每次試驗,DFT計算的開始時間和結束時間由矩形條表示,其高度對應于輸出值,S-BO 的條不重疊表示順序執行。青色虛線表示試驗的最佳值的時間。注意到作業排程程式在執行周期之間暫停了某些試驗。

模拟資料注入優化加速資料驅動的材料發現

這在大多數FDI-BO試驗中都可以看到。這意味着單純的CPU時間不适合用來比較各個軌迹。這是為我們的ROP和AF性能名額名額使用批處理周期的動機之一。

總結

觀察到SBO和RS預計比FDI-BO和TOPK-BO需要更長的批處理周期來執行。與SBO和RS執行個體相比,FDI-BO和TOPK-BO的示例執行個體以較低的批處理周期結束抽樣預算。這些還描述了尋找穩定結構所需的負擔程度,因為大多數建議都高于-1meV離子門檻值。

模拟資料注入優化加速資料驅動的材料發現

FDI-BO和TOPK-BO提供的加速在收斂曲線中也很明顯,隻記錄了迄今為止在相應批處理周期獲得的最佳值。許多SBO執行個體需要超過20個批處理周期才能收斂到相應的最佳值,而RS的幾個執行個體需要超過40個批處理周期。

最佳值的品質與其他方法不相上下,進而阻止其完全依賴搜尋過程。試驗中表現最好的第21個批次循環時為6.99meV。

模拟資料注入優化加速資料驅動的材料發現

所有優化方法的25次試驗的平均最佳值約為−3±0.2。考慮到實驗設定中的限制,随機抽樣方法的平均表現幾乎與SBO方法一樣好。沒有一個随機抽樣試驗達到低-4meV,并且它以相對較高的執行成本運作,這在實際情況下可能不可行。

這表明僅最佳值的平均值不足以區分哪種優化方法具有成本效益的性能名額,表明需要提供決定性的性能名額來解決加速和收斂到最佳值和門檻值的問題。

模拟資料注入優化加速資料驅動的材料發現

參考文獻

Abatal M, Ruiz-Salvador AR, Hernández NC (2020) 一種基于 DFT 的模拟退火方法,用于優化沸石骨架系統中的全局能量:在鈉沸石、菱沸石和斜發沸石中的應用。微孔介孔材料 294:109885

Abolhasani M, Kumacheva E (2023) 化學和材料科學領域自動駕駛實驗室的興起。Nat Synth 30:1-10

Blöchl PE (1994) 投影儀增強波方法。實體 Rev B 50(24):17953

Chakraborti N (2004) 材料設計和加工中的遺傳算法。Int Mater Rev 49(3–4):246–260

Chang C, Lee Y, Wu S (1990) 使用廣義模拟退火法優化薄膜多層設計。選擇快報 15(11):595–597

繼續閱讀