Nat. Mach. Intel. | IBM RXN: 深度學習在化學反應分類上大放異彩

2021-12-10 23:50:00

最近IBM和伯爾尼大學的研究人員利用基于自注意力機制的深度神經網絡實作了對化學反應的分類，該項成果釋出于Nature Machine Intelligence雜志上。

Nat. Mach. Intel. | IBM RXN: 深度學習在化學反應分類上大放異彩

化學反應的分類對化學家們有很高的價值，比如利用同類反應的相似成份推測最佳反應條件等。近年來，一些機器學習方法被用于化學反應的分類，但是都存在一定的局限。IBM和伯爾尼大學的研究人員提出使用BERT(Bidirectional Encoder Representations from Transformers)模型，該模型不同于由專家們根據經驗編寫大量規則的傳統分類方法，而是通過化學反應方程式文本便能實作化學反應分類的預測。研究者在13.2萬個化學反應上進行了測試，最高可達98.2%的分類精度，而傳統方法僅為41％。此外，該模型使用注意力機制，相較于傳統方式能更好的捕捉到對反應分類起關鍵作用的成份，該項工作有望開辟有機合成領域新的未來。

BERT模型基于“自注意力”機制，可以利用大規模的文本資料學習語言特征，研究者們首先将化學反應式轉換為SMILES格式，相當于對化學反應式進行了語言描述，圖1為兩個化學反應式及其對應的SMILES 表示：

圖1 化學反應式案例及其對應的SMILES representation

然後利用BERT模型進行語言學習，即經過若幹個Tranformer神經網絡結構，得到名為RXNFP的向量，然後基于此向量進行化學反應分類，具體過程如圖2。

圖2 BERT模型用于化學反應分類

BERT模型的注意力機制可以發現進行分類的關鍵作用成份，如圖3，格圖的縱軸對應BERT模型的不同層，橫軸對應每一個反應成份，顔色越深表示不同層對某個成份的關注度越高。

圖3 注意力權重解讀

基于BERT模型，化學反應可以表示成一個固定次元的向量，研究者将不同化學反應描繪在一張圖上，如圖4，從圖中可以觀察到不同化學反應之間的關系。

圖4 化學反應的向量可視化，不同顔色代表不同的化學反應，左下圖為預訓練網絡結果，中間圖為訓練後的網絡所得結果

Nat. Mach. Intel. | IBM RXN: 深度學習在化學反應分類上大放異彩

RXN Chemistry demo

繼續閱讀

Python一行代碼制作炫酷可視化 Cufflinkscufflinks實戰

【Python】Pyecharts 動态可視化 (餅圖 Pie)前言一、安裝二、示例

matplotlib資料可視化實戰——餅狀圖+雷達圖+三維圖全局中文字型設定及負數顯示問題餅狀圖繪制雷達圖繪制三維圖形繪制

Excel實作資料可視化

Linux下Tableau server連接配接Kerberos認證的CDH Impala/hive背景說明：

國外資料可視化設計，和國内差别可太大了！

雷達圖自定義點樣式漸變背景色雷達圖的自定義點樣式與漸變背景色

Python3 資料可視化之matplotlib、Pygal、requests

Pygal簡單生成直方圖

資料可視化#大資料

5G網絡，你真的了解了嗎？

進階轉錄組調控分析和R語言資料可視化第十三期（線上線下開課）

别輕易轉資料分析了！太卷了

如何優雅的建立init.py檔案？

POPUP_TO_DECIDE_LIST 彈出選擇框_SAP劉夢_新浪部落格

K-近鄰算法以及圖像分類應用