如何攻克計算機科學聖杯？自動機器學習讓AI模型在幾秒内給出結果

機器學習的研究人員在設計新模型時做出了許多決定，比如他們會決定在神經網絡中包含多少層，以及輸入值在每個節點上的權重。

德國弗萊堡大學的機器學習實驗室負責人弗蘭克·哈特（Frank Hutter）表示，所有這些人類決策的結果是，複雜的模型最終是“由直覺設計的”，而不是系統設計的。

如今，一個被稱為自動機器學習（AutoML）的領域正在快速發展，旨在消除直覺的主導作用。其核心思想是讓算法做出模型的設計決策，而不是研究人員。

這種技術最終可以使機器學習變得更容易獲得。盡管自動機器學習已經存在了近十年，但研究人員仍在努力改進它。

最近，一個新會議在美國巴爾的摩舉行，組織者稱其為“第一次關于這個主題的國際會議”，會上展示了為提高 AutoML 準确性和優化其性能所做的努力。

人們對 AutoML 簡化機器學習的潛力非常感興趣。亞馬遜和谷歌等公司已經提供了使用 AutoML 技術的低代碼機器學習工具。如果這些技術變得更有效，它就可以加速研究，并允許更多的人使用機器學習。

核心思想是為了讓人們能夠選擇一個他們想問的問題，指派一個 AutoML工具，最終收到他們想要的結果。

會議組織者之一、美國懷俄明大學的助理教授拉爾斯·科托夫（Lars Kotthoff）表示，這個願景是“計算機科學的聖杯”，“由你來指定問題，計算機确定如何解決它——你隻需要做這些。”但首先，研究人員必須弄清楚如何使這些技術更節省時間和能源。

（來源：MS TECH）

什麼是 AutoML？

乍一看，AutoML 的概念似乎是多餘的——畢竟，機器學習已經在自動化從資料中擷取見解的過程了。

但是，由于 AutoML 算法在底層機器學習模型之上的抽象層上運作，隻利用這些模型的輸出作為指導，是以它們可以節省時間和計算。研究人員可以将 AutoML 技術應用于預訓練模型，以獲得新的見解，而無需在重複現有研究方面浪費算力。

例如，美國富士通研究中心的研究科學家邁赫迪·巴拉米（Mehdi Bahrami）和他的合作者展示了最近的工作，即如何使用具有不同預訓練模型的 BERT-sort 算法，以适應新的目的。

BERT-sort 是一種算法，在資料集上訓練時，它可以計算出所謂的“語義順序”。例如，給定一套電影評論資料，它可以知道“傑出（great）”電影的排名高于“好（good）”和“壞（bad）”電影。

用 AutoML 技術，算法學習到的語義順序也可以用在癌症診斷分析，甚至是韓文文本分類等任務上，減少時間和計算。巴拉米說：“BERT 需要幾個月的計算，而且非常昂貴，模型的生成和重複就要花上 100 萬美元。

是以，如果每個人都想做同樣的事情，它又是很昂貴、浪費的，那其實對世界并不友好。”盡管該領域展示出了希望，但研究人員仍在尋找使 AutoML 技術提高計算效率的方法。

例如，像神經架構搜尋這樣的方法，目前正在建構和測試許多不同的模型，以找到最佳拟合，而完成所有這些疊代所需的能源是不可小觑的。AutoML 技術也可以應用于不涉及神經網絡的機器學習算法，比如建立随機決策森林或支援向量機來對資料進行分類。

這些領域的研究更加深入，許多編碼庫已經适用于那些想要将 AutoML 技術整合到項目中的人。會議組織者弗蘭克·哈特（Frank Hutter）表示，下一步是使用 AutoML 來量化不确定性，并解決算法中的可信度和公平性問題。

在這一願景中，圍繞可信度和公平性的标準将類似于任何其他機器學習的限制，比如準确性。而 AutoML 可以在算法釋出之前識别并自動糾正被發現的偏見。

探索仍在繼續

但對于深度學習而言，AutoML 還有很長的路要走。用于訓練深度學習模型的資料，如圖像、文檔和語音，通常是密集而複雜的。

它需要巨大的計算能力來處理。訓練這些模型的成本和時間都令人望而卻步，隻有在财力雄厚的私人公司工作的研究人員才能從事。會議上的一個比賽要求參與者開發神經結構搜尋的節能替代算法，這是一個相當大的挑戰，因為這種技術有着極高的計算要求。

它會自動在無數個深度學習模型中循環，幫助研究人員為他們的應用選擇正确的模型，但這個過程可能需要幾個月，花費超過 100 萬美元。這些被稱為“零成本神經架構搜尋代理”的替代算法的目标是，通過顯著減少其計算程度，使神經架構搜尋更容易通路和環保。

最終他們希望在幾秒鐘之内得到結果，而不是幾個月。不過這些技術仍處于開發的早期階段，通常是不可靠的，但機器學習研究人員預測，它們擁有很大潛力，能過讓模型選擇過程更高效。

支援：Ren

原文：

https://www.technologyreview.com/2022/08/05/1056814/automation-ai-machine-learning-automl/

繼續閱讀