雲栖号: https://www.aliyun.com/#module-yedOfott8 第一手的上雲資訊,不同行業精選的上雲企業案例庫,基于衆多成功案例萃取而成的最佳實踐,助力您上雲決策!

從2012年AlexNet驚豔亮相開始算起,AI已經經曆了将近8年的蓬勃發展期。
這一迅猛發展尤其反映在了AI頂會的參會資料上。2013年,ICML的參會人數僅有數百名,但到了2018年,這一數量上升到了5000多。2019年12月,機器學習領域的最大型的會議NeurIPS更是聚集了13000名AI研究人員和工程師。
AI研究人員的迅速湧入也直接導緻了論文數量的爆炸增加。如今,arXiv已有六萬多篇AI論文。
2013年,一位AI專家可能會熟悉其子領域中的所有出版物。在2019年,這是不可能的。如今,行業中的絕大多數AI工程師都依賴“最佳論文”和其他簡要名單來了解最新成果。
從最開始星辰大海般的探索,到如今研究領域的細分再細分,AI研究似乎也進入了“小修小補”階段。
那麼,AI研究中我們能夠解決的重大問題是否已經完全被解決了呢? 下一次的AI大突破是否就要等待新的裡程碑式的研究呢?
AI基因研究公司Deeptrait的創始人Sergii Shelpuk認為,我們在這一輪AI發展期中依舊大有可為。
除去自然語言處理和計算機視覺兩大領域,我們還有太多領域可以開拓。
下面,我們對Sergii Shelpuk的觀點進行了編譯整理。
首先,讓我們來梳理一下如今AI從業者面對一個新問題時的常見心路曆程。
以計算機視覺為例,隻需看一看圖像識别的最新技術,然後選擇适合要求的體系結構即可。在比如自然語言處理,如果需要進行情感分析等任務,同樣隻需浏覽有關此問題的出版物,然後選擇适用于您的資料,硬體和所需性能的解決方案。
即使現有出版物不存在針對特定問題的解決方案,它也涉及“關于子問題的子問題”。例如,傳統的資料增強技術無法給你的資料集帶來理想的結果,或者,神經網絡在收集到的資料集中表現不佳,亦或是最佳的詞語嵌入技術在特定任務情境下表現不佳,等等。
這些年來,人們不斷遇到這些關于子問題的子問題,似乎關于AI的所有重大問題都已得到解決,越來越多的針對不斷縮小的研究領域的論文的發表更加強化了人們的這種印象。
當我們開始使用DeepTrait開發用于基因組分析的AI系統時,我們查閱了現有文獻。我們以為,深度學習的研究者已經詳細探讨過所有相關的問題,例如異構資料分析。如今,基因組分析已成為人類研究中最有前途和最重要的領域之一,并且該領域中總共已有6萬多篇AI論文發表。研究者們肯定已經完成了相對廣泛而深入的工作,不是嗎?
但事實證明并不是。在2019年12月12日通路arXiv并搜尋“深度學習”,共有22,140篇論文。然而将搜尋内容更改為“深度學習基因組”後,發現隻有76篇相關的論文,其中許多論文并未解決基因組資料的問題,隻是提到基因組是未來潛在的相關應用方向。
在其他論文來源(包括bioRxiv)中搜尋有關基因組學的深度學習論文,也就僅有200多篇。其中絕大多數運用的還是過時的神經網絡架構和訓練技術,另外很大一部分錯誤地使用了這些工具,例如,将卷積神經網絡應用于異構資料(例如SNP),這導緻了模型表現不佳。我們發現這樣的論文并不在少數。
那些正确使用AI工具的人主要将其應用在分析基因組的較小子序列,例如啟動子或蛋白質結合位點。他們的輸入資料最長為一到兩萬個核苷酸。相比之下,拟南芥基因中的核苷酸數量接近1.35億,而這僅僅是我們在第一次測試中所使用的基因之一。是以,我們沒有現成的範例或已有的神經網絡架構可供參考,也沒有針對這種大小序列的訓練技術,完全沒有!我們必須從頭開始。
大家都在研究什麼?
我感到奇怪,因為研究基因組資料具有巨大的潛力。高通量測序可産生大量資料,而AI似乎是理所當然的研究工具。然而,按論文的比例衡量,基因組學隻占AI研究關注的1%。
那麼剩下的99%在哪裡?基因組資料的AI應用顯然是一個機遇,如果這樣一個寶貴的研究課題都被忽視了,那麼也許還有更多研究課題有待探索。
我回到arXiv尋找其他潛在的AI應用方向。例如,現代天文學會生成大量資料:影像資料、射頻、帶注釋的天體(包括天空的最小部分)等。還有可能改變我們對宇宙認知的重大問題,例如“什麼是暗物質?”,例如恩裡科·費米(Enrico Fermi)所提出的著名問題的“他們都在哪呢?”
利用AI的力量通過分析宇宙中探測到的天文資料來解決這些重要的謎題,應該是一個顯而易見的方向,不是嗎?
然而現在在arXiv搜尋“深度學習暗物質”,卻隻有20個結果。
接下來是什麼?材料科學?現代強化學習模型可以擊敗圍棋和星際争霸2中最好的人類玩家。這些模型的表現如此出色,以至于AlphaGo的勝利被刊登在《自然》雜志上,最近,世界上排名最高的圍棋選手李世石選擇退役,留下一句話,“AI難以被擊敗”。(注:李世石的原話是“即使我成為棋手中的第一,我也無法站到頂點了,因為還有一個個體是我無法打敗的。”聽起來好悲壯o(╥﹏╥)o )
這個消息令人鼓舞,将相同的方法應用于材料科學怎麼樣?人類已經對實體和化學了解很多。我們可以建構一個模拟器,在其中可以通過強化學習來學習如何自行建立新材料(例如石墨烯)。這些新材料可以創造出新的飛機和艦船,空間升降機,水下站,甚至幫助人類移民到外太空。這應該是一個有趣的研究方向。
這世界真小
事實證明,幾乎所有現代AI研究和工業應用都聚焦于兩個子領域中的十幾個技術問題:計算機視覺和自然語言處理。
我們可以使用倒金字塔為AI世界模組化。每個較低的層級都啟發較高的級别模式,對其進行具象化并在某種意義上對其進行定義。
最底層是非常深入的基礎科學和技術。它涉及對神經網絡,算法優化,統計屬性以及這些工具的機率性質的理論了解。
中間存在一個技術層面的問題。這就是我前面提到的十幾個技術子問題。對于計算機視覺而言,它們是用于NLP的圖像識别,圖像分割和圖像生成,包括解析,文本分類,機器翻譯和問題解答等方面,其中通用語言了解評估(GLUE, General Language Understanding Evaluation)基準很好地代表了後者。
大多數研究人員和行業專家都處于這一級别。當然不是所有的人都專注于涉及GLUE或視覺任務的研究,你可能就是一個例外而不同意我的說法。但是,作為局内人,你可以清楚地明白我們中有多少人處于這個級别之中,又有多少人從事與這份任務清單本身、變形或組合之外的工作。
中間層的界限取決于理論科學底層的發展狀況。在底層出現的任何新想法,例如梯度下降,存儲單元或卷積濾波器,都可以在技術問題級别實作一系列新動作。
正如理論科學的進步可以實作整個技術領域的擴充一樣,解決單個技術問題也可以實作金字塔頂端的一系列工業應用成為可能。
該模型說明了行業的一個基本限制:雖然将産品從技術問題的層次轉換到工業應用相對簡單,但是反過來則難以實作。将應用程式流程視作一系列單向箭頭,如果我們在技術水準上隻有一群特定的計算機視覺和自然語言處理工具,那麼許多工業應用将無法實作。如果事實是這樣,絕大多數人都會這樣做。一位需要設計工業應用程式的AI專家最初希望在技術層的某個地方找到答案,但實際上可能會走向更廣泛且令人興奮的技術問題。
走進AI
技術問題和工業化實踐的目前狀态使得從應用程式到現有技術工具的反向路徑幾乎難以實作。現有的AI工具箱是為計算機視覺和自然語言處理(NLP)中特定的應用量身定制的,而這些工具越先進,其關注範圍就越窄。
以資料的大小為例,在植物基因組學中,我們從拟南芥的1.35億個字母基因組開始。如果将其按比例成卷列印,一個拟南芥基因組的每個資料點将占用150卷,這還僅僅隻是開始。番茄基因組将生成9.5億個字母文本或1,055卷印刷量,大麥将生成53億個字母或5,888卷,小麥将生成170億個字母或18,888卷。目前的NLP無法處理這麼大資料量的任何東西,我們目前所有的用于NLP的現代深度學習工具,例如類似變壓器的網絡,隻能處理長達數千個元素的序列。
另一個例子是資料的性質。基因組由四個離散的核苷酸組成,這些核苷酸由四個字母分别表示:A,C,T和G。一個核苷酸的T字母數量不容許出現多一個或者少一個的任何偏差,此外,将單個T更改為其他字母,則可能導緻完全不同的表型,緻命疾病或緻死性疾病。
上述潛在問題都限制了為連續資料開發的計算機視覺技術的使用。将這些資料規模加總,以方形四通道圖像表示的人類基因組将具有54,772 x 54,772像素的分辨率,這遠遠超過了現代計算機視覺神經網絡可以處理的分辨率水準。
基因組資料的性質和大小對我們目前所有最先進的深度學習技術提出了挑戰,在計算機視覺或NLP領域中迄今還沒有可借鑒的神經網絡體系或訓練實踐能夠解決上述問題。
天文學,化學,材料科學等資料豐富的學科,都存在着類似的問題:它們無法使用局限于狹窄的計算機視覺和NLP解決方案的現有AI工具集。目前有幾種流行的解決方法,例如将十六進制資料轉換為圖像,調整其大小之後再使用計算機視覺工具等,但它們并沒有太大幫助。
在這一點上,那些堅持不懈地尋求解決方案的人别無選擇,隻能進入人工智能的最深層次,即理論層次。 AI生态系統的這一根源促使了很多發現,包括關于深度神經網絡如何工作,不同體系結構如何影響其行為,不同激活功能如何與特定資料分布互相關聯等。換句話說,你可以使用這些工具建立自己的工具箱,并應用于你關心的工業程式。
這是一場艱難的旅程,它需要時間,深厚的專業知識,奉獻精神和些許運氣,但最終,你将在AI生态系統中開發出全新的技術問題層。盡管是為特定的工業應用而建構的,但該新工具集可以很多解決其他問題,例如解決圖像識别的技術可以為各種産品和産品原型提供新的思路,從放射學分析到自動駕駛系統例如Tesla Autopilot等都将受益于此。
藍海
解決計算機視覺和NLP的技術問題是一條非常可靠,可預測和安全的途徑。在這些領域有很多研究小組,初創公司和知名公司。專門研究計算機視覺或NLP還可以確定你接觸到前沿的工具,包括資料集,GPU技術,架構,以及大量的開源存儲庫等,這些儲存庫囊括了示例,庫,基準測試和其他有用的資源。好的工具可以減輕我們的工作負擔并提高生産力,這也許可以解釋為什麼AI人才在這兩個特定領域中聚集。
另一方面,創造自己的用于天文學,遺傳學,化學,材料科學,地球科學或經濟學的AI工具箱是一項充滿挑戰,甚至偶爾令人沮喪的孤獨旅程,你隻能依靠自己和你的團隊。但是,它可以使整個領域收益,足以建立另一個十億美元級别的公司或一個研究機構。
目前,人類面臨着許多至關重要但尚未解決的問題。對于其中的許多問題來說,那些勇敢的先驅們已經收集了多到無法分析的大量資料。他們的目的很簡單,收集資料并繼續前進。這些資料就在那裡,等着人們去發現它的價值,但是有時這需要花費數年的時間。這些問題中還有許多仍未得到解答,因為它們被證明是無法明确解決的。但是,人工智能技術也是以而聞名,因為它能夠學習如何破解無法解決的問題。
遠離擁擠的人潮,靜坐冥思,你會發現整個世界都被AI社群所忽視了。這個世界等待了數十年,翹首以盼那些AI先驅的到來。沒有地圖,沒有線索,它們隻把自身的價值送給那些勇于探索并一往無前的人。
原文釋出時間:2019-12-31
本文作者:Sergii Shelpuk
本文來自阿裡雲雲栖号合作夥伴“
大資料文摘”,了解相關資訊可以關注“
”