天天看點

從主機到深度學習叢集:IBM的語音之路

作為深入學習應用的一部分,語音識别和機器翻譯領域已經産出了大量的工作,像我們所熟知的百度、google和騰訊在這方面都有很多令人熟知的成果。雖然應用本身就是很有意思了,但更值得我們去研究的是當人們對于一些最難的機器學習問題有最新的思考時,研究人員是如何通過調整代碼和系統來解決問題的。當我們想要去回溯語音識别和機器翻譯的基礎時,ibm給我們提供了部分最久遠的曆史,盡管可能這部分曆史相對和深度學習相關性不是特别高。

ibm在語音和語言算法上的研究有36年的曆史。ibm的waston多模式部門進階經理michael picheny在很大程度上通過改變了代碼和所需的系統推動了語音識别的發展。雖然像許多其他大規模機器學習玩家一樣,ibm也大量部署了神經網絡的gpu,但語音識别發展的道路同樣還是漫長而複雜。先進的神經網絡模型結合上能夠實時和大規模運作的硬體,也就是這幾件才出現的事。這個組合的出現緻使ibm轉向了語音算法的開發和部署。

picheney回憶到,當年他加入ibm的時候,ibm是市面上唯一一家用統計和計算方法進行語音分析和識别的公司。其他公布都專注在語音潛在流程的實體模組化上。“ibm是唯一一家用解決計算和數學技術來解決語音問題的公司,這是我見過的最簡潔的方法。”picheney早期在ibm的語音識别工作是在完全脫機的大型主機上完成的,後來他的工作被部署到了三個獨立的ibm小型計算機并行工作以獲得實時的性能。之後,在20世紀80年代初,ibm 的pc出現,實作了加速器的定制化。到了20世紀90年代,這項工作就可以完全在cpu上完成了。picheny的語音識别團隊現在則選用gpu來進行加速。即使目前來看,在硬體層面,這對于想要将采用深度學習方法來進行的語音識别提升到下一個水準是有限制的。

代碼方面,ibm的語音識别領域也發生了很大變化。picheny告訴我們最早的語言識别系統由四個部分構成,分别是一個特征提取器、一個聲音模型、一個語言模型以及一個語言識别引擎。就像神經網絡的進化曆程一樣,從内到外所有的系統建構都被融合成為一個整體,這個全局的模型需要驚人的計算資源和大規模的軟硬體設施。而在這之前picheny說為為不同的模型元件創造一個通用的高效架構十分困難,因為每一個元件都有自己的優化方法和特征需要單獨考量。

“逐漸地我們看到,深度學習方法語音識别功能中占據越來越重要的地位。深度學習架構和機制在一點一滴取代過去那些難以處理大規模擴充的機制。在接下來的一些年裡,我們将會看到深度學習架構将會用于所有的語音識别領域,對于圖像也是同樣的道理。”他還表示未來可能将很多的功能包內建到一顆晶片中去實作特殊的功能。

picheny說,“深度學習領域的從業者對于自身學習的方向十分敏銳,這個領域的更新疊代實在太快了,新東西從這裡從哪裡連續不斷的冒出來。然而所有的深度學習工具都有利有弊,特别是在語音領域。市面上所有主流的工具包我們都用了,有一些确實比另外一些令我們眼前一亮,但盡管如此,我們還是自己建構了一套更好的代碼。”

“深度學習如今被用于語音識别的方方面面,并且将所有的功能原件整合到一個整體架構之中。這将使得技術架構十分簡單,遠不像面對許許多多的獨立的架構群組件那般複雜頭痛。在未來随着架構的成熟和标準化,我們将會看到cpu将具有對這些架構的輔助功能,可能還會出現包含這些架構的功能晶片。“

對于語音識别,ibm有自己基于客戶的神經網絡模型供watson訓練使用。這些模型的驅動基礎是計算速度和記憶體,慢慢我們也發現,這正是最大的兩個瓶頸,尤其是記憶體。

“gpu的運算速度非常快但記憶體是有限的,這正是訓練海量語料的瓶頸。将這些元素儲存在本地記憶體中相較于從晶片中提取具有明顯的優勢。也有的算法是将多個gpu的訓練結果結合起來實作并行計算。然而我們最需要的還是又快記憶體又大的gpu。”

除了語音專用的晶片,我們還和picheny探讨了其他可能推動語音識别技術的架構,例如深度學習公司nervana systems(intel收購)。其中最具潛力的将會是神經形态晶片,ibm也研制了自己的truenorth。“神經形态晶片領域已經有很多出色的工作性能也十分強勁,但是這些晶片的發展瓶頸在于需要完全不同的程式設計語言,gpu龐大的使用者群體不願意用一個不熟悉的新語言來程式設計。”

fpga也面臨過同樣的問題,雖然有很多中間組建的解決方案,但是程式設計依舊不是那麼容易。在專用的晶片掌控這個領域之前,人們還是傾向于使用gpu cuda生态系統中的庫來實作一個個深度學習應用。

這裡要特别提一下watson:pichney也覺得很難精确地說到底有多少個不同的架構和模型被用來建構watson ai系統。所有的東西都在飛速的變化和疊代,特别是在近兩年發展的速度讓人應接不暇。watson已經和當年大不相同,我們已經不需要去了解watson系統構成的模型和軟硬體架構了。看了pichney 的故事,我們就能感受到将這門多個語音元件融合為統一的整體,并實作特定功能的便捷和強大,而這一切對于watson來說都沒有差別,通用的架構對于實作複雜的學習問題擁有十分重要的意義。

-end-

本文來源于"中國人工智能學會",原文發表時間" 2017-04-13  "

繼續閱讀