天天看點

劍橋AI公司:7天精通一門新語言,未來将學會7000種語言

11月11日,劍橋AI公司Speechmatics正式上線其機器學習平台Automatic Linguist,能在一周内掌握一門新語言。該平台沿用劍橋大學研發的技術,能夠識别并應用語言中的不同模式。目前,該平台能夠識别28種語言,實作從語音到文字的準确轉錄。

劍橋AI公司:7天精通一門新語言,未來将學會7000種語言

圖示: Speechmatics将28種語言逐漸加入其系統中。

一個大公司客戶要求Speechmatics兩周内學會印地語,該公司釋出了一個系統,根據測試,該系統比市場領先者的錯誤率少23%。

Speechmatics首席執行官Benedikt von Thüngen在接受Cambridge Independent采訪時表示,“印地語非常簡單。我們發現它在發音方面與英語非常相似,是以我們可以使用一個叫做‘适應’的過程。它從我們擁有的不同資料集中學習。”

“每種語言都有各自有趣的地方。韓語、土耳其語、芬蘭語、德語等語言都是粘着構詞,詞語結合起來構成新的詞彙。這是一個有待解決的有趣問題。”

“越南語、漢語等變調語言,也是一個很有意思的挑戰。要教會系統去處理這些語言。”

劍橋AI公司:7天精通一門新語言,未來将學會7000種語言

Speechmatics首席執行官Benedikt von Thüngen。

語言識别的傳統路徑要經過繁瑣、昂貴的人工過程,專家要手動收集、清理海量資料。這是一個一次性系統,是以隻關注使用最廣泛的幾種語言才算經濟實用。

但是經過劍橋大學博士、Speechmatics首席技術官Tony Robinson數十年對神經網絡的研究,Speechmatics可以通過識别基本聲音和文法結構,在一天之内掌握一門語言的基礎。

劍橋AI公司:7天精通一門新語言,未來将學會7000種語言

劍橋大學博士、Speechmatics首席技術官Tony Robinson。

該軟體的主要用途之一是為電視提供準确、實時的字幕,并增加了專業個性化詞典,如足球員姓名。

Benedikt說金融機構能夠使用這一技術進行通話錄音,以證明合規性和對PPI不當銷售進行審查。他預言:“語音将成為與裝置互動的主要機制。”

該公司白皮書提到,“我們的終極目标是為所有語言提供一個語言包。鑒于世界上約有7000種語言,這将是一個雄心勃勃的目标,我們希望有朝一日能夠全部掌握這些語言。”

原文釋出時間為:2017-11-16

本文作者:Cecilia

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀