我相信你已經能知道 google 是一家極度看重算法、充滿工程師文化的公司,但或許你還是會為此而感到驚奇——他們認為翻譯是一個數學和統計學方面的問題。最近,位于 google 總部的 google translate 團隊正迅速擴張,他們新招了數名德國計算機科學家,但卻沒有招收一名語言學家。
google translate 部門主管 franz josef och 同樣也是德國計算機科學家出身,他不但并不精通語言學,甚至并不擅長語言學習。他認為,機翻的關鍵在對數學、統計和程式設計方面的擅長。
google translate 團隊并不會去模仿人工翻譯的方式,這就是他們沒有去開發字典、定義文法結構和規則的原因。事實上,文法規則對目前的計算機來說仍然難以掌控。google 更着重于以大資料和統計的方式入手,翻譯系統會不斷地調整翻譯結果的相關性并自我學習如何處理數十億的文字。通過這種方式,計算機最終能不斷優化翻譯結果。
以大資料方式做翻譯的一個好處是,翻譯系統會随着資料的積累而不斷地改善。google translate 目前已經支援 71 種語言的互譯,去年使用者的使用次數已經達到 2 億次。此外,索引全球網頁的 google 還能夠依靠網際網路上已經存在的翻譯内容改善自己的翻譯系統。
盡管如此,依賴算法的翻譯系統仍然遠遠無法做到像人工翻譯那麼精準。句法、語調、歧義都是自動翻譯軟體很難處理的問題。google translate 的翻譯結果仍然隻能幫助人們對陌生語言進行大緻上的了解,有時候得到的翻譯結果很難讓人通順地閱讀下來。
此外,google translate 在不同的語系之間的翻譯結果品質也各不相同。例如,英語和西班牙語之間的互譯翻譯品質良好,英語和日語之間的互譯不怎麼樣,英語和德語之間的互譯則非常糟糕。
盡管如此,機翻有一個人工翻譯難以做到的優勢——它讓更多的人接觸到了更多的資訊。試想一下如果你舉着手機就可以與世界上任何語種的任何人交流,那會是多麼棒的體驗。
<b>原文釋出時間為:2013-09-19</b>
<b></b>
<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>