天天看點

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

作者:新智元
破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

【新智元導讀】喪失古老的語言不僅是學術界的損失,也是全人類文明的損失。mit新開發的系統旨在幫助語言學家解讀已被遺忘的「死語言」。

要說大英博物館裡最出名的文物,羅塞塔石碑(rosetta stone)絕對名列前三。它矗立在櫥窗裡,古老、神秘,沉默不語,但身上密密麻麻的字,卻記載着古埃及的曆史。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

當時拿破侖的部隊遠征埃及,有人在尼羅河附近發現了這塊石碑,上面刻有3種文字,1種是古希臘語,記錄了年幼的托勒密五世登基成為法老一周年。

但另外2種看不懂,連拿破侖都想方設法破譯上面的文字。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

之後,一個叫商博良的「語言天才」曆時約20年,終于破譯了上面的其他文字。原來,這三種語言寫的是同一件事。

如果商博良出生在現代,也許他20年的鑽研nlp很快就能解決。

mit新研究:無需「裙帶關系」,就能破譯語言

時至今日,世界上至少有12種語言仍未被破譯。破譯失傳語言,很多時候要靠它和其他語言的關系。

商博良能破譯象形文字,也是靠着他會多門語言的天賦。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

麻省理工學院計算機科學與人工智能實驗室(csail)的研究人員聲稱,已開發出一種系統,該系統可以在不知道丢失的語言與其他語言的關系的情況下,對其進行解密。

而且他們還表明,他們的系統本身可以确定語言之間的關系,并用它來證明最近的學術研究——伊比利亞語言與巴斯克語确實無關。

巴斯克語

是一種使用于巴斯克地區(西班牙東北部的巴斯克和納瓦拉兩個自治州,以及法國西南部)的孤立語言。

作為西歐唯一的孤立語言,巴斯克語與現存語言是否有關争議很大。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

伊比利亞語

伊比利亞語是一個土生土長的西歐人的語言,經希臘和羅馬資料證明,他們在前移民時代(約公元前375年)居住在伊比利亞半島的東部和東南部地區。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

破譯「死語言」的兩個難點

大多數未被破譯的失傳語言都有兩個特點,這對破譯工作構成了重大挑戰:

(1)分割不夠細緻,沒有被完全分割成「字元」

(2)不知道「近親」是哪種,尚未确定最接近的已知語言

為此,mit的研究人員創立了譯碼模型。通過學習基于國際音标(ipa)的字元嵌入來擷取答案。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

該項目建立在作者去年寫的一篇論文基礎上,該論文解密了烏加裡特文(ugaritic)和線性語言b,後者需要數十年的時間才能被人類解碼。

在這個項目裡,這兩種語言都已知與與希伯來語和希臘語的早期形式有關。

這次作者挑戰的是語言間的未知關系。

通過學習基于國際音标(ipa)的字元嵌入來擷取答案

該算法學習将語音嵌入到一個多元空間中,語音的差異通過對應向量之間的距離反映出來。這種設計使他們能夠捕獲語言變化的相關模式,并将它們表示為計算限制。

生成的模型可以在一種古老的語言中分割單詞,并将它們映射到相關語言中的對應單詞。

模型概述:

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

生成丢失的文本從較小的機關-從字元到标志,從标志到銘文。字元映射首先在已知語言的音标上執行。根據這些映射,已知詞彙表y中的一個标記y根據潛在對齊變量a被轉換為丢失語言中的标記x。最後,所有生成的标記以及未比對的跨越中的字元被連接配接起來,形成丢失的碑文。

藍色框顯示與模型的每一級相關聯的語言屬性

x範圍的生成圖形模型:一個生成span x的圖模型表示:

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

不比對的字元将按照獨立同分布的條件生成,而比對的字元範圍以兩個隐變量為條件:y表示已知的同源字元,a表示x和y之間的字元級對齊

ipa嵌入圖:

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

每個音位首先由一個音位特征向量表示。該模型首先嵌入每個特征,然後将所有相關的特征嵌入連接配接起來,得到ipa嵌入。例如,電話[b]可以表示為voiced,stop和labial嵌入的連接配接

雖然給定的語言很少添加或删除一個音,但某些音替換可能會發生。在父語言中帶有「p」的單詞在後代語言中可能會變成「b」 ,但是由于發音上的巨大差距,變成「k」的可能性較小。

提出的算法可以評估兩種語言之間的接近度。事實上,當測試已知語言時,它甚至可以準确地識别語族。

deepmind早有開發,識别石頭上的希臘碑文

這并不是唯一将人工智能應用于失傳語言領域的。

deepmind 開發了一個名為pythia的系統,該系統可以識别35000件包含300多萬個單詞的文物中的模式。

它設法從包括石頭、陶器和金屬在内的希臘碑文中猜出了1500年至2600年前遺失的單詞或字元。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

殘損銘文:雅典議會關于管理雅典衛城的法令

人類現存語言約為5615種,如同象形文字一樣,大多數曾經存在過的語言現已不再使用了,其中幾十種也被認為已經消失,或未被破譯。

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

如果沒有它們,我們就有可能失去關于曆史上使用它們的人的大量知識。團隊的目标更為遠大,他們希望日後能夠靠幾千個單詞就能破譯語言。

作者介紹

jiaming luo

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

csail的一名博士生,也是mit nlp小組的成員。在來mit之前,他也在北大做過一些情緒分析和總結的工作。

參考連結:

https://venturebeat.com/2020/10/20/mit-csails-ai-revives-dead-languages-it-hasnt-seen-before/

https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021

http://people.csail.mit.edu/j_luo/assets/publications/decipherunsegmented.pdf

破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

繼續閱讀