
【新智元導讀】喪失古老的語言不僅是學術界的損失,也是全人類文明的損失。mit新開發的系統旨在幫助語言學家解讀已被遺忘的「死語言」。
要說大英博物館裡最出名的文物,羅塞塔石碑(rosetta stone)絕對名列前三。它矗立在櫥窗裡,古老、神秘,沉默不語,但身上密密麻麻的字,卻記載着古埃及的曆史。
當時拿破侖的部隊遠征埃及,有人在尼羅河附近發現了這塊石碑,上面刻有3種文字,1種是古希臘語,記錄了年幼的托勒密五世登基成為法老一周年。
但另外2種看不懂,連拿破侖都想方設法破譯上面的文字。
之後,一個叫商博良的「語言天才」曆時約20年,終于破譯了上面的其他文字。原來,這三種語言寫的是同一件事。
如果商博良出生在現代,也許他20年的鑽研nlp很快就能解決。
mit新研究:無需「裙帶關系」,就能破譯語言
時至今日,世界上至少有12種語言仍未被破譯。破譯失傳語言,很多時候要靠它和其他語言的關系。
商博良能破譯象形文字,也是靠着他會多門語言的天賦。
麻省理工學院計算機科學與人工智能實驗室(csail)的研究人員聲稱,已開發出一種系統,該系統可以在不知道丢失的語言與其他語言的關系的情況下,對其進行解密。
而且他們還表明,他們的系統本身可以确定語言之間的關系,并用它來證明最近的學術研究——伊比利亞語言與巴斯克語确實無關。
巴斯克語
是一種使用于巴斯克地區(西班牙東北部的巴斯克和納瓦拉兩個自治州,以及法國西南部)的孤立語言。
作為西歐唯一的孤立語言,巴斯克語與現存語言是否有關争議很大。
伊比利亞語
伊比利亞語是一個土生土長的西歐人的語言,經希臘和羅馬資料證明,他們在前移民時代(約公元前375年)居住在伊比利亞半島的東部和東南部地區。
破譯「死語言」的兩個難點
大多數未被破譯的失傳語言都有兩個特點,這對破譯工作構成了重大挑戰:
(1)分割不夠細緻,沒有被完全分割成「字元」
(2)不知道「近親」是哪種,尚未确定最接近的已知語言
為此,mit的研究人員創立了譯碼模型。通過學習基于國際音标(ipa)的字元嵌入來擷取答案。
該項目建立在作者去年寫的一篇論文基礎上,該論文解密了烏加裡特文(ugaritic)和線性語言b,後者需要數十年的時間才能被人類解碼。
在這個項目裡,這兩種語言都已知與與希伯來語和希臘語的早期形式有關。
這次作者挑戰的是語言間的未知關系。
通過學習基于國際音标(ipa)的字元嵌入來擷取答案
該算法學習将語音嵌入到一個多元空間中,語音的差異通過對應向量之間的距離反映出來。這種設計使他們能夠捕獲語言變化的相關模式,并将它們表示為計算限制。
生成的模型可以在一種古老的語言中分割單詞,并将它們映射到相關語言中的對應單詞。
模型概述:
生成丢失的文本從較小的機關-從字元到标志,從标志到銘文。字元映射首先在已知語言的音标上執行。根據這些映射,已知詞彙表y中的一個标記y根據潛在對齊變量a被轉換為丢失語言中的标記x。最後,所有生成的标記以及未比對的跨越中的字元被連接配接起來,形成丢失的碑文。
藍色框顯示與模型的每一級相關聯的語言屬性
x範圍的生成圖形模型:一個生成span x的圖模型表示:
不比對的字元将按照獨立同分布的條件生成,而比對的字元範圍以兩個隐變量為條件:y表示已知的同源字元,a表示x和y之間的字元級對齊
ipa嵌入圖:
每個音位首先由一個音位特征向量表示。該模型首先嵌入每個特征,然後将所有相關的特征嵌入連接配接起來,得到ipa嵌入。例如,電話[b]可以表示為voiced,stop和labial嵌入的連接配接
雖然給定的語言很少添加或删除一個音,但某些音替換可能會發生。在父語言中帶有「p」的單詞在後代語言中可能會變成「b」 ,但是由于發音上的巨大差距,變成「k」的可能性較小。
提出的算法可以評估兩種語言之間的接近度。事實上,當測試已知語言時,它甚至可以準确地識别語族。
deepmind早有開發,識别石頭上的希臘碑文
這并不是唯一将人工智能應用于失傳語言領域的。
deepmind 開發了一個名為pythia的系統,該系統可以識别35000件包含300多萬個單詞的文物中的模式。
它設法從包括石頭、陶器和金屬在内的希臘碑文中猜出了1500年至2600年前遺失的單詞或字元。
殘損銘文:雅典議會關于管理雅典衛城的法令
人類現存語言約為5615種,如同象形文字一樣,大多數曾經存在過的語言現已不再使用了,其中幾十種也被認為已經消失,或未被破譯。
如果沒有它們,我們就有可能失去關于曆史上使用它們的人的大量知識。團隊的目标更為遠大,他們希望日後能夠靠幾千個單詞就能破譯語言。
作者介紹
jiaming luo
csail的一名博士生,也是mit nlp小組的成員。在來mit之前,他也在北大做過一些情緒分析和總結的工作。
參考連結:
https://venturebeat.com/2020/10/20/mit-csails-ai-revives-dead-languages-it-hasnt-seen-before/
https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021
http://people.csail.mit.edu/j_luo/assets/publications/decipherunsegmented.pdf