天天看點

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

博雯 發自 凹非寺

量子位 | 公衆号 QbitAI

最新一期的Nature封面,AI再度來到舞台中央,這一次是在破譯古文字方面立功了。

這是一種基于Transformer架構的方法,由DeepMind、谷歌、牛津大學等多家研究機構聯合開發。

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

在單獨修複受損文本時,這種方法能達到62%的準确率。

在實際應用中,曆史學家單獨破譯某塊古希臘石碑的準确率本來隻有25%,但在使用這一方法後一舉提升了近乎3倍,達到了72%。

不僅能修複文字,這一方法在地理歸屬的任務上也有71%的準确率,還能将古文字的書寫日期精确到30年以内。

目前,這一方法已經引起了不小的讨論熱度:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

現在已經有可以線上解析古希臘文字的網頁版,架構方法也已開源。

Transformer破譯古文字

這是一個叫做Ithaca的架構,以荷馬史詩《奧德賽》中的希臘島嶼命名。

Ithaca架構中的注意力機制能夠通過串聯輸入的單個字元、完整單詞的表征與順序位置來了解輸入文本的每一部分的位置,最終權衡不同的輸入對模型決策過程的影響。

完整架構由多個Transformer塊組成,每個Transformer塊都輸出一個經過處理的表征序列(Sequence of Processed Representations),其長度即輸入字元的數量。

其輸入随後被傳遞給三個分别負責文字修複、地理歸屬、時間歸屬的任務頭,每個頭都由一個前饋的神經網絡組成,專門負責各自任務的訓練。

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

在文字修複任務中,Ithaca會提供20個按機率排列的解析結果預測:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

地理歸屬的确定上,則會依據古曆史學中的84個區域中對輸入文本進行分類,将可能的區域預測類别通過地圖和柱狀圖展現:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

日期歸屬任務同樣也通過分布預測的柱狀圖來展示。

如下圖所示,公元前300-250年的日期10年一組,被表示為5個機率相同的範圍,而公元前305年的銘文将以100%的機率被配置設定到公元前300-310年的十年組:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

曆史學家的AI助手

研究人員分别将Ithaca與曆史學家、同類AI方法Pythia、以及Ithaca與曆史學家合作等不同破解古文字的方法做了對比。

字錯率(CER)總是越低越好,在文字修複任務上,Ithaca的字錯率和準确率都最好,如果與曆史學家合作時,效果還将再次提升。

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

在論文的最後,研究人員表示,研究方法适用于手稿學、錢币學和紙草學等所有與古代文本相關的學科,也适用于古代、現代的任何語言。

目前,這一方法已經投入了實際使用,比如在雅典時期頒布的某個重要法令的碑文的日期确認上,曆史學家們之前認為是在公元前446/5年之前書寫的。

而Ithaca與曆史學家一起,将這一日期更新到了公元前424/3 年:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

Ithaca現在提供了線上試用的途徑,登入官網,在方框中中輸入古希臘銘文,将缺少的字元标記為破折号(-)),将預測的字元标記為問号(?)。

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

每次查詢最多可以預測10個連續或非連續的問号,點選查詢後将在下方顯示文本缺失的字元,并将其歸屬到原來的地點和時間:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

作者介紹

研究由DeepMind、威尼斯卡福斯卡裡大學(Ca’ Foscari University of Venice)、哈佛大學、雅典經商大學 (Athens University of Economics and Business)、谷歌幾家AI團隊合作開發。

論文有兩位共同一作,其中annis Assael為DeepMind的AI部門的研究員,碩博都畢業于牛津大學,同時也是福布斯“30歲以下30名歐洲傑出科學家”之一:

AI破解古文字登Nature封面:修複缺失文字,精确地理位置和書寫時間

共同一作Thea Sommerschield則是一位曆史學家,目前任威尼斯佛斯卡裡大學的人文科學院,以及哈佛大學希臘研究中心的研究員,主要研究領域是将機器學習應用于研究古代地中海的書面文化。

論文:https://www.nature.com/articles/s41586-022-04448-z

開源連結:https://github.com/DeepMind/ithaca

線上試用:https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D

繼續閱讀