博雯 發自 凹非寺
量子位 | 公衆号 QbitAI
最新一期的Nature封面,AI再度來到舞台中央,這一次是在破譯古文字方面立功了。
這是一種基于Transformer架構的方法,由DeepMind、谷歌、牛津大學等多家研究機構聯合開發。
在單獨修複受損文本時,這種方法能達到62%的準确率。
在實際應用中,曆史學家單獨破譯某塊古希臘石碑的準确率本來隻有25%,但在使用這一方法後一舉提升了近乎3倍,達到了72%。
不僅能修複文字,這一方法在地理歸屬的任務上也有71%的準确率,還能将古文字的書寫日期精确到30年以内。
目前,這一方法已經引起了不小的讨論熱度:
現在已經有可以線上解析古希臘文字的網頁版,架構方法也已開源。
Transformer破譯古文字
這是一個叫做Ithaca的架構,以荷馬史詩《奧德賽》中的希臘島嶼命名。
Ithaca架構中的注意力機制能夠通過串聯輸入的單個字元、完整單詞的表征與順序位置來了解輸入文本的每一部分的位置,最終權衡不同的輸入對模型決策過程的影響。
完整架構由多個Transformer塊組成,每個Transformer塊都輸出一個經過處理的表征序列(Sequence of Processed Representations),其長度即輸入字元的數量。
其輸入随後被傳遞給三個分别負責文字修複、地理歸屬、時間歸屬的任務頭,每個頭都由一個前饋的神經網絡組成,專門負責各自任務的訓練。
在文字修複任務中,Ithaca會提供20個按機率排列的解析結果預測:
地理歸屬的确定上,則會依據古曆史學中的84個區域中對輸入文本進行分類,将可能的區域預測類别通過地圖和柱狀圖展現:
日期歸屬任務同樣也通過分布預測的柱狀圖來展示。
如下圖所示,公元前300-250年的日期10年一組,被表示為5個機率相同的範圍,而公元前305年的銘文将以100%的機率被配置設定到公元前300-310年的十年組:
曆史學家的AI助手
研究人員分别将Ithaca與曆史學家、同類AI方法Pythia、以及Ithaca與曆史學家合作等不同破解古文字的方法做了對比。
字錯率(CER)總是越低越好,在文字修複任務上,Ithaca的字錯率和準确率都最好,如果與曆史學家合作時,效果還将再次提升。
在論文的最後,研究人員表示,研究方法适用于手稿學、錢币學和紙草學等所有與古代文本相關的學科,也适用于古代、現代的任何語言。
目前,這一方法已經投入了實際使用,比如在雅典時期頒布的某個重要法令的碑文的日期确認上,曆史學家們之前認為是在公元前446/5年之前書寫的。
而Ithaca與曆史學家一起,将這一日期更新到了公元前424/3 年:
Ithaca現在提供了線上試用的途徑,登入官網,在方框中中輸入古希臘銘文,将缺少的字元标記為破折号(-)),将預測的字元标記為問号(?)。
每次查詢最多可以預測10個連續或非連續的問号,點選查詢後将在下方顯示文本缺失的字元,并将其歸屬到原來的地點和時間:
作者介紹
研究由DeepMind、威尼斯卡福斯卡裡大學(Ca’ Foscari University of Venice)、哈佛大學、雅典經商大學 (Athens University of Economics and Business)、谷歌幾家AI團隊合作開發。
論文有兩位共同一作,其中annis Assael為DeepMind的AI部門的研究員,碩博都畢業于牛津大學,同時也是福布斯“30歲以下30名歐洲傑出科學家”之一:
共同一作Thea Sommerschield則是一位曆史學家,目前任威尼斯佛斯卡裡大學的人文科學院,以及哈佛大學希臘研究中心的研究員,主要研究領域是将機器學習應用于研究古代地中海的書面文化。
論文:https://www.nature.com/articles/s41586-022-04448-z
開源連結:https://github.com/DeepMind/ithaca
線上試用:https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D