AI破解古文字登Nature封面：修複缺失文字，精确地理位置和書寫時間

博雯發自凹非寺

量子位 | 公衆号 QbitAI

最新一期的Nature封面，AI再度來到舞台中央，這一次是在破譯古文字方面立功了。

這是一種基于Transformer架構的方法，由DeepMind、谷歌、牛津大學等多家研究機構聯合開發。

在單獨修複受損文本時，這種方法能達到62%的準确率。

在實際應用中，曆史學家單獨破譯某塊古希臘石碑的準确率本來隻有25%，但在使用這一方法後一舉提升了近乎3倍，達到了72%。

不僅能修複文字，這一方法在地理歸屬的任務上也有71%的準确率，還能将古文字的書寫日期精确到30年以内。

目前，這一方法已經引起了不小的讨論熱度：

現在已經有可以線上解析古希臘文字的網頁版，架構方法也已開源。

Transformer破譯古文字

這是一個叫做Ithaca的架構，以荷馬史詩《奧德賽》中的希臘島嶼命名。

Ithaca架構中的注意力機制能夠通過串聯輸入的單個字元、完整單詞的表征與順序位置來了解輸入文本的每一部分的位置，最終權衡不同的輸入對模型決策過程的影響。

完整架構由多個Transformer塊組成，每個Transformer塊都輸出一個經過處理的表征序列（Sequence of Processed Representations），其長度即輸入字元的數量。

其輸入随後被傳遞給三個分别負責文字修複、地理歸屬、時間歸屬的任務頭，每個頭都由一個前饋的神經網絡組成，專門負責各自任務的訓練。

在文字修複任務中，Ithaca會提供20個按機率排列的解析結果預測：

地理歸屬的确定上，則會依據古曆史學中的84個區域中對輸入文本進行分類，将可能的區域預測類别通過地圖和柱狀圖展現：

日期歸屬任務同樣也通過分布預測的柱狀圖來展示。

如下圖所示，公元前300-250年的日期10年一組，被表示為5個機率相同的範圍，而公元前305年的銘文将以100%的機率被配置設定到公元前300-310年的十年組：

曆史學家的AI助手

研究人員分别将Ithaca與曆史學家、同類AI方法Pythia、以及Ithaca與曆史學家合作等不同破解古文字的方法做了對比。

字錯率（CER）總是越低越好，在文字修複任務上，Ithaca的字錯率和準确率都最好，如果與曆史學家合作時，效果還将再次提升。

在論文的最後，研究人員表示，研究方法适用于手稿學、錢币學和紙草學等所有與古代文本相關的學科，也适用于古代、現代的任何語言。

目前，這一方法已經投入了實際使用，比如在雅典時期頒布的某個重要法令的碑文的日期确認上，曆史學家們之前認為是在公元前446/5年之前書寫的。

而Ithaca與曆史學家一起，将這一日期更新到了公元前424/3 年：

Ithaca現在提供了線上試用的途徑，登入官網，在方框中中輸入古希臘銘文，将缺少的字元标記為破折号（-)），将預測的字元标記為問号（?）。

每次查詢最多可以預測10個連續或非連續的問号，點選查詢後将在下方顯示文本缺失的字元，并将其歸屬到原來的地點和時間：

作者介紹

研究由DeepMind、威尼斯卡福斯卡裡大學（Ca’ Foscari University of Venice）、哈佛大學、雅典經商大學 (Athens University of Economics and Business)、谷歌幾家AI團隊合作開發。

論文有兩位共同一作，其中annis Assael為DeepMind的AI部門的研究員，碩博都畢業于牛津大學，同時也是福布斯“30歲以下30名歐洲傑出科學家”之一：

共同一作Thea Sommerschield則是一位曆史學家，目前任威尼斯佛斯卡裡大學的人文科學院，以及哈佛大學希臘研究中心的研究員，主要研究領域是将機器學習應用于研究古代地中海的書面文化。

論文：https://www.nature.com/articles/s41586-022-04448-z

開源連結：https://github.com/DeepMind/ithaca

線上試用：https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D

AI破解古文字登Nature封面：修複缺失文字，精确地理位置和書寫時間

繼續閱讀

聲音為什麼适合打造品牌強化心智

第7代高通AI引擎：透過AI，看見未來

DeepMind将範疇論、抽象代數組合，發現GNN與DP之間的聯系

5分鐘攝像頭抓拍一次，居家一天至少89次！尚德員工：連廁所都不敢上

玩了一場劇本殺，同車隊友“不是人”

2022樂橙新品釋出會：14款新品齊發軟體硬體全面更新

有沒有給視訊配音的軟體？分享能給視訊配音的軟體

别讓ChatGPT跑了

梗圖搜尋神器來了！還能搜視訊，網友：找了六年的梗圖兩分鐘解決

DeepMind關閉首個海外實驗室，設立僅五年，曾由強化學習之父上司

用ChatGPT作弊，小心被抓，反剽竊水印技術讓學生噩夢提前到來

谷歌“狂飙”生成式AI賽道，最新模型可憑文字、圖檔“創作”音樂

ChatGPT發瘋怎麼辦？小冰李笛：兩個關鍵，我可破之

體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

小紮親自官宣Meta視覺大模型！自監督學習無需微調

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI