古代的碑文文字是寶貴的人類文化遺產,但千百年來飽受風霜侵蝕,辨識難度很大。DeepMind和牛津大學聯合開發了一款AI工具Pythia,利用神經網絡來識別和預測缺失的古希臘銘文文字,效率超過了經驗豐富的人類古文字專家。
研究人員表明,深度學習可以幫助專家學者恢復古希臘碑文文字。由牛津大學和DeepMind的研究人員共同打造的AI工具Pythia,可以通過訓練神經網絡來猜測古希臘碑文中缺少的單詞或字符。這些文字刻在各種材料的表面上,包括石材、陶瓷和金屬等,一般都有著1500至2600年的歷史。據《新科學家》報道,AI已經在破譯受損文字方面擊敗了人類。“在對比測試中,AI嘗試填補2949個受損銘文中的空白,而人類專家所犯的錯誤比AI多30%。而人類專家們花了2個小時才獲得了50個銘文,Pythia僅花費幾秒鐘就給出了整個文字排列的猜測結果?!?/span>從一開始,研究人員就明白古代文本恢復是一項耗時的任務,甚至對于專家級的文字學家來說也是如此。他們在兩名具有專業知識的博士生的幫助下,評估了目前手頭的文字修復任務的難度,希望由此判斷我們AI模型的影響力”。
研究論文作者之一于上周五在《新科學家》雜志上撰文表示,在填充遺漏的單詞方面,人工智能的表現似乎比人類更好,但這不是取而代之的競爭。相反,人工智能技術“可能是最有用的協作工具,研究人員可以使用它來縮小備選文字的范圍?!?/span>幾個世紀以來,許多古老的銘文已經被歲月的風霜侵蝕破壞。作者表示:“只有一小部分尚存的銘文是完全清晰和完整的?!?/span>在文本片段缺失的情況下,如何填補遺留文字的空白?這意味著要看銘文其余的部分,同時還要考察其他類似的文字。在《新科學家》上關于Pythia AI模型的功能報告中簡單介紹了其運行機制:(1)Pythia學會了識別35000個文物中的模式,超過300萬個單詞。(2)選擇文字的模式包括出現不同單詞的上下文、語法以及文字的形狀和布局。這篇研究論文目前已經發表在Arxiv上。
Pythia不僅僅可以返回一種預測結果,而且可以返回多個預測結果,以及每個結果的置信度。“具體地說,我們提供了使用波束搜索解碼的前20個預測的集合?!蓖ㄟ^20條建議來填補空白,由個人來選擇最佳的預測建議。DeepMind的研究人員表示:“這項研究的目的完全是為了幫助人類專家的工作?!笨梢钥隙ǖ囊稽c是,他們認為,Pythia可以作為數字化碑文文字識別的輔助方法。研究團隊還討論了Pythia的未來潛力,他們指出,正是機器學習和文字學的結合,才有可能對刻板文字文化的研究產生有意義的影響。

“我們希望將Pythia和PHI-ML Pipeline開源,更好地幫助將來的研究,并激發進一步的跨學科工作。”Pythia的重要意義在于,這是“第一個使用深層神經網絡從損壞的文本輸入中恢復丟失字符的古代文本恢復模型”。研究人員認為,Pythia是“古代文本的修復的最先進技術”。牛津大學網站上同樣對Pythia的優勢進行了評論?!霸撓到y既可以在字符級別,也可以在單詞級別工作,可以有效處理長期的上下文信息,以及不完整的單詞表示形式。這使其能夠適用于處理古代文本的所有學科(語言學,紙草學,醫學)和任何語言(古語或現代語)?!?/span>Pythia和PHI-ML Pipeline已在GitHub上開源。參考鏈接:
https://techxplore.com/news/2019-10-deep-enlightens-scholars-puzzling-ancient.html
https://deepmind.com/research/publications/Restoring-ancient-text-using-deep-learning-a-case-study-on-Greek-epigraphy?論文鏈接:
https://arxiv.org/abs/1910.06262
Github:
https://github.com/sommerschield/ancient-text-restorationIEEE Spectrum
《科技縱覽》
官方微信公眾平臺