AI读懂两千年前文字,登上Nature封面,惊艳历史学家


AI读懂两千年前文字,登上Nature封面,惊艳历史学家


文章图片


AI读懂两千年前文字,登上Nature封面,惊艳历史学家


文章图片


AI读懂两千年前文字,登上Nature封面,惊艳历史学家


文章图片


AI读懂两千年前文字,登上Nature封面,惊艳历史学家


文章图片




编译 | ZeR0
编辑 | 漠影
智东西3月10日消息 , 今日 , DeepMind的“AI+科学”研究 , 再登国际学术顶刊Nature的封面!
DeepMind的深度神经网络Ithaca , 能从受损文物中破译古希腊文字 , 准确率达到62% , 在识别其原始位置方面的准确率达到71% , 还能将古文字年代锁定在其真实日期范围的30年内 。

据悉 , 这是第一个能够恢复受损铭文的缺失文字、识别其原始位置并帮助确定其书写日期的深度神经网络 。
研究结果表明 , AI能帮助历史学家更好地解读铭文 , 以助力对古代历史的论证与理解 。 当前 , 历史学家已经使用这个工具 , 来重新评估希腊历史上的重要时期 。
为了让研究人员、教育工作者、博物馆工作人员和其他人能够广泛使用其研究 , DeepMind与谷歌云和谷歌Arts & Culture合作 , 推出了Ithaca的免费互动版本 , 并开放了其代码、预训练的模型和一个交互式的协作实验室笔记本 。
论文链接:https://www.nature.com/articles/s41586-022-04448-z
开源地址:https://github.com/deepmind/ithaca
互动版本:https://ithaca.deepmind.com
一、古文字遭破坏?AI能修复这个bug文字的诞生标志着历史的开端 , 对人类理解过去的文明和今天生活的世界至关重要 。
例如 , 2500多年前 , 希腊人开始在石头、陶器和金属上书写 , 记录从租约、法律到日历和预言的一切 , 让人们对地中海地区有了详细的了解 。 不幸的是 , 这是一个不完整的记录 。

许多幸存下来的铭文在几个世纪的时间里遭到了破坏 , 或者从原来的位置被移走了 。 此外 , 现代年代测定技术 , 如放射性碳年代测定法 , 无法在这些材料上使用 , 这使得解读铭文既困难又费时 。
为此 , DeepMind与威尼斯Ca’Foscari大学人文系、牛津大学古典系、雅典经济与商业大学信息学系合作 , 一起探索如何用AI帮助历史学家更好地解读这些铭文 。
深度神经网络Ithaca即是他们的最新成果 , 它以荷马史诗《奥德赛》中的希腊岛屿命名 , 在DeepMind此前专注于文本修复的系统Pythia基础上扩展而成 。
从实验结果来看 , 这个新算法展示了AI方法能克服现有恢复铭文方法的约束 , 辅助古语言研究 , 并帮助对古代历史有更丰富的理解 。
二、大幅提升修复受损古文字的准确率Ithaca采用了古希腊语言和整个古代地中海世界的铭文进行训练 , 训练数据来自帕卡德人文学院提供的最大的希腊铭文数字数据集 。
这一选择有两个主要原因 。 首先 , 希腊铭文记录的内容和背景的变异性使其成为语言处理的巨大挑战;其次是因为古希腊语数字化语料库的可用性 , 这是训练机器学习模型的基本资源 。
自然语言处理(NLP)模型通常用单词(word)进行训练 , 因为它们在句子中出现的顺序和它们之间的关系提供了额外的上下文和含义 。 然而 , 许多历史学家有兴趣让Ithaca进行分析的铭文都已损坏 , 而且经常缺失文本块 。
DeepMind使用单词和单个字符作为输入来训练模型 , 以确保Ithaca用这类文本时能正常工作 。 模型核心的稀疏自我注意机制并行地评估这两个输入 , 允许Ithaca根据需要评估铭文 。

▲Ithaca的架构(文本的损坏部分用“-”表示)实验结果表明 , Ithaca的设计决策和可视化辅助使研究人员更容易解释结果 。
单独工作时 , Ithaca在修复受损文字方面达到了62%的准确率;与DeepMind合作的历史学家在单独修复古代文献时 , 准确率为25%;而当历史学家与Ithaca合作时 , 修复受损文字的准确率提高至72% 。

▲Ithaca的实验结果(CER和年份 , 数值越低↓越好)Ithaca还可以确定铭文书写的原始地理位置 , 准确率达到71% , 并能将铭文的书写年代缩小至与历史学家提出的日期相差30年以内 。
研究人员认为 , AI和历史学家之间的这种合作 , 可能有助于改变对古代世界的研究 , 比如帮助推进历史解释 , 建立历史事件的相对日期 , 乃至为当前的方法论争鸣做贡献 。

推荐阅读