中国科技馆|人工智能识别技术助力海外中文古籍“数字化回归”

新华网北京5月19日电(盖博铭 王奕涵)宋刻本《后村居士集》、北宋《金粟山大藏经》写本、清文澜阁《四库全书》零本……40余种“散居”海外的珍本以数字化的方式供全球研究者等共享 。 采访人员18日在中国科技馆举行的“汉典重光”海外古籍数字化回归发布会上获悉 , 阿里巴巴达摩院的古籍识别系统已助力首批20万页古籍完成“数字化” , 并沉淀为覆盖3万多字的古籍字典 , 公众可通过汉典重光平台翻阅、检索古籍 。
据不完全估计 , 散居海外的中国古籍超过40万部、400万册 , 包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等 。
“汉典重光”项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展 , 旨在寻觅流散海外的中国古籍并将其数字化、公共化 。 项目获得加州大学伯克利分校支持 , 一批珍藏于伯克利东亚图书馆的中文古籍善本将逐步实现数字化 。

中国科技馆|人工智能识别技术助力海外中文古籍“数字化回归”
文章图片

【中国科技馆|人工智能识别技术助力海外中文古籍“数字化回归”】↑活动现场 , 阿里巴巴达摩院院长张建锋致辞 。 (主办方供图)
据介绍 , 古籍保存长期面临实体古籍查阅调用成本高、古籍数字化高度依赖人工等痛点 。 达摩院人工智能识别系统将单字检测、无监督图像聚类、少样本分类、主动学习等一系列机器学习方法优化整合 , 形成了一套全新的“人机交互”识别链路 , 提升了录入效率近30倍 , 对20万页古籍的识别准确率达到97.5% 。
此外 , 随着古籍识别规模的扩增 , 系统还可以自我进化 , 边识别古籍、边训练模型 , 不断提升其准确率和效率 。
“守护中华传世典籍 , 是科技工作者和文化工作者共同的使命 。 ”阿里巴巴达摩院院长张建锋表示 , 阿里计划将这套技术工具连同古籍数字化平台一并捐赠 , 交由权威公共机构长期运营 。
[责任编辑: ]

    推荐阅读