语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数”

语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数”
文章图片

12月30日 , 清华大学教授孙茂松带领的团队在北京发布了机器中文语言能力评测基准“智源指数”CUGE 宋佳 摄
中新网北京12月31日电 (宋佳)在北京智源人工智能研究院自然语言处理(简称NLP)重大研究方向前沿技术开放日活动上 , 由清华大学教授孙茂松带领的团队发布了机器中文语言能力评测基准“智源指数”(CUGE) 。
团队代表31日对媒体表示 , 人工智能大模型时代 , 评测基准成为大模型发展的风向标 。 从扁平到全面系统 , 从简化到多重维度 , “智源指数”旨在尝试为大模型评测设计一张全面评估综合能力的新“考卷” 。
具体来说 , “智源指数”根据人类语言考试大纲和当前NLP研究现状 , 以“语言能力—任务—数据集”的分层框架来选择和组织数据集 , 涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集 。 在评分策略上 , “智源指数”提供不同层次的模型性能评分 。
为促进“智源指数”的共建共享 , 提升其易用性 , 该团队同时发布了在线评测平台和公开排行榜 , 并表示将“定期吸纳最新优秀数据集” , 以及“建立用户面向数据集和评测结果的反馈、讨论机制 , 构建起中文高质量数据集社区” 。
【语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数”】北京语言大学教授、国家语言文字工作委员会原副主任李宇明认为 , 这些举措将推进中文信息处理工作前进 , 促进中文在人类社会中发挥更大的作用 。
中国工程院院士、中国人工智能学会理事长戴琼海也表示 , 孙茂松教授带领智源NLP学者共同建立的成果 , 对中文信息处理乃至中国人工智能的发展都具有重要意义 。
除“智源指数”外 , 本次开放日活动还进行了“自然语言处理评测中的问题与对策”“迈向通用连续型知识库”“文本复述生成”等研究成果的阶段性汇报 , 内容涵盖预训练模型、知识计算、人机对话、文本生成等十余项重点NLP科研问题 。
据介绍 , 在智源研究院的支持下 , 自然语言处理重大研究方向学者团队积极探索自然语言处理新格局 。 在落地应用方面 , 清华大学教授李涓子团队构建的“多模态北京旅游知识图谱” , 可为路径规划和景点信息查询等功能提供数据支持 , 并且可为游客进行旅游行程的规划 。
而在预训练大模型方面 , 为突破预训练语言模型的高计算成本、高设备需求、难应用适配等问题 , 清华大学副教授刘知远等提出了面向PLM的全流程高效计算框架 , 并基于此框架构建了以中文为核心的超大规模预训练语言模型CPM—2 。

推荐阅读