语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数” 基准|评测|模型|人工智能|研究

文章图片

12月30日，清华大学教授孙茂松带领的团队在北京发布了机器中文语言能力评测基准“智源指数”CUGE　宋佳　摄
中新网北京12月31日电 (宋佳)在北京智源人工智能研究院自然语言处理(简称NLP)重大研究方向前沿技术开放日活动上，由清华大学教授孙茂松带领的团队发布了机器中文语言能力评测基准“智源指数”(CUGE) 。
团队代表31日对媒体表示，人工智能大模型时代，评测基准成为大模型发展的风向标。从扁平到全面系统，从简化到多重维度， “智源指数”旨在尝试为大模型评测设计一张全面评估综合能力的新“考卷” 。
具体来说， “智源指数”根据人类语言考试大纲和当前NLP研究现状，以“语言能力—任务—数据集”的分层框架来选择和组织数据集，涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集。在评分策略上， “智源指数”提供不同层次的模型性能评分。
为促进“智源指数”的共建共享，提升其易用性，该团队同时发布了在线评测平台和公开排行榜，并表示将“定期吸纳最新优秀数据集” ，以及“建立用户面向数据集和评测结果的反馈、讨论机制，构建起中文高质量数据集社区” 。
【语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数”】北京语言大学教授、国家语言文字工作委员会原副主任李宇明认为，这些举措将推进中文信息处理工作前进，促进中文在人类社会中发挥更大的作用。
中国工程院院士、中国人工智能学会理事长戴琼海也表示，孙茂松教授带领智源NLP学者共同建立的成果，对中文信息处理乃至中国人工智能的发展都具有重要意义。
除“智源指数”外，本次开放日活动还进行了“自然语言处理评测中的问题与对策”“迈向通用连续型知识库”“文本复述生成”等研究成果的阶段性汇报，内容涵盖预训练模型、知识计算、人机对话、文本生成等十余项重点NLP科研问题。
据介绍，在智源研究院的支持下，自然语言处理重大研究方向学者团队积极探索自然语言处理新格局。在落地应用方面，清华大学教授李涓子团队构建的“多模态北京旅游知识图谱” ，可为路径规划和景点信息查询等功能提供数据支持，并且可为游客进行旅游行程的规划。
而在预训练大模型方面，为突破预训练语言模型的高计算成本、高设备需求、难应用适配等问题，清华大学副教授刘知远等提出了面向PLM的全流程高效计算框架，并基于此框架构建了以中文为核心的超大规模预训练语言模型CPM—2 。

语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数”

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)