评委|谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆
文章插图
而在科研工作中,研究人员也需要一些「基准」来评估模型的性能。
因此,不管是普遍的「标准」还是特定的「基准」,它们都有一定的参考意义。
然而,如果有一天我们发现这些「参照物」与实际生活渐行渐远时,它们该往何处去?
近日,由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性,就像用有限的博物馆来代表整个世界一样。
文章插图
论文地址:https://openreview.net/pdf?id=j6NxpQbREA1
在这篇论文中,研究人员阐述了机器学习(ML)对通用任务框架(CTF)的过度依赖,因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是,研究团队并不否认这些基准的实用性,而是希望指出将其作为框架存在的固有缺陷。
这本书就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。
该博物馆的每个展厅都陈列着不同类别的东西,有些类别是随意和主观的,比如「你在墙上看到的东西( Things You Find On a Wall )」和「房间里能让你挠痒痒的东西( The Things that Can Tickle You Room )」;有些类别则非常具体的,例如「胡萝卜屋( The Carrot Room )」,而另一些则含糊不清,如「高大的厅堂( The Tall Hall )」。
文章插图
当Grover认为自己已经参观完博物馆的一切时,他来到写着「其他东西(Everything Else)」的大门前。打开门后,却发现自己置身于外面的世界。
作为儿童故事,Grover的经历是荒诞的。然而,在实际的研究中,例如人工智能尤其是ML领域,也存在类似的固有错误逻辑,其中许多流行的基准依赖于固有的错误假设。
这篇论文的研究人员认为,在诸如「视觉理解」或「语言理解」之类的模糊任务中,作为衡量一般能力进展的基准,与有限的博物馆在代表「整个世界的一切」方面一样无效,且这两个谬论的原因是相似的,即本质上是基于特定的、有限的且局限于上下文的环境。
GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是,通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务,甚至超出了最初的开发目标。
尽管作为迈向「通用目标」的标志,这些基准存在明显的局限性。事实上,这些基准的开发、使用和采用表明了一个结构有效性的问题,其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。
论文的作者们认为测量通用能力的目标(即通用对象识别、通用语言理解或领域独立推理等目标)不能充分体现在数据定义的基准中。研究人员注意到,当前的趋势不恰当地扩展了CTF范式,以将其应用于与现实世界目标或背景不同的抽象表现任务。
推荐阅读
- 小红书|等老了改名吗?小红书成功注册老红书商标
- 钱大妈|山姆会员店APP默认五星好评被罚30万元!“钱大妈”“T3出行”“德玛仕”等也被罚……
- 智慧销售|国务院:加快优化智能化产品和服务运营,培育智慧销售、无人配送、智能制造、反向定制等新增长点
- 德国|谷歌拟从搜索结果中删除新闻服务 向德国反垄断机构妥协
- 盲盒|上海制定反垄断、互联网营销算法、盲盒经营活动等新业态合规指引
- 美股|热门中概股美股盘前多数下跌,拼多多、京东等跌超2%
- 阿里巴巴集团|麦当劳中国与阿里巴巴合作升级,将聚焦会员服务、IP合作、全渠道营销等新领域
- 中国电信|中国电信推出天翼空中上网产品:支持在线音视频等
- 传播|金域医学最新回应:不存在“主动传播病毒”“丢失样本”“伪造数据”“瞒报数据”等情况
- 乱象|微信治理互联网用户账号运营乱象,“南京头条”“高考山东”等遭清理