系统|像人一样自然流畅地说话，下一代智能对话系统还有多长的路要走？_Meena|的任务|多长|对话|智能|机

机器之心报道
机器之心编辑部

为了推动 AI 技术的应用创新，促进人工智能领域的学术交流、人才培养，打造人工智能的人才交流平台与产业生态圈，中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技术创新大赛，并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。

AI青年说是大赛主办方为提升青年开发者对 AI 的认识而主办的系列活动，该活动邀请知名青年学者，探讨理论研究与应用实践中的热点话题。本文对AI青年说系列活动第二期「如何摘取 AI 皇冠上的 NLP 明珠」核心内容进行了总结回顾。
作为人工智能的一个子领域，自然语言处理（NLP）指的是机器理解并解释人类书面语和口语的能力，目的在于使计算机像人类一样智能地理解语言和用语言表达，弥补人类交流（自然语言）和计算机理解（机器语言）之间的差距。目前， NLP 已经具有了广泛的应用领域，如信息提取、文本生成、机器翻译、情感分析、知识图谱、智能问答、对话系统等。
其中，对话系统在最近几年发展非常迅速，特别在 NLP 顶会上的论文数量逐步增多。如果说，自然语言处理是 AI 皇冠上的明珠，那么对话系统就是「NLP 皇冠上的明珠」，并且以苹果 Siri 等为代表的的任务型对话和以微软小冰为代表的非任务型（聊天型）对话尤为受到学界和业界关注。
所谓智能对话系统，就是在各种智能算法的支撑下，使机器理解人类语言的意图并通过有效的人机交互执行特定任务或做出回答。随着技术的不断发展，任务型对话系统在虚拟个人助理、智能家居、智能汽车（车载语音）等领域有了广泛应用。聊天型对话系统也在娱乐和情感陪护领域找到了应用场景。
但我们应看到，这些传统对话系统存在着一些问题，如语义理解不准确造成答非所问，对话中展示的身份与个性不一致而难以获得用户信任，以及对话交互中可能存在的道德伦理风险等。所以，如何规避解决这些问题并开发交互效果更好的下一代对话系统逐渐成为了业内的热门研究课题。研究人员也基于各自不同的视角提出了对下一代对话系统的畅想。
在首届全球人工智能技术创新大赛「AI 青年说」系列活动的第二期直播分享中，自然语言处理领域的两位专家——清华大学计算机系长聘副教授、博士生导师黄民烈和西湖大学终身副教授张岳，分别带来了《下一代对话系统》和《关于开放域对话挑战的思索》的主题分享，并以「关于让机器说人话这件事」展开圆桌讨论。

文章图片

在本期分享中，清华大学副教授黄民烈为我们详细介绍了任务导向型和开放域两种主要的对话系统，并勾勒了下一代有知识、有个性和有情感的智能对话系统愿景。西湖大学副教授张岳则向我们介绍了开放领域对话的挑战思索，并从三个方面进行介绍，分别是跨领域可拓展性、社会常识推理和逻辑推理（又分为机器阅读理解和文本蕴含问题）。
在下文中，机器之心在不改变原意的基础上对两位专家的分享进行了整理。
黄民烈：
有知识、有个性和有情感的下一代对话系统
大家好，我是来自清华大学的黄民烈，今天非常高兴能跟各位老师和同学做这样的一个交流和分享。我的分享主题是《下一代对话系统》。
我们知道，对话系统的历史非常悠久，最早可以追溯到 1966 年 MIT 的 Eliza ，这是一个以心理咨询为代表的对话系统，在过去几十年以及今天都产生了非常广泛的影响。 2011 年，苹果推出了语音助手 Siri ，使得这一类的对话系统在工业界引起了广泛关注。 2014 年微软推出了第一款社交机器人微软小冰，使得用户可以跟对话系统进行聊天互动。 2020 年又出现了很多超大规模的预训练模型，包括 Google 的 Meena、 FAIR 的 Blender 和百度的 PLATO 。这些预训练模型将对话系统的研究推向了一个新的高潮，也就是说在开放域的聊天里，我们可以生成非常好的、自然的对话。

文章图片

在对话系统的发展历程中，我认为有一些比较重要的事件，比如 Alexa 大奖赛， 2017 年第一届、2018 年第二届以及 2019 年第三届。大奖赛对于对话系统的技术研究和推动具有非常显著的作用。我们可以看到在这几届大奖赛上，最好的对话系统能达到什么样的水平呢？它们能够通过人工评价的分数大概是 3.1 分，能够跟用户持续地聊上十分钟。应该来说，这是一个非常了不起的成就。
刚才我们所说的 Google Meena 对话系统，它是一个超大规模的模型，使用了约 26 亿的参数，约 400 亿词的对话数据去训练，并且在 TPU 上训练了约 30 天的时间。 Meena 对话系统的效果怎么样呢？它可以生成非常自然的对话，比如说在下面一个例子里， Meena 说「牛很聪明，都去 Hayvard 了」。通过 Harvard 和 Hayvard 这个谐音双关，现在的这种大规模对话模型可以产生比较自然，甚至让用户代入感很强的、类似笑话的对话。

文章图片

我们再来看 2020 年 FAIR 推出的 Blender ，它的参数规模最大的版本约是 94 亿，使用的数据也相当惊人。它用了约 8880 亿个文本 token 训练这样一个模型，同时综合了各种技能，比方个性的嵌入、知识的赋值以及共情。所以， Blender 是一个具有混合技能的对话系统，也可以产生非常自然的对话。
当前两种主要的对话系统
当前对话系统可以总结为以下两种类型，第一种叫任务导向型的对话系统，也就是通常意义上所说的手机助理；第二种叫开放域的对话系统，也就是我们通常意义上所说的聊天机器人。

文章图片

在第一种任务型的对话系统中，我们通常会有一些流水线的处理方法。如上图（左）所示，用户讲了一句话「你能不能帮我找一个中餐馆」，这个时候我们就要经过自然语言处理模块，把这句话分析成一个结构化的意图，这里的意图应当是为说话人提供信息，这里需要一些语义理解能力。接下来要做的是对话状态跟踪和对话策略学习，这个模块是为了管理对话过程中的一些对话状态和相应的一些变量，使得我们这个系统能够知道当前所处的是什么状态，以及接下来应该往哪个方向去走。在对话策略模块，我们会预测出来它相应的结构化意图，它会通过自然语言生成模块转换为一个自然语句，这里就是「Where do you want to eat?」这样一句话，然后进行用户的交互。经过反复的交互和迭代，我们的对话系统就能够完成相应的任务和功能。
另一种就是所谓的开放域对话系统。在这类对话系统中，我们通常采用一种端到端架构，就是说我们开始是有对话的上文，如上图（右）给了三句话，其中用户说了一句话，然后机器说了一句话，用户又说了一句话，这个时候我们要决定机器到底该说什么。经过编码器之后，我们会再经过解码器，它可以把机器生成的一句话，一个词一个词地解码出来。我们可以采用一些常用的神经网络架构，比方说循环神经网络（RNN）以及基于 Transformer 的神经网络架构，去做这种端到端的神经模型。
挑战和不足
从上文讲述的 Google Meena 和 FAIR Blender 这种对话系统中，我们可以看到基于现代大模型的对话系统已经取得了令人惊叹的效果，但依然面临很多的挑战和不足。
首先是语义理解的问题，比如用户讲了一句「How large is your house？你家多大？」微软小冰系统却把它理解为「你多大？」一字之差，意义就差得非常远。
其次是个性身份一致性的问题，比如用户问「你几岁了？」小冰回答说「我是 90 后」。用户再问「你是哪一年出生的？」小冰回答说「75 年出生的」。所以， 90 后、75 年这种前后个性和身份不一致，会产生比较重大的问题。

文章图片

Google Meena 对话系统也存在类似的问题，比如用户问「你最喜欢的乐队是什么？」Meena 回答说「Avenged Sevenfold ，七级炼狱」。接着用户又问「你最不喜欢的乐队是什么？」Meena 依然回答说「Avenged Sevenfold」。这就会给用户造成非常大的困扰。
再来看 Meena 的另外一个例子。 Meena 先说「新的一年想要学习广东话和法语」，后面又说「已经基本熟悉广东话并且已经在学校学习法语了」。这种前后不一致很容易给用户造成困扰，也很难赢得用户信任。
因此，与对话系统进行深入的交流和探讨非常困难。
对话系统还可能会产生比较严重的社会伦理和道德问题。以苹果语音助手 Siri 为例，用户跟 Siri 说「I want to sleep and never wake up」，这大概是隐晦地表示自己想自杀。但 Siri 理解不了，它找到一些相应的宾馆，给出了距离，并回答说「remind me to kill myself tomorrow」。 Siri 以为是要给用户设定一个提醒闹钟，那么这种情况就会产生非常严重的社会伦理问题。
总的来说，当前的对话系统面临三个问题，第一个是语义性的问题，第二个是一致性的问题，第三个是交互性的问题。对于语义性问题，我们希望对话系统能够理解内容（content）、文本（context）和场景（scene）；对于一致性问题，我们希望对话系统能够产生与个性和身份一致的对话；对于交互性问题，我们希望对话系统与用户进行情感、情绪上的交流，然后综合运用这种行为策略，实现交互性很强的对话。

文章图片

下一代对话系统——社交机器人
聊完了当前两种主要的对话系统以及面临的一些问题和不足，那么下一代对话系统应该具备什么样的能力呢？我把它总结为社交机器人（social chatbot）。一方面要具有 IQ ，即能够帮助用户做任务、做问答和做推荐。另一方面希望它具有 EQ ，即所谓情商，比如能够理解情感情绪，能够共情，能够实现深入的社交互动。

文章图片

我们先来看两个维度：完成任务的能力和社交连接（social connection）能力。与任务导向型和聊天机器人相比，任务导向型对话系统具有很强的任务完成能力，但是社交能力比较低；而对于聊天机器人来讲，它的主要目标是社交，任务完成能力比较低。因此，下一代对话系统应该是同时具备很强的任务完成能力和社交连接能力。
不同对话系统的技术处理和实现思路也是不一样的。任务导向型对话系统具有很强的语义能力，所以需要去做实体识别、意图理解、语义分析以及填槽等能力。对于开放性的聊天机器人，我们注重弱语义处理的能力，包括利用数据驱动、端到端系统，更多是用当前的深度学习模型以及大规模神经网络模型去做。因此，在未来构建下一代对话系统时，我们希望能够把强语义对话系统和弱语义对话系统的方法结合起来。
信息、社交、情感需求缺一不可
总的来说，下一代对话系统应该具备两方面的能力，其一满足用户的信息需求，其二满足用户的社交需求。我们需要综合运用多种技能，并且在多种场景和领域中都能够发挥作用。
我们可以用三句话来概括，第一句话「有知识，言之有物」，第二句「有个性，能够实现拟人化」，第三句话「在情感上有情感、有温度，能够做一些精细的情感类任务」。

文章图片

首先来看第一个方面——知识赋值。比如在这个对话示例中，我们讨论的是一个关于歌手汪峰的主题。在这个主题里，我们涉及到汪峰的歌《飞得更高》，这首歌入选了中歌榜中国年度最受华人欢迎十大金曲以及它所发布的日期和作者。可以看到，在这样的对话过程中，我们需要对应到一个严格的知识图谱。知识图谱使得我们的对话过程言之有物，而不是在那里空聊和闲聊。这实际上就是这个方向的代表性工作。
又比如下图示例中，用户说「I have asthma since three years old. 我从三岁起就得了哮喘」。如果我们能把 asthma 关联到右边的知识图谱上，就可以把这个知识图谱用图嵌入（graph embedding）的方法，去做知识感知的编码。接着在解码阶段，我们可以用图注意力（graph attention），通过动态注意力机制，去做知识感知的解码。经过这样的处理，实现一定程度的理解，这样我们生产的内容就能够更加言之有物，更加有信息量。

文章图片

第二个方面则希望对话系统能够有个性，要有固定的人设和身份。从心理学的研究可以知道，个性（personality）是一个研究得非常深入的概念，在游戏、客服以及虚拟智能体上都有非常重要的作用。如果一个智能系统能够体现一致的个性，则这个系统更值得信任，能够进行有效的社交交互。
个性又可以分成两种，一种叫外在的 persona ，另一种叫内在的 personality 。上文的 90 后、75 年这样的示例，就是在对话的过程中缺乏一致的身份和个性，使得对话系统在对话的过程中难以取得用户的信任，因此也就难以进行有效的社交互动。
如下图（左）的微博对话示例，涉及到 Speaker A 和 Speaker B ，它们都被赋予了固定的身份。 Speaker A 是男性，地址北京，他有一些个人的偏好；Speaker B 是女性，地址哈尔滨，她也有自己的个人兴趣等特定的标签。我们可以看到在对话过程中， Speaker A 是会很自然地、隐式地把自己的个性身份带出来，比如「Beijing is really hot today. 北京今天很热」， Speaker B 也说了「come to Harbin. 来哈尔滨」这样的一些描述。

文章图片

不仅如此，个性身份还有更高级的，比如一个人说话的风格，这也是个性的一方面。在说话风格的研究中，我们发现对话可以实现正式与非正式互相之间的转换，以及礼貌和非礼貌之间的转换。更有趣的是，我们可以从现代文对话转换到金庸风格对话，比如输入「好久没吃火锅了」，现代风回答「我也想吃了」，金庸风回答则是「不错，大侠饿了一天，现下先吃饭吧」。所以，如果我们能够做出来这种智能对话系统的话，在一些特定的应用场景中是非常有趣的，而且非常有价值。
第三个方面是如何实现对话系统中的共情和情感支持。我们知道在人类的智能行为里，情绪智能是一个非常重要的特点。如果对话系统能够很好地去理解情感和情绪，不仅能提升用户表现和用户满意度，还能更少地使对话陷入了僵局。
1997 年， MIT 教授 Picard 提出了情感计算的概念，指出「情感感知和情绪表达是人类智能行为中的重要特征」。我们组在很早就开始了这方面的研究，希望能够让对话系统能够表达喜怒哀乐。具体而言，我们做了一个所谓的情绪化聊天机器人（Emotional Chatting Machine, ECM）系统。这个系统希望解决的是，当指定一个情绪类别时，对话系统能不能生成对应情绪类别的内容。

文章图片

但是这个工作还是比较简单，我们希望能够做得更复杂一点，比如用对话系统能不能够帮助解决一些精神健康问题。 2019 年世界卫生组织曾经披露了一些数据：「全球有 3.5 亿抑郁症患者，其中每年 80 万人因自杀死亡。中国有 9500 万抑郁症患者。」这个数字非常惊人。 2017 年，中国社科院发布了一份《中国国民心理健康发展报告（2018-2018）》，其中 11~15% 的国民心理健康状况较差， 35.2% 公务员处于中高等心理焦虑水平。我们可以看到，国人的心理健康问题是非常严重的。
所以我们就想，对话系统到底能不能帮我们实现情绪的疏导或者心理的疏导呢？我们借鉴心理咨询的共情对话系统，研究出了一个三阶段理论模型。第一阶段先确认用户到底有怎样的情绪问题，第二阶段我们希望给予用户足够的支持，第三个阶段我们希望能够提供一个解决方案。
在每一个阶段我们都可以提供丰富的策略，比如第三个阶段，我们可以提供信息，直接指导，也可以挑战他，给他解释。通过这些策略，我们就能够很好地去实现一定程度上的情绪疏导和心理疏导，这样才能帮助到更多的人。

文章图片

我们今年做了一个工作，核心是试图去回答用户到底处于什么状态，以及使用哪一个策略去疏导和帮助用户，这就是我们希望去解决的科学问题。我们通过网络众包的方式收集了大量的数据，并且建立了相应的模型。最后我们验证表明，现有的对话系统能够在一定程度上去做这种情绪支持和情绪疏导的工作。
比如下图示例中，用户有很强的压力感，处于情绪（emotion）焦虑的状态「他现在的学校关闭了，没有办法上学了」。在这个过程中，怎么样帮用户去疏导情绪紧张的状态呢？我们会有不同的阶段，然后在每一个阶段有丰富的策略。

文章图片

我们再来思考这样一个问题——emotional sophisticated ，这个词实际上是有很深的意义的。我的理解是，在外在上，我们需要对用户和情感进行精细和准确的检测；在内在上，我们需要对用户情感的内部状态进行建模。尤其是在第二点，现在的研究还非常欠缺。
强语义方法和端到端方法的结合至关重要
最后，我们来看当前预训练模型的发展趋势，这个趋势对我们今天的对话系统的研究有非常深的启示。从最早的 1.1 亿参数量的 BERT 到 1750 亿参数量的 GPT-3 。从数据层面看， BERT 最早用了 33 亿的词来训练数据， GPT-3 用了 5000 亿的词来训练模型。无论是模型和数据，它们在大小上都是几何倍数的增长。

文章图片

Google Meena 和 FAIR Blender 也都是几十亿级别的参数规模。那么接下来对话系统的研究应该往哪个方向走，这是值得我们深入思考的一个问题。
总结来说，当前的大模型和大数据肯定是一个无法逆转的研究趋势和潮流，但是仅仅有数据驱动的方法还不够，尤其是构建有知识、有个性和有情感的下一代对话系统，更是远远不够。
所以，我的研究思想就是，要将强语义的方法和端到端对话系统和模型结合起来，这是实现下一代对话系统的一条核心路径，通过这样方法，我们才能让对话系统「理解」意图、话题、情感和实体等等——这里的「理解」之所以打引号，是因为我们知道理解是分不同层次的，同时也有不同的定义。
这就是我今天的演讲内容。最近我们也写了一本新书《现代自然语言生成》，感兴趣的老师和同学可以看一看。谢谢大家。
张岳：开放领域对话的挑战思索
大家好，我是西湖大学的张岳。在这期演讲里，我会继续黄民烈老师的话题，谈论人机对话系统。
黄老师已经讨论了人机对话系统的发展历史和光明的前景。那么在这一期我想给大家分享一些挑战的思考，分享主题是《开放领域对话的挑战思索》。
大家都知道现在的对话系统虽然有很多应用了，但是在许多场景下还有令人不满意的地方，那这些令人不满意的地方的原因是什么呢？具体的挑战有哪些呢？
在本次演讲中，我主要为大家梳理了以下三个方面的挑战，包括跨领域可拓展性、社会常识推理和逻辑推理。

文章图片

我们也是通过西湖大学文本智能实验室的一些研究来给大家展现。
跨领域可拓展性
首先第一个挑战在于开放领域任务型对话的一些挑战。
大家请看下面这张幻灯片，对于任务型对话来说，我们首先需要理解用户的意图。比如说用户在订餐的时候，我们用户的意图是预定某家餐馆。它的具体意图可能还有很多的选项，比如说我要预定的人数是多少？我要预定的时间是多少？

文章图片

主要意图和选项就构成了一种结构，我们叫做对话状态结构。在人机自动客服里面，这种对话状态结构的理解和追踪，就成为了一个非常重要的任务。
现在大家可能有所了解，深度学习对人机对话系统是非常重要的手段。
如果我们要做用户的意图理解，就需要人工对可能用户意图先进行标注。就拿上面举的例子来讲，如果用户说我想定今晚 6 点三个人的晚餐的话，可能我们需要标注人员首先在这句话上标出来：下午 6 点是时间，三个人的晚餐是人数。
对于订餐我们需要这样标注，对于机票预定、家装、建材和教育各个领域也需要这样的标注。
在我们学术界，已有的研究都是在这些标注的数据集上进行的。我们首先拿出一个对话记录，人工进行标注，从人工标注的基础上去训练一个模型，然后再用这样的模型去对新的类似任务的对话进行预测。这样做的好处是对于某一个任务的准确率是非常高的。事实上对话系统已经帮助人们去做机票预订等这样垂直领域的任务了。
但是我们也看到，这样的操作模式还是存在一定的局限。
首先一个局限就是人工标注成本昂贵，而且非常容易出错。事实上这个领域有一个非常重要的数据集叫 MultiWOZ ，通过一种特定的方式让人来标注对话的状态。在这个数据集的演变过程中，很多个版本都存在着大量的错误。新的版本对旧的版本的迭代，也包含了对错误的修正的过程。

文章图片

事实上需要自动人机对话的领域是非常多的，所以另外一个非常重要的局限就是我们很难对每一个领域都进行人工标注。除了大家能日常用到的网购、预定、客服退换货，还能想到很多其他的领域。那么这样的领域可能成千上万，如果手工标注各个领域大量的这种数据是不现实的。
那么怎么做呢？我们实验室尝试了一个非常简单的探索：看能不能从大量没人工标注的客服记录里面，让算法自动探索常见的客户问题，让系统自动推理出特定领域的用户需求。我们把这个任务叫对话状态推理。
对话状态推理和对话状态跟踪，这两个任务是非常不一样的。

文章图片

在推理任务里，我们不需要人的参与。不需要人告诉你预定一个餐馆需要确定人数与时间。而如果大量的客户都问了类似的问题，也许我们的系统就可以知道预定餐馆需要人数和时间了。
我们做这个算法的原理也非常简单，就是把用户经常提到的短语语义共性进行简单的聚类，或者把它们变成某一个层次，归结为一项具体的用户意图。
作为初步的探索，我们尝试了一些深度隐变量模型，比如变分自编码器。由于时间关系，在这次报告里，我没有时间展开给大家讲。但基本原理就是通过一个预训练语言模型，对可能存在的命名实体和可能跟用户意图相关的短语进行表示，之后把这些表示放在一起，进行变分自编码器的训练。训练以后，对这些隐含变量的表示进行适当聚类，得到大概用户意图类别和层次化的用户意图。
下表是一些实验结果，这是两个非常标准的数据集。

文章图片

我们把这两个标准数据集里面的人工标注给去掉，然后观察我们的模型是不是能自动的推断出来用户的意图。
第一行是一些随机的结果，数值比较差。第二行和第三行是深度隐变量模型的不同变体，其中 DSI-base 模型是基线 VAE 模型， DSI-GM 模型是高斯混合模型的延展。
大家可以看到，如果在开放领域对用户意图进行推断的话，还是非常有挑战的。每一步的推断模型和多步联合的 joint 模型，都比百分之八九十有监督训练的结果差得很远。如果我们能从大量的客服记录里推断出用户意图，也许它能够帮助我们更好地与用户进行对话。
下面这一张幻灯片就展示了加入推断的用户意图以后，客服对话的回复质量有明显的提高。

文章图片

其中假如我们的模型不加入推断出来的用户意图，这些精度值可能是十几，加入了黄金标准的推断可能提高到二十一点几。但是大家注意，经过自动的推断，也可以达到 20 多，这就证明推断对话状态结构比没有对话状态结构产生的回复质量更高。
这项工作我们实际上是探讨了开放领域情境下算法如何理解用户意图以及具体的一些标准。下一步我们也在探索如何把有限的人工标注或者用自然语言所产生的人工标注，加到完全无监督训练里，真正实现在任何领域里更好地理解客户意图。我们也期待大家一起去探索。
社会常识推理
如果上面这一项工作是在解决任务型对话挑战，那么下面几个挑战存在于更普遍的对话之中。
我们知道人和人的交流，很多东西是在不言之中。因为我们交流的一个基本假设是交流的双方具有共同的知识，共同的背景。比如我们聊天的时候谈论天气，我并不需要告诉你，天上有云彩、太阳和月亮这些事实，我会默认你理解这些事实。
再举一个例子，比如我们交谈的时候，一个人说我现在很渴，另一个人说前面有个超市。实际上双方是有很多假设的。第一个人可以理解第二个人说的话，第二个人实际上是在试图给第一个人解决问题。为什么呢？因为双方都知道喝水可以解渴、超市可以买水。经过这样逻辑链条的推理过程，我们就知道第二个人的意图是给第一个人解决口渴的问题。
大家可以看看下图的例子，这是一个餐馆里发生的对话。这个餐厅的人员说，「你是不是很享受我们今天的晚餐？」顾客说，「很难将所有的家人带过来，但是你们的餐厅很棒，同时 Johnny 也有地方玩。」当你听到这句话的时候，你一定知道 Johnny 大概是这个人的小孩，并且下一步的对话很可能建立在这些常识和推理的理解之上。

文章图片

这些是在不言之中，文字之外的内容。如果想让机器自然、合理的理解人类的这些对话，需要机器也具有这些对话之外的常识和推理。

文章图片

我们制作了一个这样的数据集，这个数据集很多来源于高考听力题。我们发现这样的数据，它含有大量的社会常识和推理。
我们把高考听力题转录下来，然后把标准答案通过自动图像识别的方式识别出来，最后将其变成人机对话里面的对话场景。给定一个对话上下文，我们会让机器去选择在这样一个对话上下文的情况下，下一个合理的回复是什么？
这套数据集一共有不到 9000 个对话，实际上考察了几大类型的社会常识和推理问题。
第一个类型是人类的态度、情感因素的推理。比如有这样一类对话。

文章图片

对话里面一个人提到「我不能在这待很久了，因为我要去伦敦举办一个音乐会。」那么另外一个人就说「我很期待你的音乐会。我可不可以问一下，你第一次当众表演的时候感受是什么呢？」然后第一个人就说「我第一次上台，我的腿不停的发抖，我都快站不住了。」那么第二个人会说什么呢？
当你听到腿发抖这件事的时候，你会明白他的心理状态到底是紧张、高兴、还是失望。实际上对话里面下一个选项就包含了这些不同的情感因素。如果机器能够正确地理解背后的情感，就能够做出正确的选择，也就是「实际上是我能想象你当时有多紧张。」
第二类问题是关于数学演算的推理问题，比如时差问题。
我知道北京时间，知道纽约和北京相差几个小时，我能不能推理纽约是什么时间？这对于开国际线上会议是非常重要的，我需要知道我的时间和对方的时间，才能正确的预判这个时间是不是对双方都合适。
另外在日常生活对话中，还有很多关于价格的预判，关于人数、比分的预判。比如说我买了一个苹果和三个梨：一个苹果两块钱，一个梨一块钱，那么我大概花多少钱？你需要找给我多少钱？这些都是日常生活对话中所必不可少的数学常识问题。
第三类问题是关于生活中决策所需要的常识。
比如说对于一个学生来讲，他苦于没有奖学金，可能不能继续学业了。如下面这个对话。

文章图片

当我知道下一步你有了奖学金以后，正常的人会做出什么样的选择呢？我相信绝大多数人都会继续学业。
当然也有少数人会辍学去创业，但是你需要知道有怎样的常识，才能推断出「你退学创业了，你会很有勇气」。
下面这个例子是对双方对话场景需要做社会常识判断。

文章图片

在这个例子里面，顾客说我想要一个吸烟的桌子。这个时候客服人员说对不起，我们这儿没有能吸烟的桌子了。为了正确做下一步答复，我应该去判断对话的场景可能发生的地方，可能发生在公共汽车、医院里等。在下一步对话里，就包含了这些场景。大家都知道在公共交通，包括乘坐高铁、飞机、公交的时候都是不能吸烟的，所以要有吸烟的桌子，很可能是在餐厅里面。那么正确的下一步回复也许就是说「 OK ，请把你的菜单拿给我好了。」
还有一些综合了很多社会常识的论断，我们称为多事实综合决策推断。

文章图片

比如说一个人参观博物馆，他站在博物馆一个馆藏面前，这时候博物馆的管理员跟他说，「我们当时买馆藏的时候只花了 3000 块钱，但是现在馆藏却值 200 万了。」这时候顾客很高兴说，「我花了 30 美元买了这个票，我能够参观到这么价值不菲的展品。」这个时候博物馆的管理员可能就会继续对话去恭维一下顾客。大家知道，在博物馆这样的服务行业，当顾客光临的时候都会说谢谢您的参观。这里博物馆管理员的答复用了一个非常委婉的方式，「hey 你看我们这价值 200 万的馆藏，也很高兴您的到来。」
它通过这样语言的幽默或者间接的方式，既恭维了顾客，又把话题引到了感谢的话题上。
此外，这个数据集还选录了我们认为很有意义但却不能归为上述类别的一些推断。比如说雨天要带伞、坐交通工具要付钱等等这些常识，被我们归为其他类别。
在这样一套数据集上，人类是可以做到很高水平的：90% 以上甚至超过 95% 的准确率。但是，对于模型来讲还存在一些挑战。

文章图片

上表中的 BERT 和 RoBERTa 是自然语言处理领域两个非常经典的预训练模型。它们之所以非常成功，是因为这些模型先在大规模的文本上做了完形填空或者句子补全任务。通过这些任务，这些深层神经网络就能学到很多语言学知识，然后再根据具体的某一个问题，进行类似题海战术的死记硬背，最后这些模型就能够达到接近或者超过人类的效果。这就是神经网络之所以在自然语言处理领域取得成功的原因。
但是大家也可以看到，这些模型召回率（R@1）只能达到 70% 多。这证明为了完成这些常识类型的对话，当今的模型还存在很多的挑战。
下图是一些在具体不同社会常识类型方面的挑战。

文章图片

对于做数学题，我们这些模型还是存在问题的。另外模型估计语言文字之外的场景的能力还是有一定的欠缺的。
事实上，模型之所以能工作，很大程度上还是从上下文里进行简单的模式判断。
在研究模式判断之外，我们也受到很大的启发。我们发现这些记忆型神经网络，对文字之外的知识还有缺陷。除了数学这样的知识之外还有什么呢？逻辑推理，这也是人类所掌握而模型欠缺的一类能力。
说起逻辑推理，实际人工智能领域关注且研究了很长历史了。
大家知道，在上世纪五六十年代，计算机科学方兴未艾，这时候人工智能也刚刚受到关注，那个时候有一些学者就提到了语言推理。
所谓语言推理实际上就是在人类语言的理解中，需要进行很多背后的逻辑推理问题。比如刚才提到的口渴需要喝水，我知道超市有水，形成一个推理链条。这样的推理过程在人工智能领域是不可或缺的一种能力。机器如果想具有人类的智能，是必须能够完成这样的推理任务的。
在人工智能发展的早期，人们研究了这种语言推理的问题。但是很遗憾当时自然语言处理的水平还比较弱，人类无法从自然语言里抽象出这种逻辑关系。
于是在六七十年代人工智能发展的繁荣时期，人们把对自然语言推理研究的注意力，逐渐转向了比较抽象的形式逻辑的推理问题。
当时大家研究比较多的是 Prolog、Lisp 这样的产生式系统，这种符号化的研究占据了当时人工智能研究的很大比重。
我相信在当今自然语言处理发展取得了长足进步的情况下，语言推理应该受到更多的关注。
所以我们也想放出这个挑战，看看 BERT、RoBERTa 等这类自然语言处理领域最成功的模型，能够在自然语言推理上取得怎么样的成绩。
逻辑推理
逻辑推理挑战主要围绕自然语言处理研究最多的两类数据进行，其中一类叫做机器阅读理解问题，另一类叫做文本推理或者文本蕴涵问题。
机器阅读理解问题
首先是机器阅读理解问题。
所谓阅读理解就是给定篇章与问题，机器能不能回答这类问题？这个任务在新一代搜索引擎上有很大的帮助。因为现在的搜索引擎是理解了文章以后，根据用户检索短语，反馈最相关的文章。但将来的机器搜索引擎很可能是在读懂了文章以后，根据一个开放式的问题，直接给用户一个答案，而不是反馈一个文章。
在自然语言处理领域，很多阅读理解工作都是在考虑篇章的事实整合问题，比如一个足球，之前在卧室里，后来被小男孩拿到花园，然后被拿到餐厅，最后问足球在哪里的问题。
那么机器在逻辑推理问题上的表现如何呢？比如下面这个例子，最后你能推出什么样的事实。

文章图片

我们从中国公务员考试网题库搜集了 8000 多个问题，制作了 logiQA 数据集，与以往的机器阅读理解问题不同，该数据集专注于 5 类逻辑推理问题：
第一类叫做范畴推理问题。比如说蜡笔具有什么样的特征？我需要机器去归结所有的这些特点，给定一个定义的范畴，然后进行推理。
第二类推理是充分条件推理。比如有一个人说如果明天不下雨，那么我就去爬山，然后我看到他爬山了，是不是一定就没有下雨？这是属于一种充要条件。
第三个是必要条件推理问题。为了达到某个结论，必须具备某些条件，在这些条件下，去进行推理、论断、选择。
第四个是选言推理。所谓选言推理就是说当 a 或者 b 成立的时候， c 就可以成立；比如说当我吃了汉堡或者吃了面条以后，我都可能解决饥饿问题，这是选言推理。
第五个是联言推理。所谓联言推理就是说我必须及时的到了考场，而且我必须好好的复习了，才能够顺利的成功的进行考试。是两个条件都必须具备。
在这套推理题上，最成功的模型 BERT、 RoBERTa 表现可以说是一败涂地。

文章图片

一个受过高等教育的人，做这类逻辑推理题可以说是驾轻就熟，拿到 90% 以上的精确度。然而看这些模型，在随机选择选择都有 25% 的准确度下，模型确只有 30% 多的准确度。

文章图片

在所有的这些问题里面，从上图可以发现范畴推理模型的表现最好。这是因为范畴推理在文字层面上还有很多线索可循，但是其他的推理问题真正需要你脑洞大开，拿出草稿纸，在文字之外进行演算，这样的模型还是表现非常差的。
文本蕴涵问题
下面简要地介绍文本蕴涵问题。这个问题在进行事实检测、文本总结等推断问题上都有很大的帮助。

文章图片

如上图，左边例子是传统的文本蕴涵问题。比如一个人在演讲，那么他一定是在说话，演讲可以蕴涵说话，但是可能不能蕴涵其他的问题，比如这个人是否健谈。
右边是关于逻辑推理的问题。假如有 10 个 TV 节目在播放，经过一段时间以后，有 3 个节目下线了，还剩 7 个在播放， 7 个里面 5 个是同外节目，文另外会不会有其他节目还在播放？这类似鸡兔同笼问题的推理，就可以推断哪些是对的，哪些是错的，哪些是你不知道的。
我们通过美国的很多逻辑考试整理出ConTRoL 数据集，与现有的文本蕴涵数据集，有显著的差别。如首先数据集段落比较长，其次我们关注了逻辑推理的问题。
这套数据集包含诸多的推理类型：上下文推断的类型、时间推断的类型、逻辑推断的类型、信息整合的类型、事实性分析的类型。

文章图片

由上图可以看出，在我们的数据集上 BERT、BART 这类模型跟人类，还有显著的差距。

文章图片

上图是不同的逻辑推理文本蕴涵数据集，可以看到有的模型表现在一些数据集上已经超过了人类表现。但对于 ConTRoL 数据集， SOTA 模型跟人类还有很大差距，还有很大的工作空间。

文章图片

这个图体现了在不同的推理类型中，逻辑推理还是最具有挑战的问题类型。
后面是几个例子，因为时间关系我不展开介绍了。但是大家可以观察到，现在最流行的模型之所以成功，还是从字面上找原因，并没有分析文字之外的原因。
而且大家也可以看到我们的对话模型虽然取得了很大的成功，但是在开放领域还存在很多的挑战，期待参赛选手和所有的同学们多思考，大家一起努力，继续的提高对话系统的水平。
谢谢。
圆桌论坛：
智能机器人未来面临技术 & 伦理双重难点
Q1：两位老师认为让机器像人一样自然流畅地说话聊天可能吗？
黄民烈：我认为在一定的条件下应该是可能的。这个问题非常好，让机器就像人一样说话，我认为有三个不同的层次。
第一个层次是能够像人一样正常地说话，能够保持在一个正常的话题下，不要牛头不对马嘴。这样的话，我们就要要求机器能够真正地理解对方讲的是什么，然后做出合适的答复。至少在内容上和意图上正常，这是第一个层次。
第二个层次我们讲得更复杂一点。如果机器像人那样充满技巧且能够体现高情商的，则可能需要专注于情感支持和心理疏导。在这种场景下，我们需要一些类人能力，这是第二个层次。
第三个层次机器还要能够体现一定的个性和风格。比如，我们能不能模拟出外向的人和内向的人分别怎么说话的，教授和学生分别怎么说话的。这就体现了个性和风格，甚至是心理学层面的建模。
很显然，我认为第一个层次在不远的未来应该是能够预期达到的。第二个层次的话，我们可能需要更多的努力。第三个层次肯定是最难的。
我认为，下一代的对话系统在类人的水平上进行所谓的拟人化特征的表达，真正从人的特征和行为上借鉴更多的这种特点，然后能够去刻画机器的行为。所以这也是我们下一代做这种自然语言处理研究，尤其是对话系统研究的一个很重要方面。
张岳：我非常同意黄老师的看法。我觉得人类对话事实上是一个非常综合的语言过程。我们可以想象，人类最开始交流的时候没有文字，那么交流实际上也是从对话开始的。比如说「树上有三个果子你可以去吃」，这一过程可能包含心理、认知以及我们对世界的理解等诸多方面的内容。
所以如果让机器能够和人类非常自然地交流和对话，真的需要各个方面的知识和技能。
总的来说，机器能否学会跟人这样非常自然的、密切的交流呢？我认为还是非常有可能、非常有前景的。不过，对于现在的机器学习还存在挑战，因为我们现在的机器学习，至少主流的机器学习方法还是以记忆为主。我们通过大量的神经网络在大规模的文本上进行完形填空，句子补全等训练，能够让神经网络在一定程度上获得文本里面至少表面上的句法语义和常识等知识。
但我觉得，如果让机器彻底地能够跟人类交流且无障碍沟通的话，可能还需要让机器能够主动地学习，至少能够挖掘对话过程中可能存在的问题，或者说对话过程中所需要的各方面知识。
我相信能够主动去学习的机器，可能会像一个主动学习的人一样，通过对话中的经验，甚至对话之外的经验来获得自己的一套知识体系以及对语义信息、尝试信息的理解。机器主动地分析问题，发现自己的不足，并且积累相关的能力。
因此，我觉得如果机器能够进行这样的主动学习，也许在将来每一个机器都是一个个性化的专家，每一个机器都能够以自己的方式去跟人交流，就像每一个人一样。到那一天，也许我们的机器就能够更自然地跟人对话了，并能够解决现在对话中存在的很多问题了。
Q2：看来两位老师对实现像人一样说话的机器都是充满期望的。那么接下来的问题就是，如果我们真的做出来了能够跟人自然交流说话的机器，它有哪些重大的价值和意义呢？
张岳：我觉得这样的机器如果能够实现的话，对我们来讲是一件非常值得期待的事情，这是因为我觉得语言是人类进行交流的非常自然、非常简单的一种方式。
首先，如果机器能够跟人这样交流的话，会省去人类和机器打交道的诸多麻烦。我能想象在古代或者工业革命时代，人可能会和齿轮打交道，会和基本的操作杆打交道。在我们的互联网时代，人可能是和键盘鼠标打交道，从不同的文本框、按钮、多选框里选择，去和机器去交流。或者在我们开车的时候，我们事实上还在和方向盘和踏板在打交道。
但是，如果说机器能够理解人类语言的话，我相信人类与机器、人工智能之间打交道的途径就会变得非常的简单。在将来的 5G 时代甚至 6G 时代，我觉得物联网也兴起了，那么任何的机器可能都具备一定的智能，那么就可以很容易地跟我的冰箱进行对话，看看我今天晚饭的饭桌上会有什么东西。我也可以很方便地和我的室温控制系统打交道，去看看今天湿度和温度的调节。我甚至可以和门禁系统打交道，也就是说各个设备可以更人性化地为我服务，我和机器打交道的方式也可以变得更简便。实际上，这种交流的方式在现在的智能音箱上也有了一定的初步体验。
此外，在我们的娱乐系统上，我相信可能也会有更大的进步。比如说我们在真正的游戏场景里面，会不会对各个游戏角色赋予更人性化的一面以及更灵活的能力。也许我们可以和柳树下的老头进行更人性化的交流，在街道上和任何一个 AI 进行更多这种互动。
总之，如果机器能以人的方式跟人交流的话，我们可以期待很多可以想象的前景，还是非常激动人心的。
黄民烈：我的观点是：这样的研究是非常重要的。我们可以设想一下，当前人口老龄化很严重，人口越来越少，然后机器越来越多，所以未来社会一定是人机共融的社会。
但是，人机共融的时候，我们希望这样的机器，能够在未来社会里扮演更重要的社会角色。这就要求它们不仅具备机器的功能，同时更重要的要具备类人的能力。类人的能力就是既要有知识，又有情感和个性。比如说，对于大量的独居老人而言，如果他（她）们能有亲人很好地进行情感交流和陪伴的话，对未来社会一定是非常好的一件事情。所以就是说，如果我们真的做出了有思想、有情感，有各种综合能力的机器人，很显然对我们未来的社会进步和发展都有巨大的意义。
但是另一方面，我们还得深入地思考这个问题，做出来有思想的机器人还是非常难的，我们需要什么呢？我们需要很好地处理机器人的一些内部情感状态。比如，有研究者在做人工心理，那么需要对机器内部的情感心理进行很好的建模。与此同时，我们也需要在各种技术上实现能力突破，比如灵巧地抓取以及各种细节动作的执行。有了这些东西之后，我们就能够实现更美好的人机共融的社会愿景。
第三方面，我们还要注意社会伦理问题。想象一下，如果人跟机器人谈恋爱的话，那可能就不跟人谈恋爱了，可能会对人类社会的繁衍造成一定的威胁。现在并不是没有这样的考虑，比如日本可能就出现了这样的争论。他们做出了很多机器人女友或者机器人男友，但实际上这样可能会在一定程度上影响社会中人的发展。
所以，其实无论是在科学技术上，还是在社会伦理道德上，我们还要去做很多深入的探索和思考。这就是我的观点。
Q3：本届大赛有两道赛题都与自然语言处理有关，其中赛题一是医学影像报告异常检测，要求参赛队伍根据医生对 CT 影像描述文本数据，判断身体的若干区域目标是否有异常，以及异常的类型是什么；赛题三则是小步助手的对话短文本语义匹配。小步助手是为 OPPO、OnePlus 和 Realme 三品牌手机和 IoT 设备自研的语音助手。这道题考的是短文本语义匹配，要求参赛队伍根据脱敏后的短文本 query pair 预测它们是否属于同一语义。请两位老师发表一下对我们大赛以及赛题的一些看法。
黄民烈：我觉得组织这样的比赛是非常好的一件事情，因为现在大家都知道研究工作和论文非常的多，然后各种模型也都是层出不穷。那么我们通过这种赛题，一方面可以去锻炼工程实现能力，另一方面则有很好的实际科研问题去做。
比如说，现在的大部分模型和算法都是不可复现的，作为学生的话，我们拿到这样的题目，第一选择肯定就是先去复现一些现有的最强的模型，看看在这个任务上能达到多少。这里涉及到很多精细的工程，比如说调参、数据预处理和数据后处理，这样才可能在这些题目上取得比较好的成绩。
所以我觉得，一方面来讲，对一个学生的锻炼和培养应该是综合的，就是不仅仅去做一个模型或者一个算法，还要把这个模型和算法能够实现地非常好，性能能够达到很高的标准。
另外，刚才我听一个赛题是关于 OPPO 的，它涉及短文本匹配，这是一个很有挑战性的问题，在科学上有很多研究的意义和价值。对于短文没匹配而言，你可能要用更多的知识和更多的背景信息才能把它做好。所以，我们不仅有算法和模型上的训练，也有科学问题上的探索。与此同时，我们还要有工程技术上的锻炼。
这样的话，我觉得未来学生能够适应更加综合和更加高的社会就业要求，而且在他们走上社会的时候，他们面临的挑战可能就会更小一些。比如在我的研究所，我也是要求学生们一定是不能只是写论文。你只写论文，然后发论文，这是绝对不行的，你还得有很强的工程实现能力，包括现在大模型、大数据的处理能力，然后能把它从一个研究的问题做到一个最后系统的问题，进而变成整个链条上的培养。
张岳：我非常同意黄老师的说法。我觉得这个大赛可以在实际的应用场景和学生的经验之间构筑一个比较不错的桥梁。
首先，它是一个很特定的问题，另外这样的问题具有比较小的范围和比较应用的驱动性。这样对于研究生来讲，他可以看到研究任务在实际场景中发挥的作用。
另外，我觉得这个大赛也可以对更多对人工智能感兴趣的本科生，还有其他学生产生影响。以这个大赛契机，大家可以看到我们人工智能试图解决的主要典型应用问题是什么，通过自己建立一个模型去解决这样的问题，然后看到现在的模型能够做到什么程度。对于培养大家对人工智能的兴趣而言，这些都可能是有帮助的。
最后，大家也可以通过动手看到我们现在人工智能模型存在的缺陷，对于更多朋友们能够涉猎到这个领域、产生更多的想法以及试图解决这些问题，大赛和赛题都是非常好的途径。
Q4：都说语言是思想的载体，那一台能够像人一样说话的机器，是否意味着有思想能跟人做朋友甚至谈恋爱呢？
黄民烈：我觉得这个问题在当下面临两个方面的难点。一个是技术上的难点，即我们到底是不是能够构建一个足够聪明并且有一定情绪理解和思想表达能力的机器人。另一个难点是面临的伦理道德风险，即我们到底是不是应该鼓励人跟机器人进行深入的情感交流，甚至肢体交流行为，以及在未来的十年、二十年甚至五十年里，这样做对人类社会的发展会产生哪些潜在的影响。这是需要我们去做评估的。
一方面，在技术层面上，我们知道现在已经有一定程度上的技术突破，但其实我们今天的这种大规模对话系统和对话模型依然面临很大的类人不足的问题，比如说缺乏个性和情感，然后仅仅是数据驱动的这种做法是不足以构建出这样的智能体的。
在社会伦理层面，我认为现在其实已经有了一些这样的思考和讨论。比如说，AI 的伦理和道德应该往哪个方向走？应该有什么样的规范？就拿我举的例子来说， AI 到底能不能理解自己的说话、行为和动作，这些意味着什么呢？再比如我刚才讲的例子，「我想去跳桥」， AI 就给你找一个桥，它并不能够理解「跳桥」这个行为可能带来的潜在后果和行为是什么？
如果这一问题不解决的话，那么就很难避免「乱说乱讲」的问题，因为它不知道自己的话语和行为会面临什么样的社会伦理和道德风险。这种风险其实需要从研究上和社会规范上一起去做探讨，所以我觉得这个方向的路还是非常遥远的，需要广大研究者，包括自然科学和社会科学的研究者，一起去努力解决这样的难题。
张岳：我觉得这个问题主要是从功能层面讨论，就是说，机器它到底能不能和人进行情感的交流？也许我们无法完全地去探究。从机器内部来讲，它的意识是否存在？从功能的角度讲，机器也许可以帮助我们去进行这种情感陪伴，去进行更多的这种人文方面的交流。
那么这样的交流会产生很多的社会影响，这也是黄老师提出的伦理问题。首先，我觉得机器如果能够从功能上和人交流的话，它会起到正面的作用。像人口老龄化和人的陪伴需求等，这样的交流可能会在这些方面起到正面的作用。同时，我们也要避免一些负面的作用。
此外，除了机器和人在交流的时候，人可能因为机器的陪伴所产生的负面影响之外，机器如果具备了和人交流的能力，那么也许就具备了互相交流的能力。在这个方面，我们可能也会设想会不会有一些道德伦理，甚至对人类的生存问题造成的影响。比如说，如果机器在交流的过程之中进行演化，产生了一种机器可以理解，人类却不可以理解的交流方式，那么也许具有目的性的机器，可以通过这种交流方式去试图影响社会的发展。
那么如果有目的性的机器能够通过学习知道人类语言交流手段的话，也许机器还可以在人类的社交媒体和人类的交流之中，对人类产生影响。
【系统|像人一样自然流畅地说话，下一代智能对话系统还有多长的路要走？】所以我觉得要从两方面讲。从人类本身来讲，我们要避免这种能够进行情感交流的机器对我们产生的负面作用。从人类对机器的防范角度来讲，我们是不是也应该在人工智能将来的设计中设计一些规范，或者制定一些人工智能设计的准则和法则，从而最大程度地让机器和人能够对社会发展有促进作用，能够避免一些可能对社会产生的不利影响。