AI更懂人话:谷歌发布全新对话数据集,模仿智能助理( 三 )

偏好启发

在面向电影的CCPE数据集中,冒充用户的个人对着麦克风讲话,并且音频直接播放给冒充智能助理的人。

“助手”输出他们的响应,然后通过文本到语音向用户播放。这些双人对话自然包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然而有条理的对话。

在对这个数据集的见解中,谷歌发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。

谷歌还发现,偏好并不总是与智能助理的方式相匹配,或者与推荐网站的方式相匹配,也就是选项的特征。

换句话说,你最喜欢的电影网站或服务上的过滤器可能与你在寻求个人推荐时描述各种电影时使用的语言不匹配。

面向任务的对话框

Taskmaster-1数据集利用上述方法和单人书面技术来增加语料库大小和说话者多样性,使用了大约7700写入“自我对话”条目和约5500双人口语对话。

推荐阅读