亚马逊Alexa新突破:将缩写符号秒转文字,错误率降低81%( 三 )

像这种从“5:00PM”到“five p m”的转化过程被称为文本规范化,反之则为反向文本规范化。

那么这些转化是如何达成的呢?

根据Ming Sun的说法,目前,亚马逊语音助手依赖于数千条日期、电子邮件地址、数字、缩写和其他表达的人工规范化规则。这个方法本还不错,但随着Alexa所涉及的交互范围不断增加,人工编写规则本质上成为一个很容易出错的过程。此外,随着Alexa不断增加对新的语种的应用,重新编写规则将是一项巨大的任务。

在论文中研究人员提出,将书面语言规范化为文本语言,存在以下困难:

1.人们很难获得训练机器学习模型的监督数据;

2.正如上文例子中显示的那样,书面文本具有歧义,在不同的语境转化可能需要不同的规范化方法。

为此,研究人员研究了一种由机器学习驱动的更具可扩展性的技术。有关该研究的论文将在今年的北美计算语言学协会(NAACL)的会议上展示。

二、新算法将错误率降低81%

推荐阅读