腾讯优图贾佳亚:人工智能的多模态发展丨CCF-GAIR 2019(14)

我们希望做一个手语翻译器 , 能够很好解决听障人士的交流问题 。 这件事情看起来很简单 , 但做的过程中却困难重重 。

首先 , 中国现在都还没有一套规范的手语标准 , 深圳的手语和北京的手语是不一样的 , 东莞的手语可能和深圳的也不一样 。

当时我们想当然地认为这件事情很容易做 , 用一套强一点的算法可以在三个月时间内做出来 。

事实并非这样 , 除了刚才的问题之外 , 还有一个非常难的问题 , 数据采集回来后 , 如何将数据转化为应用 。

首先需要做一个姿态识别 , 它是一个图像模态;然后做动作识别 , 是一个时序模态;然后做语义转化 , 最后做语言模型 , 这是一个大致的流程 。

在这个过程中 , 我们需要提取到关键点和手型 , 然后转化为文字 , 最后全部粘合起来变成一个语言级的表述 , 这是一个非常大的系统 , 我们最后做下来 , 远远超过了当时预估的工程量和算法技术含量 。

推荐阅读