腾讯优图贾佳亚：人工智能的多模态发展丨CCF-GAIR 2019(14)

2019-07-19

我们希望做一个手语翻译器，能够很好解决听障人士的交流问题。这件事情看起来很简单，但做的过程中却困难重重。

首先，中国现在都还没有一套规范的手语标准，深圳的手语和北京的手语是不一样的，东莞的手语可能和深圳的也不一样。

当时我们想当然地认为这件事情很容易做，用一套强一点的算法可以在三个月时间内做出来。

事实并非这样，除了刚才的问题之外，还有一个非常难的问题，数据采集回来后，如何将数据转化为应用。

首先需要做一个姿态识别，它是一个图像模态；然后做动作识别，是一个时序模态；然后做语义转化，最后做语言模型，这是一个大致的流程。

在这个过程中，我们需要提取到关键点和手型，然后转化为文字，最后全部粘合起来变成一个语言级的表述，这是一个非常大的系统，我们最后做下来，远远超过了当时预估的工程量和算法技术含量。

推荐阅读

上一篇：夜空中的星河，彗星形成的云区，揭秘奥尔特云与柯伊伯带

下一篇：商汤王晓刚：你所不知的商汤三维视觉产品世界丨CCF-GAIR 2019