谷歌AR工具Google Lens登陆全球Google Go市场,带来更好的理解能力( 四 )

从脚本检测到方向识别,再到文本识别,所有这些步骤都是由单独的卷积神经网络和一个额外的量化LSTM网络(Long Short-Term Memory)来执行。另外,从ReCaptcha到Google Books的扫描图像。模型接受了各种来源的数据训练。

3. 理解结构

一旦识别出单个单词,Lens必须确定如何将它们组合在一起。人类在现实世界中遇到的文本以多种不同的方式展示。例如,一份报纸的文章包括标题,文章和广告。同时,公交时刻表中一列是目的地,另一列则有时间。尽管理解文本结构对人类来说非常自然,但计算机则不然。Lens使用卷积神经网络来检测连贯的文本块,如列,或文本的一致样式或颜色。然后,在每个块中,它利用文本对齐,语言和段落的几何关系等信号来确定其最终阅读顺序。

检测文档结构的另一个挑战是,我们会从不同的角度拍摄文本,并且通常是翘曲的视角。这意味着我们无法恢复依赖于现成的检测器,而是必须普遍化系统,从而使其能够处理单应性失真。

4. 情景翻译

为了向用户提供最有用的信息,翻译必须精确且具有情景上下文。Lens利用了神经机器翻译算法。另外,为了提高翻译的效用,这需要在原始文本的情景上下文中进行。例如,当翻译ATM的指令时,重要的是要知道哪些按钮对应于哪些指令。

推荐阅读