谷歌AR工具Google Lens登陆全球Google Go市场，带来更好的理解能力( 四 )_：谷歌AR工具GoogleLens登陆全球Google

从脚本检测到方向识别，再到文本识别，所有这些步骤都是由单独的卷积神经网络和一个额外的量化LSTM网络（Long Short-Term Memory）来执行。另外，从ReCaptcha到Google Books的扫描图像。模型接受了各种来源的数据训练。

3. 理解结构

一旦识别出单个单词，Lens必须确定如何将它们组合在一起。人类在现实世界中遇到的文本以多种不同的方式展示。例如，一份报纸的文章包括标题，文章和广告。同时，公交时刻表中一列是目的地，另一列则有时间。尽管理解文本结构对人类来说非常自然，但计算机则不然。Lens使用卷积神经网络来检测连贯的文本块，如列，或文本的一致样式或颜色。然后，在每个块中，它利用文本对齐，语言和段落的几何关系等信号来确定其最终阅读顺序。

检测文档结构的另一个挑战是，我们会从不同的角度拍摄文本，并且通常是翘曲的视角。这意味着我们无法恢复依赖于现成的检测器，而是必须普遍化系统，从而使其能够处理单应性失真。

4. 情景翻译

为了向用户提供最有用的信息，翻译必须精确且具有情景上下文。Lens利用了神经机器翻译算法。另外，为了提高翻译的效用，这需要在原始文本的情景上下文中进行。例如，当翻译ATM的指令时，重要的是要知道哪些按钮对应于哪些指令。