谷歌AR工具Google Lens登陆全球Google Go市场,带来更好的理解能力( 三 )

当Google Go中的Lens捕获图像后,它需要理解相关的形状,及构成单词,句子和段落的字母。所以,图像将按比例缩小并传送到Lens服务器,然后执行处理。接下来,应用光学字符识别(Optical Character Recognition;OCR),后者利用Region Proposal Network来检测可以合并成用于文本识别的行的字符级边界框。

谷歌AR工具Google Lens登陆全球Google Go市场,带来更好的理解能力

将字符框合并为单词是一个分为两步的顺序过程。第一步是应用Hough Transform;第二步是利用Text Flow。无论是直的,弯的,还是两者混合,这个过程将可以确保系统识别和处理具有各种分布的文本。

由于Google Go的Lens所捕获的图像可能包含标牌,手写字符或文档等来源,所以这可能会出现一系列的其他挑战。例如,文本可以被遮挡,而图像可以是模糊的。所有这些问题都可能导致OCR引擎误解每个单词中的各种字符。为了纠正错误并提高单词准确性,Google Go中的Lens利用周围单词的情景进行更正。它同时利用Knowledge Graph提供情景线索,例如单词是不是专有名词,所以不应进行拼写纠正。

推荐阅读