谷歌AR工具Google Lens登陆全球Google Go市场,带来更好的理解能力( 四 )
从脚本检测到方向识别,再到文本识别,所有这些步骤都是由单独的卷积神经网络和一个额外的量化LSTM网络(Long Short-Term Memory)来执行。另外,从ReCaptcha到Google Books的扫描图像。模型接受了各种来源的数据训练。
3. 理解结构
一旦识别出单个单词,Lens必须确定如何将它们组合在一起。人类在现实世界中遇到的文本以多种不同的方式展示。例如,一份报纸的文章包括标题,文章和广告。同时,公交时刻表中一列是目的地,另一列则有时间。尽管理解文本结构对人类来说非常自然,但计算机则不然。Lens使用卷积神经网络来检测连贯的文本块,如列,或文本的一致样式或颜色。然后,在每个块中,它利用文本对齐,语言和段落的几何关系等信号来确定其最终阅读顺序。
检测文档结构的另一个挑战是,我们会从不同的角度拍摄文本,并且通常是翘曲的视角。这意味着我们无法恢复依赖于现成的检测器,而是必须普遍化系统,从而使其能够处理单应性失真。
4. 情景翻译
为了向用户提供最有用的信息,翻译必须精确且具有情景上下文。Lens利用了神经机器翻译算法。另外,为了提高翻译的效用,这需要在原始文本的情景上下文中进行。例如,当翻译ATM的指令时,重要的是要知道哪些按钮对应于哪些指令。
推荐阅读
- 魔兽世界|暴雪嘉年华内容遭泄露,引玩家众怒,魔兽世界成捞钱工具?
- canyon|恐怖的中野联动!许秀给Canyon当工具人,DK扳回一城
- 魔兽世界|暴雪嘉年华原定内容泄露,5个魔兽世界同步推进,wow变捞钱工具?
- 漫威银河护卫队|中日巅峰对决!日本Google Play年度最佳游戏提名,看点十足
- 马戏团|剑与远征:新英雄曝出,造型酷似工具人,两款新皮齐上线春姑火了
- 打野|王者荣耀:本赛季还是工具人法师的天下,虽然法核能玩,但不推荐
- 原神|米游社的原神版块有什么?旅行工具和签到系统对玩家帮助很大!
- 猫神|KPL猫神沦为抵债工具?阿泰开播爆料: RNGM买6.6没给钱,拿猫抵债
- mod|《CS》最好玩的七个版本,MOD模组是个强大的工具
- 冲浪|阴阳师SP浪川削弱后强度详解 无脑人权卡即将变成二流强度工具人