谷歌AR工具Google Lens登陆全球Google Go市场,带来更好的理解能力( 五 )

挑战的一部分是,翻译后的文本可能比原文短得多或长得多。例如,德语句子往往比英语句子长。为了实现这种无缝叠加,Lens将译文重新分配到相似长度的行中,并选择适当的字体大小进行匹配。它同时能够匹配翻译的颜色及其背景。Lens可以分类像素是表示背景还是文本,然后从这两个区域中采样平均颜色,从而确保翻译文本与原始文本匹配。

5. 诵读文本

Google Go的Lens的最后一个挑战是大声诵读文本。系统利用谷歌的文本转语音(TTS)技术来生成高保真音频(一种应用机器学习来消除歧义的服务),并使用它来生成基于DeepMind WaveNet的真实语音。

当与屏幕配对时,它们将变得更具情景性和实用性。Lens利用来自TTS服务的定时注释来标记每个单词的开头,从而在诵读时突出显示屏幕的每个单词,就类似于卡拉OK机。例如,用户可以捕获不同按钮有着不同标签的ATM屏幕图像。这种卡拉OK效果将允许用户知道哪个标签适用于哪个按钮。它同时可以帮助用户学习如何发音相关单词。

6. 展望未来

谷歌表示:“我们希望这些功能可以对数百万人的日常生活产生积极影响。展望未来,我们将继续对这些阅读功能进行更新,包括改进文本结构理解(例如多列文本)和识别印度语脚本。在我们解决这些文本挑战时,我们继续寻找集合机器学习和智能手机摄像头的新方式,从而帮助改善人们的生活质量。”

推荐阅读