From: The Verge; 编译: Shelly
理想情况下 , 为了便于视障群体获取信息、融入对话交流 , 文件、网络、社交媒体的每份图像信息都应该有相应的替代文本 。 目前 , 微软的SeeingAI图像注释软件是视障群体获取信息的重要媒介 。 在此基础上 , 微软最近还开发了一种新的图像注释算法 Image Captioning , 有助于全面提升视障人士的对话体验 。
今年9月 , 微软在一篇论文中描述了一种新的图像注释算法Image Captioning 。 微软表示 , 这款新算法在某些图像注释基准测试(如Nocaps)中 , 精确度甚至超过了人类 。
文章图片
SeeingAI + Image Captioning
如虎添翼!
在图像注释技术开发中 , 微软早在2017年就首次发布了强大的“SeeingAI”应用 。 现如今 , 当SeeingAI配上新算法Image Captioning , 简直如虎添翼 。
SeeingAI可以通过手机摄像头 , 使用计算机视觉来为视障人士描绘物体 。 它能识别家居用品、阅读和扫描文本、描述场景 , 甚至可以识别朋友;还能用于描述其他应用程序中的图像 , 比如电子邮件客、社交媒体应用程序以及如WhatsApp之类的聊天软件 。
SeeingAI有助于改善视障群体的生活 , 视障人士只需拿起手机 , 并把摄像头对准目标对象 , 即可识别附近的人、文本和其他对象 。 去年3月 , 微软在其开发者大会上展示了SeeingAI的原型 。 从现在开始 , SeeingAI应用可以在美国的iOS系统上免费下载 。
SeeingAI的demo视频曾显示 , 当盲人萨科带着Pivothead智能眼镜时 , 他滑动镜腿后 , 眼镜就负责拍下眼前看到的景象;而SeeingAI则负责识别出景象 , 并通过语音告诉萨科眼前是什么 。 比如 , SeeingAI会这样描述它所看到的景象:“一位男人在玩滑板 , 一个小女孩在公园扔飞盘” 。
文章图片
当萨科与人会谈时 , 他滑动镜腿拍照 , SeeingAI就能根据照片识别出面前坐客的年龄、性别以及情绪 , 帮助萨科融入到对话当中 。 当萨科在餐馆点菜时 , 他拿出下载了SeeingAI的智能手机 , 在SeeingAI的语音提示帮助下找到菜单 。 当萨科对着菜单拍照后 , SeeingAI就自动读出菜单 , 帮萨科点餐 。
SeeingAI的用户数量还处于保密状态 , 但Azure AI公司副总裁Eric Boyd称 , SeeingAI是视障群体中最受欢迎的应用程序之一 。 在视障群体使用的一个IOS社区AppleVis中 , SeeingAI已经连续三年被评选为“最佳APP”或“最佳辅助APP” 。
在此基础上 , 图像注释算法Image Captioning的出现将进一步优化SeeingAI , 并将很快集成到Word、Outlook和PowerPoint等其他微软产品中 , 用于创建代替图像的文本 。 这对帮助视障人士获得图像信息特别重要 。
“理想情况下 , 所有人都应该为文件、网络和社交媒体中的图片添加替代文本 , 只有这样 , 才能使盲人能够理解具体内容并参与对话 。 但是 , 现在人们并没有做到这一点 。 所以 , 我们迫切需要一些应用程序来为图片添加替代文本 。 ”微软公司的软件工程经理Saqib Shaikh在新闻发布会上说道 , “哎 , 可惜现状并不尽如人意 , 只有部分应用程序使用了图像注释算法Image Captioning来添加替代文本”
新算法性能是之前的两倍
在NOCAPS测试中超越人类
微软的新图像注释算法Image Captioning不仅可以识别对象 , 而且可以精准地描述对象之间的关系 。 比如 , 新算法不仅能解读图片包含的对象 , 比如 , “一个人 , 一把椅子 , 一个手风琴”;还能描述这些对象之间是如何交互的 , 比如 , “一个人坐在椅子上 , 演奏手风琴” 。
微软表示 , 该算法比2015年以来使用的前图像注释系统还要强大两倍 , 将大大改善SeeingAI的性能 。
今年9月 , 在一项名为“NOCAPS”的图像注释基准测试上 , SeeingAI的新算法获得了有史以来的最高分!
文章图片
NOCAPS图像注释基准测试包含166000多段人工翻译的字幕 , 这些字幕包括从Open Images数据集提取的约15100张图像 , 涵盖各种场景 , 从运动到度假快照 , 再到美食摄影诸如此类 。
尽管NOCAPS基准测试有其自身的局限性 , 但依然是图像注释行业中较为权威的计分板 。 测试中 , 针对SeeingAI算法能力的考量 , 是基于算法翻译字幕与人工翻译字幕的匹配情况 。
文章图片
【福音|视障人士新福音: 微软图像注释软件SeeingAI再添强大新算法】NOCAPS数据集网址: https://nocaps.org/explore
下面的图集是SeeingAI (使用了新算法Image Captioning) 的部分图像注释结果 。
文章图片
文章图片
文章图片
文章图片
Image Captioning很厉害
但并不代表图像注释问题已经解决
一般而言 , 图像注释的过程很复杂 , NOCAPS基准测试只能检测其中一小部分 。 尽管微软在新闻稿中称新算法能像人一样描述图像 , 但它只适用于NOCAPS测试中包含的一小部分图像 , 而对于超出NOCAPS的那些图像 , 新算法也暂时失灵 。
NOCAPS图像注释基准测试的创建者之一Harsh Agrawal说:“新算法Image Captioning在NOCAPS上比人类做得更好 , 但这并不代表图像字幕问题已经解决 。 ”
Argawal指出 , NOCAPS基准测试的评估指标仅大致与大众审美匹配 , 由于不同的人描述图片的偏好不同 , 所以基准本身仅涵盖所有视觉概念的一小部分 。 ”
“与大多数基准测试一样 , NOCAPS基准测试只是该模型衡量任务性能的粗略指标 , ”Argawal说 , “AI只是在NOCAPS上超越了人类 , 绝不意味着已经在图像理解上超越了人类 。 ”
现如今 , 人们往往惯于夸大AI的能力 。 当AI在特定测试中体现出超越人类的水平时 , 我们就习惯性认为AI在其他基准测试中也能远超人类 。 过去 , 微软曾因夸大其某一算法理解文字的能力 , 受到了研究人员的批评 。
但不可否认的是 , 近年来 , 人工智能图像注释水平确实有了极大提高 , 而微软的算法当属其中最先进的!微软新的图像注释算法Image Captioning除了可以集成到Word , Outlook和PowerPoint中 , 还可以通过微软云和AI平台Azure作为独立模型使用 。
随着人工智能不断发展 , 相信视障人士的世界会更加明亮、精彩!
推荐阅读
- 商汤|商汤终成AI第一股:挂牌联交所后股价高开 业内人士更关注其盈利和商业模式
- IT|新能源车专属保险上线,保费却贵了?业内人士回应
- IT|知情人士:恒驰汽车量产下线仪式可能要到明年初
- 技术|降价!折叠屏手机有点火,是时候入手了?业内人士建议“再等等”→
- Huawei|华为6亿元成立精密制造公司 内部人士独家回应:不生产芯片
- 手机|时尚人士的下班路,藏着一个小秘密
- Baidu|百度MEG裁员?知情人士:教育、游戏等业务有“小规模调整”
- 手机|难怪爆料说iPhone14不上A16!业内人士道出幕后原因:备货量不到A15一半
- Vidda|Vidda音乐电视2 V5G获专业人士好评,线上市占率破8%
- Apple|苹果iPhone 14标准版为何不配A16 业内人士:A16备货量不到A15一半