分割|打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能,精度优于现有模型丨CVPR 2022
 
文章图片 
 
 首先 , 输入的文本和视频帧被传递给特征编码器进行特征提取 , 然后将两者连接成多模态序列(每帧一个) 。
 接着 , 通过多模态Transformer对两者之间的特征关系进行编码 , 并将实例级(instance-level )特征解码为一组预测序列 。
 接下来 , 生成相应的mask和参考预测序列 。
 最后 , 将预测序列与基准(ground truth , 在有监督学习中通常指代样本集中的标签)序列进行匹配 , 以供训练过程中的监督或用于在推理过程中生成最终预测 。
 具体来说 , 对于Transformer输出的每个实例序列 , 系统会生成一个对应的mask序列 。
 为了实现这一点 , 作者采用了类似FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核 。
 而通过一个新颖的文本参考分数函数 , 该函数基于mask和文本关联 , 就可以确定哪个查询序列与文本描述的对象具有最强的关联 , 然后返回其分割序列作为模型的预测 。
 精度优于所有现有模型
 作者在三个相关数据集上对MTTR进行了性能测试:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS 。
 前两个数据集的衡量指标包括IoU(交并比 , 1表示预测框与真实边框完全重合)、平均IoU和precision@K(预测正确的相关结果占所有结果的比例) 。
 结果如下: 
  
 
文章图片 
 
 可以看到 , MTTR在所有指标上都优于所有现有方法 , 与SOTA模型相比 , 还在第一个数据集上提高了4.3的mAP值(平均精度) 。
 顶配版MTTR则在平均和总体IoU指标上实现了5.7的mAP增益 , 可以在单个RTX 3090 GPU上实现每秒处理76帧图像 。
 MTTR在JHMDBs上的结果表明MTTR也具备良好的泛化能力 。
 更具挑战性的Refer-YouTube-VOS数据集的主要评估指标为区域相似性(J)和轮廓精度(F)的平均值 。
 MTTR在这些指标上全部“险胜” 。
  
 
文章图片 
 
 一些可视化结果表明 , 即使在目标对象被类似实例包围、被遮挡或完全超出画面等情况下 , MTTR都可以成功地跟踪和分割文本引用的对象 。
  
 
文章图片 
 
 最后 , 作者表示 , 希望更多人通过这项成果看到Transformer在多模态任务上的潜力 。
 最最后 , 作者也开放了两个试玩通道 , 感兴趣的同学可以戳文末链接~ 
  
 
文章图片 
 
 △Colab试玩效果
 试玩地址: 
 https://huggingface.co/spaces/akhaliq/MTTR 
 https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing 
 论文地址: 
 https://arxiv.org/abs/2111.14821 
 代码已开源: 
 https://github.com/mttr2021/MTTR 
 — 完— 
 「人工智能」、「智能汽车」微信社群邀你加入! 
 欢迎关注人工智能、智能汽车的小伙伴们加入我们 , 与AI从业者交流、切磋 , 不错过最新行业发展&技术进展 。
 ps.加好友请务必备注您的姓名-公司-职位哦~ 
 点这里??关注我 , 记得标星哦~ 
 一键三连「分享」、「点赞」和「在看」 
【分割|打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能,精度优于现有模型丨CVPR 2022】科技前沿进展日日相见~ 
推荐阅读
- 超越了|人工智能吊打电竞职业选手?短短6年就超越了人类3000年的成就?
- MLOps|CA周记 | 打通 ML 开发的任督二脉
- 技术|武汉移动打造全市首家5G+智能工厂
- 检测|华为交互式活体检测众测版 1.0 发布:打造支付级活体检测能力
- 模型|一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤&南洋理工大学
- 网友|极致性价比,iQOO这几张牌打得好,网友直呼真香
- 高保真|森海塞尔推出 IE600 高保真音乐耳机:3D打印锆外壳
- 主题|周末隆福寺打卡美好生活市集,体验数字人民币
- 创业|联盟搭台打造人才创业强磁场
- 硬件|研究人员打造支持全向无线充电的圆柱形装置

 
  
  
  
  
  
 