云剪|视频人才缺百万,30秒完工的"AI编导"能替补吗?( 三 )


第二重关卡,则是多状态的视频理解,即从商家提供的商品主视频和直播视频出发,准确理解其每个视频片段中的行为语义,并关联到状态标签,而物品的多状态以及画面的多相似性,极大增加了文本与视觉主体的对齐难度。
比如,一件外套在镜头里是侧面正面还是反面,是拿在手上还是在试穿,素材视频里有无乱入图像等,系统都需要对标人的基本认知习惯,挑选出最能展现商品亮点的素材。
基于上述问题,技术团队提出了一种电商视频多模态预训练方案,在表示阶段对商品类别与商品状态进行显示建模,同时在预训练阶段针对性设计了不同目标的跟踪任务,能够有效地解决电商场景下,视觉主体与文案脚本难以对齐的问题,从而提高短视频输出的准确率和质量稳定性。
第三重关卡,抽象的语义概念与具象的镜头语言,也需要精准匹配,文本和图像之间的关系挖掘和语义对齐必不可少。
为此,技术团队创新提出了自适应的图推理及过滤图文检索算法,该跨模态图文检索算法,针对短视频脚本特有的抽象描述意象的特点,通过自适应的图结构进行图像区域之间关系的推理和聚合,利用细粒度的跨模态过滤机制文本对齐无关的信息,有效提高了模型对于抽象脚本的文本的检索能力,检索结果的首序正确率高达89.94%。
而此项技术是作为视频业务在多模态领域的首次创新,并发布相关论文《Adapted GraphReasoning and Filtration for Description-Image Retrieval》,收录于SIGIR2021(注:SIGIR2021是人工智能领域智能信息检索方向最权威的国际会议)。
举例来讲,图像上是“蓝天下一片农田和一辆拖拉机”,应用上述技术后,可以生成“农业发展蒸蒸日上”的脚本,后者是对画面的抽象概括和意义阐释,而非直白机械地一一列举画面中的物体。
“当然,目前的云剪做不出100分的完美视频,也无法完全取代专业人才,但我们能帮商家做出一个70分的短视频,而且耗时仅要几分钟,成本低。”
在黄玉龙的设想里,云剪未来的应用场景并不限于淘宝,希望未来在更多涉及短视频营销的领域也有机会一试身手。
毕竟,短视频营销才刚至中局,极光大数据显示,截至2020年12月,视频制作行业渗透率仅19.6%,同比增速保持在138.1%左右,视频生产工具的用户规模还将继续在高速路上一路飞驰。
或许就如同傻瓜相机以及手机照相功能,替代专业单反,普及向大众市场一样,优质短视频内容制作,未来将不再是极少数专业人才的专属,有了优质工具的助力,也许,短视频制作会成为人人可为的标配能力。
【 云剪|视频人才缺百万,30秒完工的"AI编导"能替补吗?】本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系

推荐阅读