团队|抖音的AI速度:平均每天上线超过100个新特效

作者:李泽南

在抖音 , 平均每五个视频投稿中就有一个使用特效 , 它已成为深受人们喜爱的表达方式 。
随着 AI 算法的进步 , 手机短视频 App 上的特效越来越花哨 , 各种换脸、美颜应用层出不穷 。 去年 6 月, 抖音推出了一款「变身漫画」的特效 , 引来各路明星和广大抖音用户争相体验 , 纷纷 Po 出了自己的漫画形象 。 漫画特效成为了当年的爆款 , 近 1700 万用户尝试使用 , 视频的播放量更是达到几十亿次 。
在抖音的 App 上 , 用户只需轻轻一挥手就可以生成自己的实时漫画形象 , 从五官到发型、衣着 , 都实现了精准的转换 。
打开特效 , 欧阳娜娜与她的猫咪都变身为高萌漫画形象 。

团队|抖音的AI速度:平均每天上线超过100个新特效
文章图片

一年多过去了 , 抖音又推出了哪些好玩的特效?在 7 月 28 日抖音与火山引擎联合举办的「智能特效」技术开放日上 , 抖音工程师们向我们进行了一番介绍 。 除了面向普通用户的工具 , 字节跳动还将最新的 AI 技术开放给了其他厂商 , 并鼓励 CG 设计师加入制作原创互动内容的行列 。
在活动中 , 抖发布了第一份《抖音特效数据报告》 , 向公众首次展示了其在特效应用领域的技术进展和落地情况:2021 上半年 , 抖音平台平均每天上线超过 100 个新款特效 , 平均每五个投稿中就有一个使用特效 。

团队|抖音的AI速度:平均每天上线超过100个新特效
文章图片

打造这些特效的是火山引擎、抖音特效团队和无数活跃在抖音中的特效设计师 。
抖音特效的蜕变史
想给视频加个特技 , 其实并不简单 , 抖音在 2016 年主要还在依靠平面设计和第三方技术实现特效 。 到 2017 年 , 字节跳动组建了特效团队开始自研技术 。 「作出决定的原因是我们发现特效道具贴纸的出现 , 可以鼓励用户投稿 , 」抖音设计中心负责人王运恢介绍道 。 在当年 , 抖音就推出了狗头贴纸这个爆款产品 。
很快 , 抖音特效团队使用的技术就从传统 CG 升级到深度学习 。 2018 年 , 抖音推出的控雨特效成为爆款 。 而在最近一段时间里 , 这样的爆款越来越多 , 特效团队也已经发展到了几百人规模 。
【团队|抖音的AI速度:平均每天上线超过100个新特效】正如人们所见 , 最近抖音上的热门是漫画脸特效 , 很多明星自发地使用了漫画脸 , 用户生成的漫画脸照片甚至成为了他们的社交账号头像 。
这款产品结合了人工智能领域里流行的 GAN 技术 。 「我们第一次接触 GAN 是在一次内部的技术分享会上 , 」王运恢说道 。 「这种技术带来的创意很好 , 但在实践中遇到了一些困难——最初效果距离实用的程度相去甚远 , 用艺术形式来比喻的话应该是抽象派 。 为了终能够在抖音里上线 , 整个团队最终决定以漫画风格迁移为方向 。 」
抖音特效团队几乎筛选了所有漫画风格 , 最后确立的风格包含多个元素 , 融合了日漫、国漫和韩漫 。 它的细节丰富 , 颜色通透 , 最重要的是形象更加阳光 。
选完风格之后 , 工程师们引入算法模型 , 连续进行了两个多月的模型优化 , 更新迭代了超过 1000 个版本 。 最忙碌的时候同时使用了数百块显卡同时跑模型 。
最终 , 在 2020 年 6 月上线的漫画脸特效仅用三天就收获了上千万的投稿 , 成为了抖音特效的一个里程碑 。

团队|抖音的AI速度:平均每天上线超过100个新特效
文章图片

据统计 , 仅 2021 年上半年就有超过 8000 万用户第一次在抖音投稿中使用了特效 。
现在 , 抖音推出的特效覆盖装饰、互动、风格及场景四大类 , 还在帮助非物质文化遗产的传播 , 推出了戏曲头饰、京剧、越剧小生、川剧变脸等效果 。 在西安钟楼、重庆洪崖洞 , 北京三里屯等地标 , 人们还可以打开手机摄像头 , 观看 AR 装饰效果 。
在抖音 , 做自己的特效
要做好一个视频特效工具 , 你需要实现目标点位检测和追踪 , 画面的理解 , 这就需要用到最新的计算机视觉技术 。 得益于深度学习近期的大发展 , 我们现在已经可以在手机端上实现实时的真实场景物体识别了 , 再加上物体分割、渲染效果 , 使用 CG 技术将虚拟图像叠加到真实场景中 , 我们就可以实现各类有趣的效果 。
「在影视等行业中 , AI 技术近年来的提升让特效越来越真实 , 但同时也提升了成本 。 在好莱坞视觉大片的制作中 , 特效的成本可能要占 60% , 一秒的特效如果只用一台机器做渲染 , 可能需要 50 天 。 」火山引擎特效技术专家杨辉说道 。
在抖音上这么做显然不行 , 工程师需要在尽可能使用先进技术的同时降低应用的门槛 , 让更多人能够参与到创作的行列中来 。

团队|抖音的AI速度:平均每天上线超过100个新特效
文章图片

背靠业内最多的用户 , 抖音的特效功能通过多轮产品迭代 , 拥有完善的组件模块化、适配、资源下发能力 , 大幅度提升了应用便利性 。 抖音特效的稳定性也很高 , 在接口层面的崩溃率不到 10 万分之一 。
抖音还花费近两年时间从零到一打造了自己的渲染引擎 , 相比人们熟知的 Unity 和 Unreal , 抖音引擎专门针对短视频 AR 特效 , 体积更小 , 平台适用范围更广 , 同时也具备高效的渲染效果 。
迄今为止 , 抖音特效开放平台已经包含了 100 余种算法 , 覆盖多种场景 , 支持了字节的 40 多项业务 。
字节跳动研发的高性能机器学习训练平台、端上压缩算法和异构推理引擎 , 未来都会通过火山引擎面向企业平台进行开放 。 在活动中 , 字节跳动宣布面向企业客户开放上万款抖音同款特效 , 包括猴哥、漫画惊讶脸等热门道具 。 现在 , 使用火山引擎的特效工具套件 , 一名设计师仅需五天就可生产出自己的 3D 特效 。
在火山引擎的特效服务体系中 , 会有字节跳动的一线专家协助客户打造定制化的解决方案 , 已有的特效道具资源也被开放 , 包括拍摄资源、编辑资源和 MV 模板资源等 。
除了短视频 , 视觉特效的应用场景还有很多 。 在火山引擎中 , AR 看车、AR 试妆和虚拟形象(数字人)等技术已经落地 。 未来还有可能出现互动广告等全新交互形式 , 让人们获得更好的购物体验 。
「随着 5G 时代到来 , 网络延迟降低 , 带宽增大 , 很多计算将不会在本地完成 , 我们可以把 CV 算法做得更精准 , CG 效果更加酷炫 。 会出现端云协同 , 多人互动的新类型特效 , 未来也有可能会出现手机之外的新移动端入口 , 」杨辉说道

    推荐阅读