生产|从喜马拉雅看音频技术革命的下一站

生产|从喜马拉雅看音频技术革命的下一站
文章图片

近年来 ,AIGC(AI-Generated Content , AI生成虚拟内容)横空出世 。 技术发展也改变着音频领域的内容思维 , 以TTS技术(Text-to-speech , 语音合成)为代表的AIGC新技术产品正在一步步走向成熟 , 以喜马拉雅为代表的一批音频平台已在该领域潜心钻研多年 , 助推AIGC从实验室迈向AI合成音、AI演播、智能新闻播报等更多应用场景 。
【生产|从喜马拉雅看音频技术革命的下一站】技术革新撬动内容生产升级
随着音质传输的升级、智能交互的深化、终端场景的拓宽 , 在线音频内容消费时长伴随着技术升级正在加速驶入发展快车道 。 根据易观分析数据显示 , 2021年中国“耳朵经济”市场的活跃用户规模已达到8亿人次 , 其中在线音频细分市场的月活跃人数稳定在3亿人次 , 且呈现出稳步上涨的态势 。
生产|从喜马拉雅看音频技术革命的下一站
文章图片

消费需求的增加亟需扩大内容生产规模 , 提高内容生产质量和效率一直是行业发展的重要问题 。 上个时代 , 软硬件的技术发展推动了UGC成为了内容生产的重要模式 。 今年将迎来十周年的喜马拉雅是这个时代跑出来的“内容生态前行者” , 其拥有的完善的UGC内容创作者生态 , 通过给用户更便捷的音频创作工具及拓展更多音频品类(如播客)来激励普通用户参与创作、分享音频 , 从而增加平台上长尾内容 。
UGC模式在技术助力下拓宽对于“内容生产者”的界定 , 通过抹平内容生产和消费的严格划分、释放内容生产力 。 但这种技术的应用归根到底是基于对于人的使用 , 当内容生产者和消费者的生产潜力都被消耗殆尽 , 内容消费需求的缺口又能由什么来填补?
答案就是AI 。 人工智能未来将催生新的内容生产形式 , 当生产不局限于人的时候 , 生产力也将迎来空前解放 。
AIGC——音频内容革命的下一站
年初 , 喜马拉雅自研的跨语言语音合成创新技术论文 , 及其与中国科学技术大学合作的说话人日志技术研究论文 , 均被世界顶级学术会议“2022年IEEE国际音频、语音与信号处理会议”(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing , ICASSP 2022)收录 , 并受邀于今年5月在新加坡举办的会议上向全球展示相关技术成果 。
生产|从喜马拉雅看音频技术革命的下一站
文章图片

ICASSP 2022是ICASSP 第47届会议 , 会议主题为“以人为本的信号处理” , “以人为本”这一理念也是喜马拉雅技术发展的驱动力之一 。 喜马拉雅CTO姜杰表示 , 我们在技术的创新和应用中很重视观察人和AI交互协同能产生什么全新的价值增量 。 音频内容呈现更智能化的趋势背后 , 将是AIGC对于喜马拉雅原有的UGC+PGC+PUGC的音频生态的进一步丰富 。
以AIGC延展PGC , AI合成音精准还原单田芳先生“云遮月”嗓音
相比于机器人来说 , 人最大的差别就在于个体化之间的不可复制性 , 杰出的音频内容生产方被消费者选择也恰恰是因为他的独特性 。 例如我国著名评书艺术表演大师单田芳先生 , 善以声音塑造角色 , 其标志性的“云遮月”嗓音成为了独一无二的内容符号 , 在民间有着“凡有井水处 , 皆听单田芳”的说法 。
如果能将单田芳先生的声音解码 , 再进行重新编码 , 就能突破内容创作的局限性 , 实现原音重现 , 让人们享受到更多单田芳先生的优秀作品 , 喜马拉雅已在2021年实现了这一点 。 喜马拉雅智能语音实验室利用TTS技术 , 并自主设计了单独的韵律提取模块 , 并将其融入到 HiTTS 技术框架中 , 让单老的AI合成音仿佛本尊再现 。
生产|从喜马拉雅看音频技术革命的下一站
文章图片

目前 , 喜马拉雅上已有80多部运用还原自单田芳先生声音的AI合成音制作的专辑 , 这些专辑在喜马拉雅也一直深受用户喜爱 , 多张评书专辑长期位列喜马相声评书热播榜前列 , 例如《卧虎藏龙》《蜀山剑侠传》等 。
不仅如此 , 喜马拉雅被ICASSP 2022收录的自研跨语言语音合成技术 , 甚至在未来可以让我们听到单田芳先生的“声音”来播讲英文内容 。 也许在不久的将来 , “单田芳英文声音重现”将与此前官方授权的“单田芳评书” 和“单田芳声音重现”共同构成全新的“单田芳IP”矩阵 。
AIGC正在成为人类PGC的延伸 , 以立体、真实的方式突破助力PGC突破空间、时间的局限 , 使PGC内容体系化得到了一次质变的提升发展 。
以AIGC创造PUGC , “AI续写+AI主播”闭环生产展现广阔前景
随着技术的发展 , AI不仅是一种技术载体 , 也逐渐成为了一种人格象征 。 喜马拉雅基于自研的TTS框架 , 并采集头部主播“喜道公子”的真声打造了AI主播“喜小道” , 而基于大规模语言模型自研的自然语言处理模型的续写应用“彩云小梦”已经可以实现小说故事的AI创作 , 只需要给她一个1-1000字的开头 , 它就能为你续写出后面的故事 。
借助自己AI智能技术有声化的优势 , 喜马拉雅的AI主播“喜小道”与彩云小梦续写AI合作 , 打造了首个从故事创作到演播均由AI完成的AI电台 。 据了解 , 彩云小梦入驻为喜马拉雅旗下网文创作平台奇迹文学的写手 , 将其作品经AI主播“喜小道”有声化后 , 发布在喜马拉雅平台 。
“AI续写+AI主播”的方式证明了AIGC已经拥有了自己形成完整生产闭环的能力 , 更诞生了一种全新的以“AIGC”功能为基础的“PUGC” , 展现了AIGC及AI技术赋能创作广阔前景 。
当AIGC遇上UGC , 想象力与算力碰撞后的指数增长
目前 , AIGC由于技术成本和规格限制 , 更多集中在对于PGC和PUGC的加持上 , 未来如果AIGC成为每个UGC手中的工具时 , AIGC强大的算力思维和UGC的蓬勃的内容创作活力将在提升创作效率的同时 , 进一步丰富内容的多样性 。
相关行业专家表示 , 在无监督学习、深度强化学习、迁移学习、生成对抗网络等算法深入研究的基础上 , AI的算力将越发强大 , 其背后自运算与强适应的特征能够完美匹配每一个内容生产者 , 指数级释放UGC内容创作的活力 , 带来多样且生动的内容创作光谱 , 有着非常大的想象空间 。
当每一个人都拥有一个可以帮你定制化解决问题的“大白” , 每一个内容创作者都将可以拥有一座自己的“喜马拉雅” 。
技术势能释放商业价值新想象
对于消费者来说 , AIGC是对于内容的加持是一次成功的探索 。 艾媒咨询《2021年中国耳朵经济发展专题研究报告》显示 , 超过六成受访用户认为AI合成音频比普通音频节目更有趣 , 55.4%和48.5%的用户认为合成技术能增加内容丰富度和提高现有的音频节目质量 。
在AIGC对于内容如此强大的增益背后 , 对于国内音频产业而言 , 技术越来越成为行业的重要竞争维度 。 易观报告显示 , 2021年 , 以喜马拉雅为代表的主流平台不断投入技术研发 , 通过提升工业化水平 , 助力创作者实现更优质的内容表达 。 喜马拉雅等头部音频平台凭借自身的技术、团队、资金等优势深耕有声书、有声剧等赛道 , 丰富内容样态 。
商业规模带动技术创新 , 技术创新反哺市场选择 , 形成了一种喜马拉雅商业规模和技术发展双驱动之下的良性网络 。 据了解 , 喜马拉雅已在AI语音技术领域潜心钻研多年 , 并在内部专门成立了喜马拉雅智能语音实验室这一核心部门 , 长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发 。 喜马拉雅智能语音实验室卢恒表示 , 未来 , 喜马拉雅将持续投入语音技术的研发升级 , 不断创新和突破 , 进一步打开对于声音的理解和想象 , 让技术加持声音、让声音服务生活 。
这种价值的转化不仅体现在平台本身 , 更在平台对于合作伙伴的价值外溢上 。 2021年 , 众多主流媒体加速入驻喜马拉雅 , 借助喜马拉雅TTS技术加速制作新闻类音频节目 , 快捷地实现了文字报道向音频的转化 。 智能化、无人化的播报正在实现 , 极大降低了运行成本和操作门槛 , 批量化处理的语音合成技术保障了内容生产与播报的及时性 。 相关行业从业者表示 , 这种播报方式也开辟了音频新媒体的新赛道 , 让优质报道有了触达用户的新方式 , 突破了内容传播的阈值 , 为传统广播媒体行业带来新变革 。 不止是新闻播报 , 艾媒咨询报告显示 , 在线音频行业应用TTS技术产出高质量仿真语音 , 快速完成文本到语音的转化过程 , 极大加速了网络文学到音频内容的生产能力 , 扩充了内容传播的渠道 。 可以预见 , 在音频平台顶流的小说领域 , 喜马拉雅将会实现多音色自动识别朗读 , 在音频技术上进行突破 。
AIGC不仅代表了一种技术价值的想象 , 其背后更是商业价值的全新拐点 。 报告显示 , 超过七成受访用户对AI技术在在线音频领域的发展前景看好 。 艾媒咨询分析师认为 , 随着AI智能产品的普及以及用户需求持续攀升 , 在线音频行业的创新内容仍具有较大的潜力和发展空间 。 喜马拉雅等头部企业如何进一步利用AIGC的“智能大脑”助力内容创作 , 值得期待 。

    推荐阅读