声学|这波钉钉搞音频实验室，真没蹭热点( 二 )_

文章插图
结合两方面的信息，钉钉成立“实验室”这一看上去不合常情的举措，也就有了更为明确的解释：相比达摩院更侧重于基础理论型研究，蜂鸣鸟音频实验室主打应用型研究——研究方向与钉钉音视频的场景结合更为紧密。冯津伟博士表示，这其实也是云钉一体给钉钉带来的更深入的价值——从横向支持到走进来专项做业务。“因为钉钉这个独特的商业环境，每一项技术都直接能被用户感知到，所以蜂鸣鸟音频实验室的风格会在技术的理想主义和现实主义之间。我们的定位是研究‘领先半步到一步’的技术，既具有领先性，又能落地。”冯津伟这样解释。并且具体到团队本身，研究基础早已具备，实验室成立亦能加速技术的聚拢和落地。

文章插图
说到这里，最关键的问题也可以展开解答了：这个时间节点，明确提出瞄准“下一代音视频形态研究”，还和产品结合如此紧密，钉钉莫非真的如外界所猜测，要在微软Meta之后，加速冲向元宇宙了？做领先半步到一步的技术冯津伟博士的答案很明确：否。他指出，XR是蜂鸣鸟音频实验室的一个研究方向，但实验室的核心目标还是围绕音频的基础能力建设与创新，最优先要做的，还是改善钉钉音视频的软硬件体验。甚至归纳起来时，钉钉蜂鸣鸟音频实验室成立的真实原因，比想象中要更加朴素——无论是从自身业务角度、还是从整个行业来看，音频都是一块必须要补的技术“短板”。

文章插图
在冯津伟看来，站在行业角度，音频技术在会议场景下其实还有很大的发展空间。甚至“音频技术研发的优先级应该大于视频技术”。他引用了音视频行业的一句名言：No video, people talk; no audio, people walk.（即使没有视频，人们还能在会议中聊天；但没有音频的话，人们就只能散会了）而包括弱网场景、3D音频、个性化降噪在内的音频技术，其实更是下一代交互技术（如跟元宇宙紧密结合的XR）的核心体验要点。但目前的现状却是，像微软、Meta这样的大型互联网公司，在视频技术上已经有不少储备。相比之下，大部分会议软件在音频技术上，投入都相对较少，整体也还没有太大的动作。

文章插图
一个最常见的场景就是开会，我们在开视频会议时，如果用的是手机、电脑自带的麦克风，就会发现稍远一点距离就听不清了；有几个人争论，AI速记软件就傻傻分不清楚了，一堆看不懂的文字纪要出来了；如果会议室混响很大，别说AI速记软件，回音的影响下，人也是听不清了。这是音频研究上最基础的拾音问题。无论是视频会议，还是语音识别，除非对着麦克风说话，都会面临这项难题。实际上，远场拾音一直是业界的难点与痛点，挑战来自在闭空间中的混响、噪声、回波，其中去混响曾被美国工程院列为“当代未解决的十大工程问题之一”，学术界和工业界已经研究了几十年，目前仍没有完美的解决方案。所以，蜂鸣鸟音频实验室接下来重点要做的，就是在更基础的音频技术上进行突破，并从这个角度出发，改变钉钉、钉钉合作伙伴直至产业的现状。背后的具体技术路线，也已经可以从团队研发储备中推测出来。比如针对前文中远场拾音的麦克风阵列技术，这一技术主要负责声音信号的定位和提取。光是去年一年，冯津伟带领的团队就在INTER-SPEECH等国际音频顶会上，主导发表了系列论文6篇，均与自研的“指向性差分麦克风阵列”技术有关。这项研究首次将麦克风声学特性和差分波束理论的优势进行结合，明显改善了语音低频拾音的鲁棒性，将差分波束在低频段的白噪声增益明显提升，并将远场拾音的语音识别准确率提升至行业TOP 1，比第二名高出7%~9%。另外，以差分阵列为载体，冯津伟团队还和相关团队合作，提出了业界首个利用差分阵列计算空间方位信息，用于角色分离的技术框架。也积极参与了业界首个基于指向性麦克风阵列的大规模远场语音开源数据集建设。