训练|DUI标注训练一体化平台全场景应用,识别体验持续提升!

“07---读 洞拐”
“什么是疱疹---什么是PORT”
“导航去fu南电视台---导航去湖南电视台”
“介个东西是我的---这个东西是我的”

训练|DUI标注训练一体化平台全场景应用,识别体验持续提升!
文章图片

人机自由交流的前景是漫长而渐进的 , 语音识别技术在细分场景持续落地 , 需要“因地制宜”提升识别效果 。
01语音识别的“三大考验” 噪声环境 。 目前对语音识别效果影响最大的就是环境杂音或噪音 , 在公共场所中 , 来自四面八方的声音会让识别系统不知所措 , 实验室环境下的优异表现可能在实际应用场景中被“吊打” 。 例如在高铁、地铁、公交等交通场景下 , 多种混合噪声降低了识别效果 , 进而影响用户在询路、购票、换乘过程中的交互体验 。
专业术语 。 大多数垂直应用场景都有自身的专业术语和指代用词 , 例如医疗场景中病症、医药名 , 门店销售场景中的奢侈品牌名称、型号 , 公安审讯场景中的敏感词汇 , 会议场景中的人名、地名等等 , 要求语音系统适应各种领域 , 还能准确识别特殊用词不是件容易事 。
多语言混合识别 。 “你好小驰 , hu(福)建今天天气怎么样?那fu(湖)南呢?”识别方言口音在生活中随处可见 , 伴随着AI技术拓展到了三、四线城市 , 智慧门店、地产售楼、汽车4S店等场景的应用都重在“入乡随俗” 。 此外 , 中英混杂、多语种等语言习惯也影响着识别效果 。
02场景驱动 , 定制模型提升识别率 思必驰推出DUI标注训练一体化平台是集成语音标注、模型自训练、识别测试、服务部署和团队管理于一体的一站式产品 , 提供数据标注-模型优化-测试评估-服务部署完整链路语音识别自主优化能力 , 支持私有化部署 , 协助企业在短期内实现识别效果“不可用->可用”的提升 , 实现快速更新响应 , 持续提升场景识别效果 。

训练|DUI标注训练一体化平台全场景应用,识别体验持续提升!
文章图片

目前 , 思必驰DUI标注训练一体化平台 , 已在医疗、政务、航空等多个行业领域得到应用 。 平台支持私有云一键化部署 , 未来也将以公有云的形式对外开放 , 用于语音识别优化 。 注册用户可全流程自主掌握 , 后续规模化的拓展也将触类旁通 。

训练|DUI标注训练一体化平台全场景应用,识别体验持续提升!
文章图片

会议场景:会议记录更细致
会议发言的实时转写、纠错与记录是现代办公的强需求 。 会议场景下的需求可以归纳为两方面:
1. 准确度高 , 即识别结果要准 。 行业领域常用语、专有名词、中英文混杂、人名职位等各种词汇篇章表述需要尽可能准确 。 借助平台进行语言和热词模型的训练 , 训练后的模型在会议真实场景下的识别率提升至95%以上 。 另外 , 使用语言模型增量训练模式 , 通过反复迭代 , 可以增强在某一个细分场景或领域下的识别效果 。 除此以外 , 大会场景下 , 可以针对领导发言人的用语习惯进行声学定制 , 系统持续自我“进化” , 模型将越用越智能 。
2. 阅读性强 , 即识别出的文本易于阅读 , 可懂度高 。 会议转写结果通常会是篇章段落 , 且多含有口语化表达 , 因此识别结果要通俗易懂 , 尤其在标点断句上要“通人性” 。 通过平台的标点、顺滑、断句模型训练可以输出符合众人阅读习惯的文本 。
航空通讯场景:语音质检更安全
航空通讯比通用场景复杂 , 除存在诸多QNH(海平面气压)类似的缩写词汇、专业术语外 , 断句、发音方式1(幺)、2(两)、7(拐)、0(洞)等 , 也比较特殊 。 只有精准识别座舱内飞行员之间、或与地面塔台间的沟通话术 , 才可有效确保飞行安全 。 用户通过DUI标注训练一体化平台可进行语言+声学+标点的自训练 , 实现标点断句自动化全量质检 , 降低了人工成本 , 提升沟通效率 , 保障飞行安全 。 在已有落地案例中 , 实现了识别准确率相对提升40% 。
医疗场景:专业术语更精准
医疗场景的应用不仅面临器械噪声、候诊人群说话声等背景噪声 , 还面临着专业科室、专家名、病症等专业术语 , 例如 , “血压150毫米汞柱“、“推 XX Mg液体” 。 语音识别的准确性关乎诊断结果的正确输出 。 DUI标注训练一体化平台模型在对词汇、语句、发音优化后 , 实现识别准确率相对提升40% , 在医疗垂直领域下的效果更佳 。 平台的私有化部署 , 可将患者隐私存储在医院自建机房中 , 确保数据安全 。
城市交通:风暴降噪更清晰
风噪、路噪、发动机噪声等多重环境噪音是城市交通场景应用的一大难题 。 DUI标注训练一体化平台通过思必驰VDCNN自研算法降噪 , 针对交通场景深度学习 , 在嘈杂环境下也能耳听八方 。 同时 , 支持普通话/中英混合/英语/粤川沪等多语种及方言的识别 , “入乡随俗”准确识别“??(lei)岗站、“东涌(chong)站”等冷门、多音字的站名 , 让乘客通过咨询机进行语音问询、购票更自由 。
数字化门店:消费者服务更个性
在各类门店中 , 服务人员可佩戴着蓝牙耳麦、智能录音工牌与客户交谈 , AI辅助服务行业数字化转型 。
例如在地产售楼场景中 , 精细化语音识别效果 , 强化对方言口音、“预算”、“产权”等行业关键词的识别 。 餐饮店内 , 记录下最受欢迎的“菜品名” 。 汽车4S店中 , 通过对“排放量”、“品牌名”、等高频词汇识别 , 进行用户画像分析 。 不仅可以规范员工的服务话术 , 更能基于大数据洞察用户需求 , 给出针对性方案提升签单转化率 。
语音识别优化是一个漫长的过程 , 伴随海量数据不断更新 , 语音识别准确率将持续提升 。
【训练|DUI标注训练一体化平台全场景应用,识别体验持续提升!】智能经济形态下 , 以AI为技术手段 , 赋能产业形态转型升级是思必驰所愿 。 将自主定制的主动权交给用户 , 让智能语音交互技术持续下沉 , 赋予各行业投入智能化浪潮的自由权利 , 或许智能化故事才刚刚开始 。

    推荐阅读