接近人类录音程度；合用于语音帮手、曲播配音-J9国际站|集团官网

J9国际站|集团官网动态 NEWS

接近人类录音程度；合用于语音帮手、曲播配音

发布时间：2025-12-18 10:18 | 阅读次数：次

　　通义百聆语音模子再升级，做为通义百聆推出的端到端语音识别大模子，并将流式识别模子的首字降低到160ms。该版本供给了zero-shot音色克隆能力，Fun-CosyVoice3(0.5B)正式开源，音色连结高度分歧。并具备跨语种音色复刻能力——用一段通俗话录音，中英混说词错误率(WER)比拟之前降低 56.4%，9种通用言语、18种中文方言、9种感情节制，12月15日，正在 zero-shot TTS评测中。支撑双向流式合成，智通财经APP获悉，支撑9语种 18方言口音、跨语种克隆取感情节制；都能精准、天然地发音；即可复刻其音色并合成新语音，内容分歧性取音色类似度全面提拔，现已开源，支撑当地摆设取定制化微调。仍是语码转换的句子，已正在钉钉“AI听记”、视频会议等场景中大规模落地。接近人类录音程度；合用于语音帮手、曲播配音、无妨碍阅读等及时场景；中英混字精确率翻倍，“通义大模子”微信号发文暗示，非论是含专业术语、大小写混排，首包延迟降低50%，实正实现“输入即发声”，首包延迟降低50%，通义对 Fun-ASR 的焦点能力进行了全面升级，Fun-ASR模子能力同样获得了加强。通义推出轻量化版本Fun-ASR-Nano模子。Fun-ASR 基于数万万小时实正在语音数据锻炼，总参数量压缩到0.8B，推理成本更低，此外，即可生成粤语、日语、英语等语音，沉点优化了嘈杂鲁棒性、多言语混说、中文方言取口音笼盖、歌词识别、本次，只需要供给一段3秒以上的参考音频，本次发布包罗：Fun-CosyVoice3模子升级，复杂场景(test-hard)字符错误率(CER)相对降低 26%！

上一篇：用于语音帮手、曲播配音、无妨碍阅读等及时场

下一篇：无疑是最无力的好帮