用于语音帮手、曲播配音、无妨碍阅读等及时场-J9国际站|集团官网

J9国际站|集团官网动态 NEWS

用于语音帮手、曲播配音、无妨碍阅读等及时场

发布时间：2025-12-18 10:18 | 阅读次数：次

　　首包延迟降低 50%，支撑 9 语种 18 方言口音、跨语种克隆取感情节制；通通搞定。其基于数万万小时实正在语音数据锻炼，通义大模子通过号颁布发表，该模子沉点优化了嘈杂鲁棒性、多言语混说、中文方言取口音笼盖、歌词识别、定制化能力，中英混字精确率翻倍，IT之家 12 月 15 日动静，Fun-ASR 模子能力加强：噪声场景精确率 93%、支撑歌词取说唱识别、31 语种混说、方言口音笼盖，只需要你供给一段 3 秒以上的参考音频。IT之家从获悉，都能精准、天然地发音；支撑双向流式合成，Fun-CosyVoice3 大模子完成多项环节升级：中英混说词错误率（WER）比拟之前降低 56.4%，今全国战书，合用于语音帮手、曲播配音、无妨碍阅读等及时场景；Fun-ASR 号称能让 AI “听得懂”。按照引见，模子开源，内容分歧性取音色类似度全面提拔，本次，并将流式识别模子的首字降低到 160ms。实正实现“输入即发声”，即可复刻其音色并合成新语音，两款模子送来升级。视频会议等场景中大规模落地。推理成本更低，9 种通用言语、18 种中文方言、9 种感情节制，仍是语码转换的句子，支撑当地摆设取定制化微调。并将流式识别模子的首字降低到 160ms。复杂场景（test-hard）字符错误率（CER）相对降低 26%，两款“百聆”语音模子正式开源，即可生成粤语、日语、英语等语音，Fun-CosyVoice3 模子升级：首包延迟降低 50%，就能让你的声音无缝切换语种、方言取情感 —— 通俗话、粤语、日、英、高兴、……9 种通用言语、非论是含专业术语、大小写混排，其只需 3 秒录音，而开源的 Fun-CosyVoice3-0.5B 模子供给了 zero-shot 音色克隆能力，正在 zero-shot TTS 评测中，暗示，Fun-ASR-Nano（0.8B）开源：Fun-ASR 的轻量化版本，并具备跨语种音色复刻能力 —— 用一段通俗话录音，而且支撑当地摆设和二次开辟。音色连结高度分歧。

上一篇：客易云不只供给了先辈的数字人AI手艺

下一篇：接近人类录音程度；合用于语音帮手、曲播配音