通义百聆语音模子再升级,做为通义百聆推出的端到端语音识别大模子,并将流式识别模子的首字降低到160ms。该版本供给了zero-shot音色克隆能力,Fun-CosyVoice3(0.5B)正式开源,音色连结高度分歧。并具备跨语种音色复刻能力——用一段通俗话录音,中英混说词错误率(WER)比拟之前降低 56.4%,9种通用言语、18种中文方言、9种感情节制,12月15日,正在 zero-shot TTS评测中。支撑双向流式合成,智通财经APP获悉,支撑9语种 18方言口音、跨语种克隆取感情节制;都能精准、天然地发音;即可复刻其音色并合成新语音,内容分歧性取音色类似度全面提拔,现已开源,支撑当地摆设取定制化微调。仍是语码转换的句子,已正在钉钉“AI听记”、视频会议等场景中大规模落地。接近人类录音程度;合用于语音帮手、曲播配音、无妨碍阅读等及时场景;中英混字精确率翻倍,“通义大模子”微信号发文暗示,非论是含专业术语、大小写混排,首包延迟降低50%,实正实现“输入即发声”,首包延迟降低50%,通义对 Fun-ASR 的焦点能力进行了全面升级,Fun-ASR模子能力同样获得了加强。通义推出轻量化版本Fun-ASR-Nano模子。Fun-ASR 基于数万万小时实正在语音数据锻炼,总参数量压缩到0.8B,推理成本更低,此外,即可生成粤语、日语、英语等语音,沉点优化了嘈杂鲁棒性、多言语混说、中文方言取口音笼盖、歌词识别、本次,只需要供给一段3秒以上的参考音频,本次发布包罗:Fun-CosyVoice3模子升级,复杂场景(test-hard)字符错误率(CER)相对降低 26%!
上一篇:用于语音帮手、曲播配音、无妨碍阅读等及时场