阿里巴巴昨天刚开源了 CosyVoice3 ,属实是等了好久了 模型文件可以在huggingface或者modelscope上面下到
Fun-CosyVoice 3.0 是一个基于大型语言模型 (LLM) 的先进文本到语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然度方面超越了其前身 (CosyVoice 2.0)。它旨在实现零样本多语种野外语音合成。
| Model | Open-Source | Model Size | test-zh CER (%) ↓ |
test-zh Speaker Similarity (%) ↑ |
test-en WER (%) ↓ |
test-en Speaker Similarity (%) ↑ |
test-hard CER (%) ↓ |
test-hard Speaker Similarity (%) ↑ |
|---|---|---|---|---|---|---|---|---|
| Human | - | - | 1.26 | 75.5 | 2.14 | 73.4 | - | - |
| Seed-TTS | ❌ | - | 1.12 | 79.6 | 2.25 | 76.2 | 7.59 | 77.6 |
| MiniMax-Speech | ❌ | - | 0.83 | 78.3 | 1.65 | 69.2 | - | - |
| F5-TTS | ✅ | 0.3B | 1.52 | 74.1 | 2.00 | 64.7 | 8.67 | 71.3 |
| Spark TTS | ✅ | 0.5B | 1.2 | 66.0 | 1.98 | 57.3 | - | - |
| CosyVoice2 | ✅ | 0.5B | 1.45 | 75.7 | 2.57 | 65.9 | 6.83 | 72.4 |
| FireRedTTS2 | ✅ | 1.5B | 1.14 | 73.2 | 1.95 | 66.5 | - | - |
| Index-TTS2 | ✅ | 1.5B | 1.03 | 76.5 | 2.23 | 70.6 | 7.12 | 75.5 |
| VibeVoice-1.5B | ✅ | 1.5B | 1.16 | 74.4 | 3.04 | 68.9 | - | - |
| VibeVoice-Realtime | ✅ | 0.5B | - | - | 2.05 | 63.3 | - | - |
| HiggsAudio-v2 | ✅ | 3B | 1.50 | 74.0 | 2.44 | 67.7 | - | - |
| VoxCPM | ✅ | 0.5B | 0.93 | 77.2 | 1.85 | 72.9 | 8.87 | 73.0 |
| GLM-TTS | ✅ | 1.5B | 1.03 | 76.1 | - | - | - | - |
| GLM-TTS RL | ✅ | 1.5B | 0.89 | 76.4 | - | - | - | - |
| Fun-CosyVoice3-0.5B-2512 | ✅ | 0.5B | 1.21 | 78.0 | 2.24 | 71.8 | 6.71 | 75.8 |
| Fun-CosyVoice3-0.5B-2512_RL | ✅ | 0.5B | 0.81 | 77.4 | 1.68 | 69.5 | 5.44 | 75.0 |
看到性能表现这么好,今天就有点坐不住,在我之前原有的项目基础上升级了一波(把cosyvoice2模型升级到cosyvoice3 改了几个关键的推理用的代码),现在已经开源放出来了。项目地址在:https://github.com/Moeary/CosyVoiceDesktop
✓ 完全本地部署,无需调用 API
✓ 支持 4 种推理模式:零样本复刻、精细控制、指令控制、语音修补(hotfix,cosyvoice3 新增)
✓ 界面简洁易用,零代码基础即可使用
✓ 支持计划任务批量生成,效果不好可以重 roll ,支持多语言文混合
✓ 国内用户可通过 ModelScope 直接下载模型
✓ 支持 CPU 运行,但有 NVIDIA 的 GPU 会更快(release 包已经内置带 pytorch+cuda 的环境了 理论来说从 20 系到 50 系的支持 cuda12.8 的显卡都能跑,至于为什么选这个是因为 50 系最低的 cuda 限制是 12.8😭)

可以用于视频配音、游戏 NPC 对白、有声书制作、教程旁白等。
项目还在不断完善中,欢迎各位提 Issue 和 PR !
对了,如果觉得有用的话可以给个 Star 支持一下~
1
01802 1 天前 via Android
晚上回去试试看
|
2
root71370 1 天前 via Android
有没有好用的语音提取字幕的好用仓库呀
|
3
Moear OP @root71370 可以考虑一下[FunASR]( https://github.com/modelscope/FunASR) 里面带了很多 asr 模型可以直接导入使用,正好昨天新出了一个 FunASR nano 模型来着 做中文识别很不错,可惜暂时还不支持时间戳功能
|
4
noming 1 天前
怎么使用方言?是要自己找方言的示例文件然后放到 asset 文件夹后使用吗?
|
6
Bantes 1 天前
没使用场景,只能自娱自乐了
|
7
Frankcox 1 天前
请问有比较简单的微调处理界面工具吗?我一直用 GPT-Sovits 就是因为他的微调比较简单,Zero-Shot 效果一般,我手头有几个小时的音源,想要微调下。
|
8
noming 1 天前
参考文本和参考音频必须要填吗?
|
12
noming 1 天前
谢谢!
|
14
avrillavigne 1 天前
不错
|
16
Xhack 21 小时 17 分钟前
有没有 生成 Moss 的声音
|
17
MindMindMax 20 小时 50 分钟前
求教 op ,本地部署的显卡是啥?速度怎样?
|
18
linstrong 17 小时 24 分钟前
喜欢这种一键使用的,回去试试
|
19
Moear OP @Xhack 可以自行找一段 Moss 的 3s 到 10s 的无底噪的音频截取下来,来源可以是在 b 站搜一下[ [流浪地球①] MOSS/550W 语录/语音集 (自存)] 作为参考音频推理使用 现在的 tts 模型基本都支持了这种无训练方式复刻音色的功能了
|
20
Moear OP @MindMindMax 我自己的显卡是 4070m(笔记本 当做 4060ti 8gb 版本就行了) rtf(Real-Time Factor ,实时因子)大致在 0.8~1.6(越低越好 说明推理数值越快 rtf 是 1 的话就说明显卡花 1s 的算力可以推理出 1s 的音频来) 纯靠 cpu 的话我用 q1hy(13900hk es)的 rtf 大概是 10,30s 时间能推理出 3s 的音频来
|
21
shuxge1223 12 小时 41 分钟前
有个问题阿 OP ,我对于配音比较细致,这个能不能自定义多音字的标注,数字和英文发音标注,停顿什么的,更细致一些类似于魔音
|
22
MindMindMax 12 小时 17 分钟前
@Moear 那和我部署在 Apple m4 机器上的 推理的速度差不多啊。
|
23
Moear OP @shuxge1223 理论来说用精细控制模式可以做到 但我没咋用过这个精细控制模式
需要额外打标的,标签可以在 https://github.com/FunAudioLLM/CosyVoice/blob/a7d6e2251adb64f7cef595c5c71c5763cb1d162b/cosyvoice/tokenizer/tokenizer.py 里面找到,不过我目前就做了几个简单的打标快捷键,其他的 cosyvoice3 新增的暂时还没拉上来😂     |
24
Moear OP @MindMindMax 苹果大带宽的内存跑 ai 啥的还是挺香的😂
|