目前开源语音克隆项目百花齐放,本文整理了 GitHub 上最热门的项目,对比各自的架构、语言支持、适用场景,帮你快速选型。
Stars 排行榜
| 排名 | 项目 | Stars | 核心特点 |
|---|---|---|---|
| 1 | Real-Time-Voice-Cloning | ~60k | 经典三阶段流水线,最早流行的克隆项目 |
| 2 | GPT-SoVITS | ~58k | 中文最强,1分钟数据即可微调 |
| 3 | Coqui TTS (XTTS) | ~45k | 工业级框架,17种语言,3秒零样本 |
| 4 | ChatTTS | ~39k | 中文对话语音质量领先,支持笑声停顿等 |
| 5 | Bark | ~39k | 创意音频,可生成笑声/哭声/背景音效 |
| 6 | MockingBird | ~37k | 中文版 Real-Time-Voice-Cloning |
| 7 | OpenVoice | ~37k | 音色迁移架构,推理极快 |
| 8 | RVC | ~36k | 歌声转换首选,支持实时变声 |
| 9 | Fish Speech | ~31k | 端到端,多语言,工业级质量 |
| 10 | so-vits-svc | ~28k | AI翻唱鼻祖,歌声克隆质量极高 |
| 11 | Chatterbox | ~25k | Resemble AI开源,情感可控 |
| 12 | CosyVoice | ~21k | 阿里出品,LLM+流匹配,5种语言 |
| 13 | Index-TTS | ~21k | bilibili出品,工业级稳定 |
| 14 | F5-TTS | ~15k | 流匹配,非自回归,推理快 |
| 15 | OmniVoice | ~6.6k | 支持600+语言,扩散语言模型 |
完整对比表
| 项目 | 架构 | 支持语言 | 零样本克隆 | 推理速度 | 需要训练 | 最适合场景 |
|---|---|---|---|---|---|---|
| Real-Time-Voice-Cloning | 三阶段流水线 | 英文 | 是(5s) | 接近实时 | 否 | 学习/原型验证 |
| GPT-SoVITS | GPT + VITS | 中/英/日 | 是(可微调) | 中等 | 可选 | 中文配音首选 |
| Coqui TTS | 多架构框架 | 17种 | 是(3s) | 中等 | 否 | 多语言生产部署 |
| Bark | 自回归LM | 13种 | 弱 | 慢 | 否 | 创意/情感音频 |
| ChatTTS | 生成式LM | 中/英 | 是 | 中等 | 否 | 中文对话TTS |
| MockingBird | 三阶段流水线 | 中/英 | 是(5s) | 接近实时 | 否 | 中文克隆 |
| OpenVoice | 音色迁移 | 6种 | 是 | 极快 | 否 | 快速克隆部署 |
| RVC | VITS + 特征检索 | 语言无关 | 需少量训练 | 实时 | 是(<10min) | 歌声/实时变声 |
| Fish Speech | 端到端AR + VQGAN | 8+种 | 是(10s) | 快 | 否 | 高质量多语言 |
| so-vits-svc | SoftVC + VITS | 语言无关 | 需训练 | 中等 | 是 | AI翻唱 |
| Chatterbox | s3gen + 扩散 | 英文 | 是 | 快 | 否 | 英语情感配音 |
| CosyVoice | LLM + 流匹配 | 中/英/日/粤/韩 | 是(3-10s) | 快 | 否 | 商业TTS服务 |
| Index-TTS | GPT-style | 中/英 | 是 | 快 | 否 | 工业生产 |
| Tortoise TTS | 自回归 + 扩散 | 英文 | 是 | 慢 | 否 | 高质量英语有声书 |
| F5-TTS | 流匹配 DiT | 中/英 | 是 | 快 | 否 | 快速零样本克隆 |
| StyleTTS2 | 扩散 + SLM | 英文 | 是 | 中等 | 否 | 英语质量基准 |
| VALL-E-X | 神经编解码LM | 英/中/日 | 是 | 中等 | 否 | 跨语言克隆 |
| Kokoro | StyleTTS2变体 | 英+中日韩法 | 否(固定音色) | 极快 | 否 | 本地轻量部署 |
| OmniVoice | 扩散语言模型 | 600+种 | 是 | 快 | 否 | 超多语言 |
| EmotiVoice | BERT + TTS | 中/英 | 有限 | 中等 | 否 | 情感化中文TTS |
| VoiceCraft | 自回归 + 码书重排 | 英文 | 是 | 中等 | 否 | 语音片段编辑 |
| Qwen3-TTS | LLM-native | 多语言 | 是 | 中等 | 否 | 与LLM集成 |
| MetaVoice | 自回归 + 扩散(1B) | 英文 | 是(30s) | 中等 | 否 | 高质量英语克隆 |
| Parler-TTS | 描述控制TTS | 英文 | 文本描述控制 | 中等 | 否 | 可控TTS研究 |
| ZipVoice | 流匹配 + 蒸馏 | 中/英 | 是 | 极快 | 否 | 低延迟实时TTS |
| ESPnet | 多架构工具包 | 多语言 | 有 | 依模型 | 通常需要 | 学术研究 |
按使用场景推荐
中文语音克隆
GPT-SoVITS > ChatTTS > CosyVoice > Index-TTS
GPT-SoVITS 是目前中文效果最好的开源方案,1分钟数据即可微调出高质量声音。ChatTTS 在对话场景下自然度极佳,支持停顿、笑声等口语特征。
歌声转换 / AI翻唱
RVC > so-vits-svc > Applio(RVC fork)
RVC 是目前最成熟的方案,训练数据 <10 分钟即可,支持实时变声。Applio 是其最活跃的社区 fork,界面更友好。
多语言(非中文)
OmniVoice(600+)> Coqui XTTS(17种)> Fish Speech(8+)> CosyVoice(5种)
OmniVoice 覆盖语言最广,适合低资源语言。XTTS 在常见语言上质量更稳定。
本地轻量部署(CPU/低配机器)
Kokoro-82M > ZipVoice > FastSpeech2
Kokoro-82M 只有 82M 参数,CPU 上也能快速推理,质量出人意料地高。
英语高质量配音
Chatterbox > StyleTTS2 > MetaVoice > Tortoise TTS
Chatterbox 是 Resemble AI 开源的最新旗舰,情感可控,质量高,支持流式输出。
语音编辑(修改已有录音中的某几个词)
VoiceCraft(目前唯一专注此场景的开源方案)
创意/情感音频(笑声、哭声、背景音效)
Bark(唯一能生成非语音音效的 TTS)
架构演进脉络
2021 VITS(端到端VAE-GAN,奠基架构)
↓
2022 Tortoise TTS(自回归+扩散,高质量英语)
VALL-E(神经编解码语言模型,微软)
↓
2023 Bark(自回归LM,多模态音频)
so-vits-svc / RVC(音色转换爆发)
StyleTTS2(扩散+SLM,英语SOTA)
↓
2024 GPT-SoVITS(中文克隆爆发)
F5-TTS / E2-TTS(流匹配,非自回归崛起)
CosyVoice(LLM+流匹配,阿里)
Fish Speech(端到端多语言)
OmniVoice(600+语言,扩散LM)
↓
2025 ChatTTS(中文对话)
Chatterbox(情感可控)
Index-TTS(工业级)
ZipVoice(蒸馏加速)
Qwen3-TTS(LLM-native)
一句话总结
- 想克隆中文声音 → GPT-SoVITS
- 想做AI翻唱 → RVC
- 想支持多种语言 → OmniVoice / Coqui XTTS
- 想本地跑不吃资源 → Kokoro-82M
- 想玩创意音频 → Bark
- 想要工业级稳定 → CosyVoice / Index-TTS
- 想编辑已有录音 → VoiceCraft