语音克隆（二）：主流开源项目全景对比

目前开源语音克隆项目百花齐放，本文整理了 GitHub 上最热门的项目，对比各自的架构、语言支持、适用场景，帮你快速选型。

Stars 排行榜

排名	项目	Stars	核心特点
1	Real-Time-Voice-Cloning	~60k	经典三阶段流水线，最早流行的克隆项目
2	GPT-SoVITS	~58k	中文最强，1分钟数据即可微调
3	Coqui TTS (XTTS)	~45k	工业级框架，17种语言，3秒零样本
4	ChatTTS	~39k	中文对话语音质量领先，支持笑声停顿等
5	Bark	~39k	创意音频，可生成笑声/哭声/背景音效
6	MockingBird	~37k	中文版 Real-Time-Voice-Cloning
7	OpenVoice	~37k	音色迁移架构，推理极快
8	RVC	~36k	歌声转换首选，支持实时变声
9	Fish Speech	~31k	端到端，多语言，工业级质量
10	so-vits-svc	~28k	AI翻唱鼻祖，歌声克隆质量极高
11	Chatterbox	~25k	Resemble AI开源，情感可控
12	CosyVoice	~21k	阿里出品，LLM+流匹配，5种语言
13	Index-TTS	~21k	bilibili出品，工业级稳定
14	F5-TTS	~15k	流匹配，非自回归，推理快
15	OmniVoice	~6.6k	支持600+语言，扩散语言模型

完整对比表

项目	架构	支持语言	零样本克隆	推理速度	需要训练	最适合场景
Real-Time-Voice-Cloning	三阶段流水线	英文	是（5s）	接近实时	否	学习/原型验证
GPT-SoVITS	GPT + VITS	中/英/日	是（可微调）	中等	可选	中文配音首选
Coqui TTS	多架构框架	17种	是（3s）	中等	否	多语言生产部署
Bark	自回归LM	13种	弱	慢	否	创意/情感音频
ChatTTS	生成式LM	中/英	是	中等	否	中文对话TTS
MockingBird	三阶段流水线	中/英	是（5s）	接近实时	否	中文克隆
OpenVoice	音色迁移	6种	是	极快	否	快速克隆部署
RVC	VITS + 特征检索	语言无关	需少量训练	实时	是（<10min）	歌声/实时变声
Fish Speech	端到端AR + VQGAN	8+种	是（10s）	快	否	高质量多语言
so-vits-svc	SoftVC + VITS	语言无关	需训练	中等	是	AI翻唱
Chatterbox	s3gen + 扩散	英文	是	快	否	英语情感配音
CosyVoice	LLM + 流匹配	中/英/日/粤/韩	是（3-10s）	快	否	商业TTS服务
Index-TTS	GPT-style	中/英	是	快	否	工业生产
Tortoise TTS	自回归 + 扩散	英文	是	慢	否	高质量英语有声书
F5-TTS	流匹配 DiT	中/英	是	快	否	快速零样本克隆
StyleTTS2	扩散 + SLM	英文	是	中等	否	英语质量基准
VALL-E-X	神经编解码LM	英/中/日	是	中等	否	跨语言克隆
Kokoro	StyleTTS2变体	英+中日韩法	否（固定音色）	极快	否	本地轻量部署
OmniVoice	扩散语言模型	600+种	是	快	否	超多语言
EmotiVoice	BERT + TTS	中/英	有限	中等	否	情感化中文TTS
VoiceCraft	自回归 + 码书重排	英文	是	中等	否	语音片段编辑
Qwen3-TTS	LLM-native	多语言	是	中等	否	与LLM集成
MetaVoice	自回归 + 扩散(1B)	英文	是（30s）	中等	否	高质量英语克隆
Parler-TTS	描述控制TTS	英文	文本描述控制	中等	否	可控TTS研究
ZipVoice	流匹配 + 蒸馏	中/英	是	极快	否	低延迟实时TTS
ESPnet	多架构工具包	多语言	有	依模型	通常需要	学术研究

按使用场景推荐

中文语音克隆

GPT-SoVITS > ChatTTS > CosyVoice > Index-TTS

GPT-SoVITS 是目前中文效果最好的开源方案，1分钟数据即可微调出高质量声音。ChatTTS 在对话场景下自然度极佳，支持停顿、笑声等口语特征。

歌声转换 / AI翻唱

RVC > so-vits-svc > Applio（RVC fork）

RVC 是目前最成熟的方案，训练数据 <10 分钟即可，支持实时变声。Applio 是其最活跃的社区 fork，界面更友好。

多语言（非中文）

OmniVoice（600+）> Coqui XTTS（17种）> Fish Speech（8+）> CosyVoice（5种）

OmniVoice 覆盖语言最广，适合低资源语言。XTTS 在常见语言上质量更稳定。

本地轻量部署（CPU/低配机器）

Kokoro-82M > ZipVoice > FastSpeech2

Kokoro-82M 只有 82M 参数，CPU 上也能快速推理，质量出人意料地高。

英语高质量配音

Chatterbox > StyleTTS2 > MetaVoice > Tortoise TTS

Chatterbox 是 Resemble AI 开源的最新旗舰，情感可控，质量高，支持流式输出。

语音编辑（修改已有录音中的某几个词）

VoiceCraft（目前唯一专注此场景的开源方案）

创意/情感音频（笑声、哭声、背景音效）

Bark（唯一能生成非语音音效的 TTS）

架构演进脉络

2021  VITS（端到端VAE-GAN，奠基架构）
       ↓
2022  Tortoise TTS（自回归+扩散，高质量英语）
       VALL-E（神经编解码语言模型，微软）
       ↓
2023  Bark（自回归LM，多模态音频）
       so-vits-svc / RVC（音色转换爆发）
       StyleTTS2（扩散+SLM，英语SOTA）
       ↓
2024  GPT-SoVITS（中文克隆爆发）
       F5-TTS / E2-TTS（流匹配，非自回归崛起）
       CosyVoice（LLM+流匹配，阿里）
       Fish Speech（端到端多语言）
       OmniVoice（600+语言，扩散LM）
       ↓
2025  ChatTTS（中文对话）
       Chatterbox（情感可控）
       Index-TTS（工业级）
       ZipVoice（蒸馏加速）
       Qwen3-TTS（LLM-native）

一句话总结

想克隆中文声音 → GPT-SoVITS
想做AI翻唱 → RVC
想支持多种语言 → OmniVoice / Coqui XTTS
想本地跑不吃资源 → Kokoro-82M
想玩创意音频 → Bark
想要工业级稳定 → CosyVoice / Index-TTS
想编辑已有录音 → VoiceCraft

Stars 排行榜#

完整对比表#

按使用场景推荐#

中文语音克隆#

歌声转换 / AI翻唱#

多语言（非中文）#

本地轻量部署（CPU/低配机器）#

英语高质量配音#

语音编辑（修改已有录音中的某几个词）#

创意/情感音频（笑声、哭声、背景音效）#

架构演进脉络#

一句话总结#