目前开源语音克隆项目百花齐放,本文整理了 GitHub 上最热门的项目,对比各自的架构、语言支持、适用场景,帮你快速选型。


Stars 排行榜

排名 项目 Stars 核心特点
1 Real-Time-Voice-Cloning ~60k 经典三阶段流水线,最早流行的克隆项目
2 GPT-SoVITS ~58k 中文最强,1分钟数据即可微调
3 Coqui TTS (XTTS) ~45k 工业级框架,17种语言,3秒零样本
4 ChatTTS ~39k 中文对话语音质量领先,支持笑声停顿等
5 Bark ~39k 创意音频,可生成笑声/哭声/背景音效
6 MockingBird ~37k 中文版 Real-Time-Voice-Cloning
7 OpenVoice ~37k 音色迁移架构,推理极快
8 RVC ~36k 歌声转换首选,支持实时变声
9 Fish Speech ~31k 端到端,多语言,工业级质量
10 so-vits-svc ~28k AI翻唱鼻祖,歌声克隆质量极高
11 Chatterbox ~25k Resemble AI开源,情感可控
12 CosyVoice ~21k 阿里出品,LLM+流匹配,5种语言
13 Index-TTS ~21k bilibili出品,工业级稳定
14 F5-TTS ~15k 流匹配,非自回归,推理快
15 OmniVoice ~6.6k 支持600+语言,扩散语言模型

完整对比表

项目 架构 支持语言 零样本克隆 推理速度 需要训练 最适合场景
Real-Time-Voice-Cloning 三阶段流水线 英文 是(5s) 接近实时 学习/原型验证
GPT-SoVITS GPT + VITS 中/英/日 是(可微调) 中等 可选 中文配音首选
Coqui TTS 多架构框架 17种 是(3s) 中等 多语言生产部署
Bark 自回归LM 13种 创意/情感音频
ChatTTS 生成式LM 中/英 中等 中文对话TTS
MockingBird 三阶段流水线 中/英 是(5s) 接近实时 中文克隆
OpenVoice 音色迁移 6种 极快 快速克隆部署
RVC VITS + 特征检索 语言无关 需少量训练 实时 是(<10min) 歌声/实时变声
Fish Speech 端到端AR + VQGAN 8+种 是(10s) 高质量多语言
so-vits-svc SoftVC + VITS 语言无关 需训练 中等 AI翻唱
Chatterbox s3gen + 扩散 英文 英语情感配音
CosyVoice LLM + 流匹配 中/英/日/粤/韩 是(3-10s) 商业TTS服务
Index-TTS GPT-style 中/英 工业生产
Tortoise TTS 自回归 + 扩散 英文 高质量英语有声书
F5-TTS 流匹配 DiT 中/英 快速零样本克隆
StyleTTS2 扩散 + SLM 英文 中等 英语质量基准
VALL-E-X 神经编解码LM 英/中/日 中等 跨语言克隆
Kokoro StyleTTS2变体 英+中日韩法 否(固定音色) 极快 本地轻量部署
OmniVoice 扩散语言模型 600+种 超多语言
EmotiVoice BERT + TTS 中/英 有限 中等 情感化中文TTS
VoiceCraft 自回归 + 码书重排 英文 中等 语音片段编辑
Qwen3-TTS LLM-native 多语言 中等 与LLM集成
MetaVoice 自回归 + 扩散(1B) 英文 是(30s) 中等 高质量英语克隆
Parler-TTS 描述控制TTS 英文 文本描述控制 中等 可控TTS研究
ZipVoice 流匹配 + 蒸馏 中/英 极快 低延迟实时TTS
ESPnet 多架构工具包 多语言 依模型 通常需要 学术研究

按使用场景推荐

中文语音克隆

GPT-SoVITS > ChatTTS > CosyVoice > Index-TTS

GPT-SoVITS 是目前中文效果最好的开源方案,1分钟数据即可微调出高质量声音。ChatTTS 在对话场景下自然度极佳,支持停顿、笑声等口语特征。

歌声转换 / AI翻唱

RVC > so-vits-svc > Applio(RVC fork)

RVC 是目前最成熟的方案,训练数据 <10 分钟即可,支持实时变声。Applio 是其最活跃的社区 fork,界面更友好。

多语言(非中文)

OmniVoice(600+)> Coqui XTTS(17种)> Fish Speech(8+)> CosyVoice(5种)

OmniVoice 覆盖语言最广,适合低资源语言。XTTS 在常见语言上质量更稳定。

本地轻量部署(CPU/低配机器)

Kokoro-82M > ZipVoice > FastSpeech2

Kokoro-82M 只有 82M 参数,CPU 上也能快速推理,质量出人意料地高。

英语高质量配音

Chatterbox > StyleTTS2 > MetaVoice > Tortoise TTS

Chatterbox 是 Resemble AI 开源的最新旗舰,情感可控,质量高,支持流式输出。

语音编辑(修改已有录音中的某几个词)

VoiceCraft(目前唯一专注此场景的开源方案)

创意/情感音频(笑声、哭声、背景音效)

Bark(唯一能生成非语音音效的 TTS)


架构演进脉络

2021  VITS(端到端VAE-GAN,奠基架构)
       ↓
2022  Tortoise TTS(自回归+扩散,高质量英语)
       VALL-E(神经编解码语言模型,微软)
       ↓
2023  Bark(自回归LM,多模态音频)
       so-vits-svc / RVC(音色转换爆发)
       StyleTTS2(扩散+SLM,英语SOTA)
       ↓
2024  GPT-SoVITS(中文克隆爆发)
       F5-TTS / E2-TTS(流匹配,非自回归崛起)
       CosyVoice(LLM+流匹配,阿里)
       Fish Speech(端到端多语言)
       OmniVoice(600+语言,扩散LM)
       ↓
2025  ChatTTS(中文对话)
       Chatterbox(情感可控)
       Index-TTS(工业级)
       ZipVoice(蒸馏加速)
       Qwen3-TTS(LLM-native)

一句话总结

  • 想克隆中文声音 → GPT-SoVITS
  • 想做AI翻唱 → RVC
  • 想支持多种语言 → OmniVoice / Coqui XTTS
  • 想本地跑不吃资源 → Kokoro-82M
  • 想玩创意音频 → Bark
  • 想要工业级稳定 → CosyVoice / Index-TTS
  • 想编辑已有录音 → VoiceCraft