语音克隆（二）：主流开源项目全景对比

Tue, 26 May 2026 00:00:00 +0000

目前开源语音克隆项目百花齐放，本文整理了 GitHub 上最热门的项目，对比各自的架构、语言支持、适用场景，帮你快速选型。

Stars 排行榜

排名	项目	Stars	核心特点
1	Real-Time-Voice-Cloning	~60k	经典三阶段流水线，最早流行的克隆项目
2	GPT-SoVITS	~58k	中文最强，1分钟数据即可微调
3	Coqui TTS (XTTS)	~45k	工业级框架，17种语言，3秒零样本
4	ChatTTS	~39k	中文对话语音质量领先，支持笑声停顿等
5	Bark	~39k	创意音频，可生成笑声/哭声/背景音效
6	MockingBird	~37k	中文版 Real-Time-Voice-Cloning
7	OpenVoice	~37k	音色迁移架构，推理极快
8	RVC	~36k	歌声转换首选，支持实时变声
9	Fish Speech	~31k	端到端，多语言，工业级质量
10	so-vits-svc	~28k	AI翻唱鼻祖，歌声克隆质量极高
11	Chatterbox	~25k	Resemble AI开源，情感可控
12	CosyVoice	~21k	阿里出品，LLM+流匹配，5种语言
13	Index-TTS	~21k	bilibili出品，工业级稳定
14	F5-TTS	~15k	流匹配，非自回归，推理快
15	OmniVoice	~6.6k	支持600+语言，扩散语言模型

完整对比表

项目	架构	支持语言	零样本克隆	推理速度	需要训练	最适合场景
Real-Time-Voice-Cloning	三阶段流水线	英文	是（5s）	接近实时	否	学习/原型验证
GPT-SoVITS	GPT + VITS	中/英/日	是（可微调）	中等	可选	中文配音首选
Coqui TTS	多架构框架	17种	是（3s）	中等	否	多语言生产部署
Bark	自回归LM	13种	弱	慢	否	创意/情感音频
ChatTTS	生成式LM	中/英	是	中等	否	中文对话TTS
MockingBird	三阶段流水线	中/英	是（5s）	接近实时	否	中文克隆
OpenVoice	音色迁移	6种	是	极快	否	快速克隆部署
RVC	VITS + 特征检索	语言无关	需少量训练	实时	是（<10min）	歌声/实时变声
Fish Speech	端到端AR + VQGAN	8+种	是（10s）	快	否	高质量多语言
so-vits-svc	SoftVC + VITS	语言无关	需训练	中等	是	AI翻唱
Chatterbox	s3gen + 扩散	英文	是	快	否	英语情感配音
CosyVoice	LLM + 流匹配	中/英/日/粤/韩	是（3-10s）	快	否	商业TTS服务
Index-TTS	GPT-style	中/英	是	快	否	工业生产
Tortoise TTS	自回归 + 扩散	英文	是	慢	否	高质量英语有声书
F5-TTS	流匹配 DiT	中/英	是	快	否	快速零样本克隆
StyleTTS2	扩散 + SLM	英文	是	中等	否	英语质量基准
VALL-E-X	神经编解码LM	英/中/日	是	中等	否	跨语言克隆
Kokoro	StyleTTS2变体	英+中日韩法	否（固定音色）	极快	否	本地轻量部署
OmniVoice	扩散语言模型	600+种	是	快	否	超多语言
EmotiVoice	BERT + TTS	中/英	有限	中等	否	情感化中文TTS
VoiceCraft	自回归 + 码书重排	英文	是	中等	否	语音片段编辑
Qwen3-TTS	LLM-native	多语言	是	中等	否	与LLM集成
MetaVoice	自回归 + 扩散(1B)	英文	是（30s）	中等	否	高质量英语克隆
Parler-TTS	描述控制TTS	英文	文本描述控制	中等	否	可控TTS研究
ZipVoice	流匹配 + 蒸馏	中/英	是	极快	否	低延迟实时TTS
ESPnet	多架构工具包	多语言	有	依模型	通常需要	学术研究

按使用场景推荐

中文语音克隆

GPT-SoVITS > ChatTTS > CosyVoice > Index-TTS

语音克隆（一）：用 OmniVoice 克隆任意声音

Mon, 25 May 2026 00:00:00 +0000

想让 AI 用你的声音说话？只需要一段 3 到 10 秒的录音，OmniVoice 就能克隆你的声音，说出任意文字。

OmniVoice 是什么

OmniVoice 是小米 / k2-fsa 团队开发的开源零样本 TTS 模型，支持 600+ 种语言，基于扩散语言模型架构，推理速度极快（RTF 最低 0.025，比实时快 40 倍）。

支持三种模式：

语音克隆：提供参考音频，克隆声音说出任意文字
语音设计：用文字描述声音（性别、年龄、音调、口音等）
自动语音：模型自动选择声音

环境准备

安装 conda 环境

conda create -n omnivoice python=3.11 -y
conda activate omnivoice

安装 PyTorch

# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0

# NVIDIA GPU（以 CUDA 12.8 为例）
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128

安装 OmniVoice

git clone https://github.com/k2-fsa/OmniVoice.git
cd OmniVoice
pip install -e .

下载模型

第一次运行会自动下载。如果在国内连不上 HuggingFace，设置镜像：

语音克隆 on 大飞的博客