语音克隆

目前开源语音克隆项目百花齐放，本文整理了 GitHub 上最热门的项目，对比各自的架构、语言支持、适用场景，帮你快速选型。 Stars 排行榜排名项目 Stars 核心特点 1 Real-Time-Voice-Cloning ~60k 经典三阶段流水线，最早流行的克隆项目 2 GPT-SoVITS ~58k 中文最强，1分钟数据即可微调 3 Coqui TTS (XTTS) ~45k 工业级框架，17种语言，3秒零样本 4 ChatTTS ~39k 中文对话语音质量领先，支持笑声停顿等 5 Bark ~39k 创意音频，可生成笑声/哭声/背景音效 6 MockingBird ~37k 中文版 Real-Time-Voice-Cloning 7 OpenVoice ~37k 音色迁移架构，推理极快 8 RVC ~36k 歌声转换首选，支持实时变声 9 Fish Speech ~31k 端到端，多语言，工业级质量 10 so-vits-svc ~28k AI翻唱鼻祖，歌声克隆质量极高 11 Chatterbox ~25k Resemble AI开源，情感可控 12 CosyVoice ~21k 阿里出品，LLM+流匹配，5种语言 13 Index-TTS ~21k bilibili出品，工业级稳定 14 F5-TTS ~15k 流匹配，非自回归，推理快 15 OmniVoice ~6.6k 支持600+语言，扩散语言模型完整对比表项目架构支持语言零样本克隆推理速度需要训练最适合场景 Real-Time-Voice-Cloning 三阶段流水线英文是（5s）接近实时否学习/原型验证 GPT-SoVITS GPT + VITS 中/英/日是（可微调）中等可选中文配音首选 Coqui TTS 多架构框架 17种是（3s）中等否多语言生产部署 Bark 自回归LM 13种弱慢否创意/情感音频 ChatTTS 生成式LM 中/英是中等否中文对话TTS MockingBird 三阶段流水线中/英是（5s）接近实时否中文克隆 OpenVoice 音色迁移 6种是极快否快速克隆部署 RVC VITS + 特征检索语言无关需少量训练实时是（<10min）歌声/实时变声 Fish Speech 端到端AR + VQGAN 8+种是（10s）快否高质量多语言 so-vits-svc SoftVC + VITS 语言无关需训练中等是 AI翻唱 Chatterbox s3gen + 扩散英文是快否英语情感配音 CosyVoice LLM + 流匹配中/英/日/粤/韩是（3-10s）快否商业TTS服务 Index-TTS GPT-style 中/英是快否工业生产 Tortoise TTS 自回归 + 扩散英文是慢否高质量英语有声书 F5-TTS 流匹配 DiT 中/英是快否快速零样本克隆 StyleTTS2 扩散 + SLM 英文是中等否英语质量基准 VALL-E-X 神经编解码LM 英/中/日是中等否跨语言克隆 Kokoro StyleTTS2变体英+中日韩法否（固定音色）极快否本地轻量部署 OmniVoice 扩散语言模型 600+种是快否超多语言 EmotiVoice BERT + TTS 中/英有限中等否情感化中文TTS VoiceCraft 自回归 + 码书重排英文是中等否语音片段编辑 Qwen3-TTS LLM-native 多语言是中等否与LLM集成 MetaVoice 自回归 + 扩散(1B) 英文是（30s）中等否高质量英语克隆 Parler-TTS 描述控制TTS 英文文本描述控制中等否可控TTS研究 ZipVoice 流匹配 + 蒸馏中/英是极快否低延迟实时TTS ESPnet 多架构工具包多语言有依模型通常需要学术研究按使用场景推荐中文语音克隆 GPT-SoVITS > ChatTTS > CosyVoice > Index-TTS ...

想让 AI 用你的声音说话？只需要一段 3 到 10 秒的录音，OmniVoice 就能克隆你的声音，说出任意文字。 OmniVoice 是什么 OmniVoice 是小米 / k2-fsa 团队开发的开源零样本 TTS 模型，支持 600+ 种语言，基于扩散语言模型架构，推理速度极快（RTF 最低 0.025，比实时快 40 倍）。支持三种模式：语音克隆：提供参考音频，克隆声音说出任意文字语音设计：用文字描述声音（性别、年龄、音调、口音等）自动语音：模型自动选择声音环境准备安装 conda 环境 conda create -n omnivoice python=3.11 -y conda activate omnivoice 安装 PyTorch # Apple Silicon pip install torch==2.8.0 torchaudio==2.8.0 # NVIDIA GPU（以 CUDA 12.8 为例） pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128 安装 OmniVoice git clone https://github.com/k2-fsa/OmniVoice.git cd OmniVoice pip install -e . 下载模型第一次运行会自动下载。如果在国内连不上 HuggingFace，设置镜像： ...

语音克隆（二）：主流开源项目全景对比

语音克隆（一）：用 OmniVoice 克隆任意声音