<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>语音克隆 on 大飞的博客</title>
    <link>https://www.dafei.me/series/%E8%AF%AD%E9%9F%B3%E5%85%8B%E9%9A%86/</link>
    <description>Recent content in 语音克隆 on 大飞的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 26 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://www.dafei.me/series/%E8%AF%AD%E9%9F%B3%E5%85%8B%E9%9A%86/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>语音克隆（二）：主流开源项目全景对比</title>
      <link>https://www.dafei.me/posts/voice-02-overview/</link>
      <pubDate>Tue, 26 May 2026 00:00:00 +0000</pubDate>
      <guid>https://www.dafei.me/posts/voice-02-overview/</guid>
      <description>&lt;p&gt;目前开源语音克隆项目百花齐放，本文整理了 GitHub 上最热门的项目，对比各自的架构、语言支持、适用场景，帮你快速选型。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;stars-排行榜&#34;&gt;Stars 排行榜&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;排名&lt;/th&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;核心特点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;1&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/CorentinJ/Real-Time-Voice-Cloning&#34;&gt;Real-Time-Voice-Cloning&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~60k&lt;/td&gt;
          &lt;td&gt;经典三阶段流水线，最早流行的克隆项目&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Boss/GPT-SoVITS&#34;&gt;GPT-SoVITS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~58k&lt;/td&gt;
          &lt;td&gt;中文最强，1分钟数据即可微调&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;3&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/coqui-ai/TTS&#34;&gt;Coqui TTS (XTTS)&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~45k&lt;/td&gt;
          &lt;td&gt;工业级框架，17种语言，3秒零样本&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;4&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/2noise/ChatTTS&#34;&gt;ChatTTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~39k&lt;/td&gt;
          &lt;td&gt;中文对话语音质量领先，支持笑声停顿等&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;5&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/suno-ai/bark&#34;&gt;Bark&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~39k&lt;/td&gt;
          &lt;td&gt;创意音频，可生成笑声/哭声/背景音效&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;6&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/babysor/MockingBird&#34;&gt;MockingBird&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~37k&lt;/td&gt;
          &lt;td&gt;中文版 Real-Time-Voice-Cloning&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;7&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/myshell-ai/OpenVoice&#34;&gt;OpenVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~37k&lt;/td&gt;
          &lt;td&gt;音色迁移架构，推理极快&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;8&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI&#34;&gt;RVC&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~36k&lt;/td&gt;
          &lt;td&gt;歌声转换首选，支持实时变声&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;9&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/fishaudio/fish-speech&#34;&gt;Fish Speech&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~31k&lt;/td&gt;
          &lt;td&gt;端到端，多语言，工业级质量&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;10&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/svc-develop-team/so-vits-svc&#34;&gt;so-vits-svc&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~28k&lt;/td&gt;
          &lt;td&gt;AI翻唱鼻祖，歌声克隆质量极高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;11&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/resemble-ai/chatterbox&#34;&gt;Chatterbox&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~25k&lt;/td&gt;
          &lt;td&gt;Resemble AI开源，情感可控&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/FunAudioLLM/CosyVoice&#34;&gt;CosyVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~21k&lt;/td&gt;
          &lt;td&gt;阿里出品，LLM+流匹配，5种语言&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;13&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/index-tts/index-tts&#34;&gt;Index-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~21k&lt;/td&gt;
          &lt;td&gt;bilibili出品，工业级稳定&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;14&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/SWivid/F5-TTS&#34;&gt;F5-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~15k&lt;/td&gt;
          &lt;td&gt;流匹配，非自回归，推理快&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;15&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/k2-fsa/OmniVoice&#34;&gt;OmniVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~6.6k&lt;/td&gt;
          &lt;td&gt;支持600+语言，扩散语言模型&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;完整对比表&#34;&gt;完整对比表&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;架构&lt;/th&gt;
          &lt;th&gt;支持语言&lt;/th&gt;
          &lt;th&gt;零样本克隆&lt;/th&gt;
          &lt;th&gt;推理速度&lt;/th&gt;
          &lt;th&gt;需要训练&lt;/th&gt;
          &lt;th&gt;最适合场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/CorentinJ/Real-Time-Voice-Cloning&#34;&gt;Real-Time-Voice-Cloning&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;三阶段流水线&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是（5s）&lt;/td&gt;
          &lt;td&gt;接近实时&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;学习/原型验证&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Boss/GPT-SoVITS&#34;&gt;GPT-SoVITS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;GPT + VITS&lt;/td&gt;
          &lt;td&gt;中/英/日&lt;/td&gt;
          &lt;td&gt;是（可微调）&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;可选&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;中文配音首选&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/coqui-ai/TTS&#34;&gt;Coqui TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;多架构框架&lt;/td&gt;
          &lt;td&gt;17种&lt;/td&gt;
          &lt;td&gt;是（3s）&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;多语言生产部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/suno-ai/bark&#34;&gt;Bark&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归LM&lt;/td&gt;
          &lt;td&gt;13种&lt;/td&gt;
          &lt;td&gt;弱&lt;/td&gt;
          &lt;td&gt;慢&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;创意/情感音频&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/2noise/ChatTTS&#34;&gt;ChatTTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;生成式LM&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;中文对话TTS&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/babysor/MockingBird&#34;&gt;MockingBird&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;三阶段流水线&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是（5s）&lt;/td&gt;
          &lt;td&gt;接近实时&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;中文克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/myshell-ai/OpenVoice&#34;&gt;OpenVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;音色迁移&lt;/td&gt;
          &lt;td&gt;6种&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;极快&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;快速克隆部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI&#34;&gt;RVC&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;VITS + 特征检索&lt;/td&gt;
          &lt;td&gt;语言无关&lt;/td&gt;
          &lt;td&gt;需少量训练&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;实时&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;是（&amp;lt;10min）&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;歌声/实时变声&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/fishaudio/fish-speech&#34;&gt;Fish Speech&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;端到端AR + VQGAN&lt;/td&gt;
          &lt;td&gt;8+种&lt;/td&gt;
          &lt;td&gt;是（10s）&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;高质量多语言&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/svc-develop-team/so-vits-svc&#34;&gt;so-vits-svc&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;SoftVC + VITS&lt;/td&gt;
          &lt;td&gt;语言无关&lt;/td&gt;
          &lt;td&gt;需训练&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;AI翻唱&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/resemble-ai/chatterbox&#34;&gt;Chatterbox&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;s3gen + 扩散&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;英语情感配音&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/FunAudioLLM/CosyVoice&#34;&gt;CosyVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;LLM + 流匹配&lt;/td&gt;
          &lt;td&gt;中/英/日/粤/韩&lt;/td&gt;
          &lt;td&gt;是（3-10s）&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;商业TTS服务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/index-tts/index-tts&#34;&gt;Index-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;GPT-style&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;工业生产&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/neonbjb/tortoise-tts&#34;&gt;Tortoise TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归 + 扩散&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;慢&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;高质量英语有声书&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/SWivid/F5-TTS&#34;&gt;F5-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;流匹配 DiT&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;快速零样本克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/yl4579/StyleTTS2&#34;&gt;StyleTTS2&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;扩散 + SLM&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;英语质量基准&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/Plachtaa/VALL-E-X&#34;&gt;VALL-E-X&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;神经编解码LM&lt;/td&gt;
          &lt;td&gt;英/中/日&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;跨语言克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/hexgrad/kokoro&#34;&gt;Kokoro&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;StyleTTS2变体&lt;/td&gt;
          &lt;td&gt;英+中日韩法&lt;/td&gt;
          &lt;td&gt;否（固定音色）&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;极快&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;本地轻量部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/k2-fsa/OmniVoice&#34;&gt;OmniVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;扩散语言模型&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;600+种&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;超多语言&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/netease-youdao/EmotiVoice&#34;&gt;EmotiVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;BERT + TTS&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;有限&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;情感化中文TTS&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/jasonppy/VoiceCraft&#34;&gt;VoiceCraft&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归 + 码书重排&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;语音片段编辑&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/QwenLM/Qwen3-TTS&#34;&gt;Qwen3-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;LLM-native&lt;/td&gt;
          &lt;td&gt;多语言&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;与LLM集成&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/metavoiceio/metavoice-src&#34;&gt;MetaVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归 + 扩散(1B)&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是（30s）&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;高质量英语克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/huggingface/parler-tts&#34;&gt;Parler-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;描述控制TTS&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;文本描述控制&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;可控TTS研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/k2-fsa/ZipVoice&#34;&gt;ZipVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;流匹配 + 蒸馏&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;极快&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;低延迟实时TTS&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/espnet/espnet&#34;&gt;ESPnet&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;多架构工具包&lt;/td&gt;
          &lt;td&gt;多语言&lt;/td&gt;
          &lt;td&gt;有&lt;/td&gt;
          &lt;td&gt;依模型&lt;/td&gt;
          &lt;td&gt;通常需要&lt;/td&gt;
          &lt;td&gt;学术研究&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;按使用场景推荐&#34;&gt;按使用场景推荐&lt;/h2&gt;
&lt;h3 id=&#34;中文语音克隆&#34;&gt;中文语音克隆&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;GPT-SoVITS &amp;gt; ChatTTS &amp;gt; CosyVoice &amp;gt; Index-TTS&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>语音克隆（一）：用 OmniVoice 克隆任意声音</title>
      <link>https://www.dafei.me/posts/voice-01-omnivoice/</link>
      <pubDate>Mon, 25 May 2026 00:00:00 +0000</pubDate>
      <guid>https://www.dafei.me/posts/voice-01-omnivoice/</guid>
      <description>&lt;p&gt;想让 AI 用你的声音说话？只需要一段 3 到 10 秒的录音，OmniVoice 就能克隆你的声音，说出任意文字。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;omnivoice-是什么&#34;&gt;OmniVoice 是什么&lt;/h2&gt;
&lt;p&gt;OmniVoice 是小米 / k2-fsa 团队开发的开源零样本 TTS 模型，支持 600+ 种语言，基于&lt;strong&gt;扩散语言模型&lt;/strong&gt;架构，推理速度极快（RTF 最低 0.025，比实时快 40 倍）。&lt;/p&gt;
&lt;p&gt;支持三种模式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;语音克隆&lt;/strong&gt;：提供参考音频，克隆声音说出任意文字&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;语音设计&lt;/strong&gt;：用文字描述声音（性别、年龄、音调、口音等）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动语音&lt;/strong&gt;：模型自动选择声音&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;环境准备&#34;&gt;环境准备&lt;/h2&gt;
&lt;h3 id=&#34;安装-conda-环境&#34;&gt;安装 conda 环境&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;conda create -n omnivoice python&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;3.11 -y
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;conda activate omnivoice
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;安装-pytorch&#34;&gt;安装 PyTorch&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# Apple Silicon&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install torch&lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt;2.8.0 torchaudio&lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt;2.8.0
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# NVIDIA GPU（以 CUDA 12.8 为例）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install torch&lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt;2.8.0+cu128 torchaudio&lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt;2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;安装-omnivoice&#34;&gt;安装 OmniVoice&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;git clone https://github.com/k2-fsa/OmniVoice.git
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;cd OmniVoice
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;pip install -e .
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id=&#34;下载模型&#34;&gt;下载模型&lt;/h2&gt;
&lt;p&gt;第一次运行会自动下载。如果在国内连不上 HuggingFace，设置镜像：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
