<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>开源 on 大飞的博客</title>
    <link>https://www.dafei.me/tags/%E5%BC%80%E6%BA%90/</link>
    <description>Recent content in 开源 on 大飞的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 02 Jun 2026 10:00:00 +0000</lastBuildDate>
    <atom:link href="https://www.dafei.me/tags/%E5%BC%80%E6%BA%90/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>源码分析（一）：Netflix Headroom 是怎么把 LLM 账单砍掉一半的</title>
      <link>https://www.dafei.me/posts/oss-01-headroom/</link>
      <pubDate>Tue, 02 Jun 2026 10:00:00 +0000</pubDate>
      <guid>https://www.dafei.me/posts/oss-01-headroom/</guid>
      <description>&lt;p&gt;最近看到一个叫 &lt;strong&gt;Headroom&lt;/strong&gt; 的项目，Netflix 高级工程师 Tejas Chopra 个人开源的，号称能帮你把发给 LLM 的 token 减少 30-70%，而且不丢信息。&lt;/p&gt;
&lt;p&gt;我把源码读了一遍，发现里面有几个设计很有意思，记下来。&lt;/p&gt;
&lt;p&gt;项目地址：https://github.com/chopratejas/headroom&lt;/p&gt;
&lt;p&gt;本文分析的主要源文件：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://github.com/chopratejas/headroom/blob/main/headroom/transforms/content_router.py&#34;&gt;&lt;code&gt;headroom/transforms/content_router.py&lt;/code&gt;&lt;/a&gt; — 内容识别与路由&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://github.com/chopratejas/headroom/blob/main/headroom/transforms/content_detector.py&#34;&gt;&lt;code&gt;headroom/transforms/content_detector.py&lt;/code&gt;&lt;/a&gt; — 内容类型检测&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://github.com/chopratejas/headroom/tree/main/crates/headroom-core/src/transforms/smart_crusher&#34;&gt;&lt;code&gt;crates/headroom-core/src/transforms/smart_crusher/&lt;/code&gt;&lt;/a&gt; — SmartCrusher Rust 实现&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://github.com/chopratejas/headroom/blob/main/crates/headroom-core/src/transforms/log_compressor.rs&#34;&gt;&lt;code&gt;crates/headroom-core/src/transforms/log_compressor.rs&lt;/code&gt;&lt;/a&gt; — 日志压缩 Rust 实现&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://github.com/chopratejas/headroom/blob/main/headroom/transforms/cache_aligner.py&#34;&gt;&lt;code&gt;headroom/transforms/cache_aligner.py&lt;/code&gt;&lt;/a&gt; — CacheAligner&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://github.com/chopratejas/headroom/blob/main/headroom/ccr/tool_injection.py&#34;&gt;&lt;code&gt;headroom/ccr/tool_injection.py&lt;/code&gt;&lt;/a&gt; — CCR 工具注入&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;它解决的是什么问题&#34;&gt;它解决的是什么问题&lt;/h2&gt;
&lt;p&gt;你在用 Claude 或 GPT 做 agent 的时候，工具调用（tool call）的返回结果会吃掉大量 token。&lt;/p&gt;
&lt;p&gt;比如你让 agent 查数据库，返回了 500 条记录，每条有 15 个字段。但其中 12 个字段在所有记录里都是完全相同的值，真正有用的只有 3 个字段。你把 500 × 15 的数据全塞给 LLM，它实际只需要 500 × 3。&lt;/p&gt;
&lt;p&gt;这就是浪费。Headroom 做的事，就是在你把数据发给 LLM 之前，先把这些废话压掉。&lt;/p&gt;</description>
    </item>
    <item>
      <title>语音克隆（二）：主流开源项目全景对比</title>
      <link>https://www.dafei.me/posts/voice-02-overview/</link>
      <pubDate>Tue, 26 May 2026 00:00:00 +0000</pubDate>
      <guid>https://www.dafei.me/posts/voice-02-overview/</guid>
      <description>&lt;p&gt;目前开源语音克隆项目百花齐放，本文整理了 GitHub 上最热门的项目，对比各自的架构、语言支持、适用场景，帮你快速选型。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;stars-排行榜&#34;&gt;Stars 排行榜&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;排名&lt;/th&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;Stars&lt;/th&gt;
          &lt;th&gt;核心特点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;1&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/CorentinJ/Real-Time-Voice-Cloning&#34;&gt;Real-Time-Voice-Cloning&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~60k&lt;/td&gt;
          &lt;td&gt;经典三阶段流水线，最早流行的克隆项目&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Boss/GPT-SoVITS&#34;&gt;GPT-SoVITS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~58k&lt;/td&gt;
          &lt;td&gt;中文最强，1分钟数据即可微调&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;3&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/coqui-ai/TTS&#34;&gt;Coqui TTS (XTTS)&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~45k&lt;/td&gt;
          &lt;td&gt;工业级框架，17种语言，3秒零样本&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;4&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/2noise/ChatTTS&#34;&gt;ChatTTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~39k&lt;/td&gt;
          &lt;td&gt;中文对话语音质量领先，支持笑声停顿等&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;5&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/suno-ai/bark&#34;&gt;Bark&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~39k&lt;/td&gt;
          &lt;td&gt;创意音频，可生成笑声/哭声/背景音效&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;6&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/babysor/MockingBird&#34;&gt;MockingBird&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~37k&lt;/td&gt;
          &lt;td&gt;中文版 Real-Time-Voice-Cloning&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;7&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/myshell-ai/OpenVoice&#34;&gt;OpenVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~37k&lt;/td&gt;
          &lt;td&gt;音色迁移架构，推理极快&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;8&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI&#34;&gt;RVC&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~36k&lt;/td&gt;
          &lt;td&gt;歌声转换首选，支持实时变声&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;9&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/fishaudio/fish-speech&#34;&gt;Fish Speech&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~31k&lt;/td&gt;
          &lt;td&gt;端到端，多语言，工业级质量&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;10&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/svc-develop-team/so-vits-svc&#34;&gt;so-vits-svc&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~28k&lt;/td&gt;
          &lt;td&gt;AI翻唱鼻祖，歌声克隆质量极高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;11&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/resemble-ai/chatterbox&#34;&gt;Chatterbox&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~25k&lt;/td&gt;
          &lt;td&gt;Resemble AI开源，情感可控&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/FunAudioLLM/CosyVoice&#34;&gt;CosyVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~21k&lt;/td&gt;
          &lt;td&gt;阿里出品，LLM+流匹配，5种语言&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;13&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/index-tts/index-tts&#34;&gt;Index-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~21k&lt;/td&gt;
          &lt;td&gt;bilibili出品，工业级稳定&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;14&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/SWivid/F5-TTS&#34;&gt;F5-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~15k&lt;/td&gt;
          &lt;td&gt;流匹配，非自回归，推理快&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;15&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/k2-fsa/OmniVoice&#34;&gt;OmniVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;~6.6k&lt;/td&gt;
          &lt;td&gt;支持600+语言，扩散语言模型&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;完整对比表&#34;&gt;完整对比表&lt;/h2&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;架构&lt;/th&gt;
          &lt;th&gt;支持语言&lt;/th&gt;
          &lt;th&gt;零样本克隆&lt;/th&gt;
          &lt;th&gt;推理速度&lt;/th&gt;
          &lt;th&gt;需要训练&lt;/th&gt;
          &lt;th&gt;最适合场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/CorentinJ/Real-Time-Voice-Cloning&#34;&gt;Real-Time-Voice-Cloning&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;三阶段流水线&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是（5s）&lt;/td&gt;
          &lt;td&gt;接近实时&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;学习/原型验证&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Boss/GPT-SoVITS&#34;&gt;GPT-SoVITS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;GPT + VITS&lt;/td&gt;
          &lt;td&gt;中/英/日&lt;/td&gt;
          &lt;td&gt;是（可微调）&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;可选&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;中文配音首选&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/coqui-ai/TTS&#34;&gt;Coqui TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;多架构框架&lt;/td&gt;
          &lt;td&gt;17种&lt;/td&gt;
          &lt;td&gt;是（3s）&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;多语言生产部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/suno-ai/bark&#34;&gt;Bark&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归LM&lt;/td&gt;
          &lt;td&gt;13种&lt;/td&gt;
          &lt;td&gt;弱&lt;/td&gt;
          &lt;td&gt;慢&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;创意/情感音频&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/2noise/ChatTTS&#34;&gt;ChatTTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;生成式LM&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;中文对话TTS&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/babysor/MockingBird&#34;&gt;MockingBird&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;三阶段流水线&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是（5s）&lt;/td&gt;
          &lt;td&gt;接近实时&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;中文克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/myshell-ai/OpenVoice&#34;&gt;OpenVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;音色迁移&lt;/td&gt;
          &lt;td&gt;6种&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;极快&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;快速克隆部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI&#34;&gt;RVC&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;VITS + 特征检索&lt;/td&gt;
          &lt;td&gt;语言无关&lt;/td&gt;
          &lt;td&gt;需少量训练&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;实时&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;是（&amp;lt;10min）&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;歌声/实时变声&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/fishaudio/fish-speech&#34;&gt;Fish Speech&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;端到端AR + VQGAN&lt;/td&gt;
          &lt;td&gt;8+种&lt;/td&gt;
          &lt;td&gt;是（10s）&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;高质量多语言&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/svc-develop-team/so-vits-svc&#34;&gt;so-vits-svc&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;SoftVC + VITS&lt;/td&gt;
          &lt;td&gt;语言无关&lt;/td&gt;
          &lt;td&gt;需训练&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;AI翻唱&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/resemble-ai/chatterbox&#34;&gt;Chatterbox&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;s3gen + 扩散&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;英语情感配音&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/FunAudioLLM/CosyVoice&#34;&gt;CosyVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;LLM + 流匹配&lt;/td&gt;
          &lt;td&gt;中/英/日/粤/韩&lt;/td&gt;
          &lt;td&gt;是（3-10s）&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;商业TTS服务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/index-tts/index-tts&#34;&gt;Index-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;GPT-style&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;工业生产&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/neonbjb/tortoise-tts&#34;&gt;Tortoise TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归 + 扩散&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;慢&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;高质量英语有声书&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/SWivid/F5-TTS&#34;&gt;F5-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;流匹配 DiT&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;快速零样本克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/yl4579/StyleTTS2&#34;&gt;StyleTTS2&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;扩散 + SLM&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;英语质量基准&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/Plachtaa/VALL-E-X&#34;&gt;VALL-E-X&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;神经编解码LM&lt;/td&gt;
          &lt;td&gt;英/中/日&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;跨语言克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/hexgrad/kokoro&#34;&gt;Kokoro&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;StyleTTS2变体&lt;/td&gt;
          &lt;td&gt;英+中日韩法&lt;/td&gt;
          &lt;td&gt;否（固定音色）&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;极快&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;本地轻量部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/k2-fsa/OmniVoice&#34;&gt;OmniVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;扩散语言模型&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;600+种&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;快&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;超多语言&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/netease-youdao/EmotiVoice&#34;&gt;EmotiVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;BERT + TTS&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;有限&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;情感化中文TTS&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/jasonppy/VoiceCraft&#34;&gt;VoiceCraft&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归 + 码书重排&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;语音片段编辑&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/QwenLM/Qwen3-TTS&#34;&gt;Qwen3-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;LLM-native&lt;/td&gt;
          &lt;td&gt;多语言&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;与LLM集成&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/metavoiceio/metavoice-src&#34;&gt;MetaVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;自回归 + 扩散(1B)&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;是（30s）&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;高质量英语克隆&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/huggingface/parler-tts&#34;&gt;Parler-TTS&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;描述控制TTS&lt;/td&gt;
          &lt;td&gt;英文&lt;/td&gt;
          &lt;td&gt;文本描述控制&lt;/td&gt;
          &lt;td&gt;中等&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;可控TTS研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/k2-fsa/ZipVoice&#34;&gt;ZipVoice&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;流匹配 + 蒸馏&lt;/td&gt;
          &lt;td&gt;中/英&lt;/td&gt;
          &lt;td&gt;是&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;极快&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;否&lt;/td&gt;
          &lt;td&gt;低延迟实时TTS&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a href=&#34;https://github.com/espnet/espnet&#34;&gt;ESPnet&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;多架构工具包&lt;/td&gt;
          &lt;td&gt;多语言&lt;/td&gt;
          &lt;td&gt;有&lt;/td&gt;
          &lt;td&gt;依模型&lt;/td&gt;
          &lt;td&gt;通常需要&lt;/td&gt;
          &lt;td&gt;学术研究&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;按使用场景推荐&#34;&gt;按使用场景推荐&lt;/h2&gt;
&lt;h3 id=&#34;中文语音克隆&#34;&gt;中文语音克隆&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;GPT-SoVITS &amp;gt; ChatTTS &amp;gt; CosyVoice &amp;gt; Index-TTS&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
