语音克隆(一):用 OmniVoice 克隆任意声音

想让 AI 用你的声音说话?只需要一段 3 到 10 秒的录音,OmniVoice 就能克隆你的声音,说出任意文字。 OmniVoice 是什么 OmniVoice 是小米 / k2-fsa 团队开发的开源零样本 TTS 模型,支持 600+ 种语言,基于扩散语言模型架构,推理速度极快(RTF 最低 0.025,比实时快 40 倍)。 支持三种模式: 语音克隆:提供参考音频,克隆声音说出任意文字 语音设计:用文字描述声音(性别、年龄、音调、口音等) 自动语音:模型自动选择声音 环境准备 安装 conda 环境 conda create -n omnivoice python=3.11 -y conda activate omnivoice 安装 PyTorch # Apple Silicon pip install torch==2.8.0 torchaudio==2.8.0 # NVIDIA GPU(以 CUDA 12.8 为例) pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128 安装 OmniVoice git clone https://github.com/k2-fsa/OmniVoice.git cd OmniVoice pip install -e . 下载模型 第一次运行会自动下载。如果在国内连不上 HuggingFace,设置镜像: ...

May 25, 2026 · 1 min · 大飞
京ICP备14031575号-3