● v0.3.0

你的声音，你的机器。

开源语音克隆工作室，支持多种 TTS 引擎。克隆任意声音、生成自然语音、创作多声音项目——全部在本地运行。

下载在 GitHub 上查看

macOS、Windows、Linux

Voicebox

Jarvis

沉稳英式 AI 助手

Morgan Freeman

温暖浑厚的男中音

Bob Ross

轻柔、令人安心

Scarlett Johansson

柔和低沉的女中音

David Attenborough

温暖而充满敬意的叙述

Linus Tech Tips

充满活力的科技解说

English Qwen 1.7B Robot

Morgan Freeman

enQwen 1.7B0:08

人类语音的神经通路蕴含着比任何语言模型都更复杂的信息，但我们仍在不断突破可能性的边界。

2 分钟前

Jarvis

enQwen 0.6B0:09

现代文本转语音系统的架构揭示了 Transformer 模型与声学特征预测之间优雅的交互。

1 小时前

Bob Ross

enChatterbox0:06

欢迎来到新篇章。每个伟大的故事都始于一个声音，而今天这个声音可以是你的。

3 小时前

Linus Tech Tips

enQwen 1.7B0:05

本地推理让你对语音数据拥有完全控制。没有云端，没有订阅，没有妥协。

5 小时前

专业级语音工具，零妥协

克隆声音、生成语音、制作多声音内容
全部在你的机器上运行。

近乎完美的声音克隆

多种 TTS 引擎提供卓越的语音质量。仅需几秒钟音频即可克隆任意声音，保留自然的语调和情感。

故事编辑器

基于时间线的多声音叙事编辑器。安排轨道、修剪片段、混合不同角色之间的对话。

音频效果管线

应用变调、混响、延迟、压缩等效果——保存为预设。实时预览效果并为每个声音配置文件设置默认值。

本地或远程

使用 Metal、CUDA、ROCm、Intel Arc 或 DirectML 在本地运行推理——或连接远程机器。一键服务器设置加自动发现。

音频转录

由 Whisper 提供准确的语音转文本。自动从语音样本中提取参考文本。

无限生成长度

一次生成最多 50,000 字符。文本在句子边界自动分割、逐块生成并无缝交叉淡入淡出。

声音克隆

秒级克隆任意声音

三种捕获声音样本的方式。上传片段、使用麦克风录制、或捕获系统正在播放的音频。Voicebox 仅需 3 秒音频即可克隆声音。

上传音频

拖放任意音频文件——WAV、MP3、FLAC 或 WebM。

麦克风录制

录制时实时波形预览。最长可录 30 秒。

系统音频捕获

从 YouTube 视频、播客或任何正在播放音频的应用中克隆声音。

多引擎架构

为每项任务选择合适的模型

所有模型均在本地硬件上运行——下载一次，永久使用。

Qwen3-TTS

by 阿里巴巴

1.7B0.6B

高质量多语言语音克隆，自然韵律。唯一支持传递指令的引擎——使用自然语言控制语调、节奏和情感。

10 种语言传递指令

Chatterbox

by Resemble AI

生产级语音克隆，最广泛的语言支持。23 种语言零样本克隆，情感夸张控制。

23 种语言

Chatterbox Turbo

by Resemble AI

350M

轻量快速。支持副语言标签——在文本中嵌入 [laugh]、[sigh]、[gasp] 等，生成富有表现力的自然语音。

350M 参数 [laugh] [sigh] 标签

LuxTTS

by ZipVoice

超快速、CPU 友好的 48kHz 语音克隆。约 1GB VRAM，CPU 上超过 150 倍实时速度。迭代最快的引擎。

150x 实时 48kHz 输出

TADA

by HumeAI

1B3B

语音-语言模型，700 秒以上连贯音频，文本-声学双重对齐。10 种语言，高质量长音频生成。

10 种语言 700s+ 连贯音频

开始使用

下载 Voicebox

适用于 macOS、Windows 和 Linux。无需额外依赖。

🍎

macOS Apple Silicon (ARM)