v0.3.0

你的声音,你的机器。

开源语音克隆工作室,支持多种 TTS 引擎。克隆任意声音、生成自然语音、创作多声音项目——全部在本地运行。

macOS、Windows、Linux

Voicebox
J
Jarvis
沉稳英式 AI 助手
en
M
Morgan Freeman
温暖浑厚的男中音
en
B
Bob Ross
轻柔、令人安心
en
S
Scarlett Johansson
柔和低沉的女中音
en
D
David Attenborough
温暖而充满敬意的叙述
en
L
Linus Tech Tips
充满活力的科技解说
en
English Qwen 1.7B Robot
M
Morgan Freeman
enQwen 1.7B0:08
人类语音的神经通路蕴含着比任何语言模型都更复杂的信息,但我们仍在不断突破可能性的边界。
2 分钟前
J
Jarvis
enQwen 0.6B0:09
现代文本转语音系统的架构揭示了 Transformer 模型与声学特征预测之间优雅的交互。
1 小时前
B
Bob Ross
enChatterbox0:06
欢迎来到新篇章。每个伟大的故事都始于一个声音,而今天这个声音可以是你的。
3 小时前
L
Linus Tech Tips
enQwen 1.7B0:05
本地推理让你对语音数据拥有完全控制。没有云端,没有订阅,没有妥协。
5 小时前
Jarvis
0:00 / 0:09

克隆声音、生成语音、制作多声音内容
全部在你的机器上运行。

近乎完美的声音克隆

多种 TTS 引擎提供卓越的语音质量。仅需几秒钟音频即可克隆任意声音,保留自然的语调和情感。

故事编辑器

基于时间线的多声音叙事编辑器。安排轨道、修剪片段、混合不同角色之间的对话。

音频效果管线

应用变调、混响、延迟、压缩等效果——保存为预设。实时预览效果并为每个声音配置文件设置默认值。

本地或远程

使用 Metal、CUDA、ROCm、Intel Arc 或 DirectML 在本地运行推理——或连接远程机器。一键服务器设置加自动发现。

音频转录

由 Whisper 提供准确的语音转文本。自动从语音样本中提取参考文本。

无限生成长度

一次生成最多 50,000 字符。文本在句子边界自动分割、逐块生成并无缝交叉淡入淡出。


秒级克隆任意声音

三种捕获声音样本的方式。上传片段、使用麦克风录制、或捕获系统正在播放的音频。Voicebox 仅需 3 秒音频即可克隆声音。

上传音频

拖放任意音频文件——WAV、MP3、FLAC 或 WebM。

麦克风录制

录制时实时波形预览。最长可录 30 秒。

系统音频捕获

从 YouTube 视频、播客或任何正在播放音频的应用中克隆声音。


为每项任务选择合适的模型

所有模型均在本地硬件上运行——下载一次,永久使用。

Qwen3-TTS

by 阿里巴巴
1.7B0.6B

高质量多语言语音克隆,自然韵律。唯一支持传递指令的引擎——使用自然语言控制语调、节奏和情感。

10 种语言 传递指令

Chatterbox

by Resemble AI

生产级语音克隆,最广泛的语言支持。23 种语言零样本克隆,情感夸张控制。

23 种语言

Chatterbox Turbo

by Resemble AI
350M

轻量快速。支持副语言标签——在文本中嵌入 [laugh]、[sigh]、[gasp] 等,生成富有表现力的自然语音。

350M 参数 [laugh] [sigh] 标签

LuxTTS

by ZipVoice

超快速、CPU 友好的 48kHz 语音克隆。约 1GB VRAM,CPU 上超过 150 倍实时速度。迭代最快的引擎。

150x 实时 48kHz 输出

TADA

by HumeAI
1B3B

语音-语言模型,700 秒以上连贯音频,文本-声学双重对齐。10 种语言,高质量长音频生成。

10 种语言 700s+ 连贯音频

下载 Voicebox

适用于 macOS、Windows 和 Linux。无需额外依赖。

在 GitHub 上查看所有版本 →