你的声音,你的机器。
开源语音克隆工作室,支持多种 TTS 引擎。克隆任意声音、生成自然语音、创作多声音项目——全部在本地运行。
macOS、Windows、Linux
专业级语音工具,零妥协
克隆声音、生成语音、制作多声音内容
全部在你的机器上运行。
近乎完美的声音克隆
多种 TTS 引擎提供卓越的语音质量。仅需几秒钟音频即可克隆任意声音,保留自然的语调和情感。
故事编辑器
基于时间线的多声音叙事编辑器。安排轨道、修剪片段、混合不同角色之间的对话。
音频效果管线
应用变调、混响、延迟、压缩等效果——保存为预设。实时预览效果并为每个声音配置文件设置默认值。
本地或远程
使用 Metal、CUDA、ROCm、Intel Arc 或 DirectML 在本地运行推理——或连接远程机器。一键服务器设置加自动发现。
音频转录
由 Whisper 提供准确的语音转文本。自动从语音样本中提取参考文本。
无限生成长度
一次生成最多 50,000 字符。文本在句子边界自动分割、逐块生成并无缝交叉淡入淡出。
声音克隆
秒级克隆任意声音
三种捕获声音样本的方式。上传片段、使用麦克风录制、或捕获系统正在播放的音频。Voicebox 仅需 3 秒音频即可克隆声音。
上传音频
拖放任意音频文件——WAV、MP3、FLAC 或 WebM。
麦克风录制
录制时实时波形预览。最长可录 30 秒。
系统音频捕获
从 YouTube 视频、播客或任何正在播放音频的应用中克隆声音。
多引擎架构
为每项任务选择合适的模型
所有模型均在本地硬件上运行——下载一次,永久使用。
Qwen3-TTS
by 阿里巴巴高质量多语言语音克隆,自然韵律。唯一支持传递指令的引擎——使用自然语言控制语调、节奏和情感。
Chatterbox
by Resemble AI生产级语音克隆,最广泛的语言支持。23 种语言零样本克隆,情感夸张控制。
Chatterbox Turbo
by Resemble AI轻量快速。支持副语言标签——在文本中嵌入 [laugh]、[sigh]、[gasp] 等,生成富有表现力的自然语音。
LuxTTS
by ZipVoice超快速、CPU 友好的 48kHz 语音克隆。约 1GB VRAM,CPU 上超过 150 倍实时速度。迭代最快的引擎。
TADA
by HumeAI语音-语言模型,700 秒以上连贯音频,文本-声学双重对齐。10 种语言,高质量长音频生成。
开始使用
下载 Voicebox
适用于 macOS、Windows 和 Linux。无需额外依赖。