














ElevenLabs 一年订阅几百刀,做几百条配音还得盯着字符额度。
可现在有个 GitHub 上 3 万多 star的开源工具,本地跑、完全免费、还是 MIT 协议——意味着你拿它接的活,商用合法。
它叫 VoiceBox。我研究了几天,说点实在的:它能干什么,以及怎么靠它接单。
GitHub:github.com/jamiepine/voicebox
官网:voicebox.sh
一句话:本地运行的开源 AI 语音工作室,作者把它定位成"ElevenLabs + WisprFlow 的免费替代"。
核心三件事——
声音克隆:10–30 秒一段干净录音,就能复刻一个音色;
本地运算:所有生成在你自己电脑上完成,不联网、不订阅、不按字符收费,做一条和做一千条,成本都是零;
MIT 协议:可以商用。这条最关键,很多免费工具卡在"不能拿去赚钱",它不卡。
支持七种 TTS 引擎(Qwen3-TTS 求质量、Kokoro 求速度),23种语言,还带多轨编辑和混响、变调这类后期效果。Windows、Mac 都有现成安装包。
AI 配音的需求这两年只增不减:短视频旁白、有声书、口播带货、知识付费课程,全在吃语音。
但云端工具按月、按字符收费,量一大,利润就被订阅费啃掉。本地化等于把这块成本归零——同样一单,你的毛利更高。工具不稀缺, 会用它稳定交付的人才稀缺。
能接的活:有声书录制、广告配音、视频旁白、多角色剧本。
VoiceBox在这条链路里干三件事——克隆出一个稳定音色,批量出稿,再用内置后期把混响、变调处理掉,省一道剪辑工序。
** 去哪接:**
** - 国内:配音圈、喜马拉雅的主播招募与录制、猪八戒这类众包平台;**
** - 国外:Fiverr、Upwork、Voices.com、Voice123,以及亚马逊的有声书平台 ACX。**
怎么定价(只讲方法,具体数随平台和单子浮动):
按字数:适合短稿、口播,报价透明;
按成品分钟:有声书、长视频旁白的通行算法,把后期时间也算进去;
音色独占费:客户要"这个声音只给我用",单独加价——这是 AI 配音相比真人最容易溢价的点。
把你自己的声音克隆出来,批量生产口播稿,喂给矩阵号、带货视频或付费课程。护城河在于:声音一致性 + 零成本批量。
真人一天录不了几条,克隆音色可以批处理几百条,而且每条都是同一个"人"在说——这是个人做号能规模化的关键。
GitHub:github.com/jamiepine/voicebox
官网:voicebox.sh
装:Windows 下 setup.exe,Mac 下 DMG,首次启动自动下载模型、自动识别 GPU;
克隆音色:这步决定成品质量,样本要 10–30 秒、单人、干净、没背景音乐;
选模型:要质量用 Qwen3-TTS,要速度用 Kokoro,接外语单就靠它的 23 种语言;
规模化:用 Stories 多轨编辑器做有声书和多角色对话;接 MCP 或它的 REST
API,就能脚本批处理几百条,从"手动配一条"变成"自动跑一批"
没 GPU 的话生成会慢,该开加速就开。更重要的是:只克隆你自己的、或拿到授权的声音。别拿名人、明星的声音
去接商单——法律和平台两头都会让你翻车。AI 配音这行能不能长久,靠的就是这条边界。
工具是免费的,门槛从来不在工具,而在认知和执行。