配音需求被严重低估,我用免费开源的Voicebox克隆声音,月入2000+

ElevenLabs 一年订阅几百刀,做几百条配音还得盯着字符额度。

可现在有个 GitHub 上 3 万多 star的开源工具,本地跑、完全免费、还是 MIT 协议——意味着你拿它接的活,商用合法。

它叫 VoiceBox。我研究了几天,说点实在的:它能干什么,以及怎么靠它接单。

GitHub:github.com/jamiepine/voicebox

官网:voicebox.sh

先说它是什么

一句话:本地运行的开源 AI 语音工作室,作者把它定位成"ElevenLabs + WisprFlow 的免费替代"。

核心三件事——

支持七种 TTS 引擎(Qwen3-TTS 求质量、Kokoro 求速度),23种语言,还带多轨编辑和混响、变调这类后期效果。Windows、Mac 都有现成安装包。

为什么用它赚钱?

AI 配音的需求这两年只增不减:短视频旁白、有声书、口播带货、知识付费课程,全在吃语音。

但云端工具按月、按字符收费,量一大,利润就被订阅费啃掉。本地化等于把这块成本归零——同样一单,你的毛利更高。工具不稀缺, 会用它稳定交付的人才稀缺。

变现路径一:接配音 / 有声书单

能接的活:有声书录制、广告配音、视频旁白、多角色剧本。

VoiceBox在这条链路里干三件事——克隆出一个稳定音色,批量出稿,再用内置后期把混响、变调处理掉,省一道剪辑工序。

** 去哪接:**

** - 国内:配音圈、喜马拉雅的主播招募与录制、猪八戒这类众包平台;**

** - 国外:Fiverr、Upwork、Voices.com、Voice123,以及亚马逊的有声书平台 ACX。**

怎么定价(只讲方法,具体数随平台和单子浮动):

变现路径二:AI 口播 / 数字人短视频

把你自己的声音克隆出来,批量生产口播稿,喂给矩阵号、带货视频或付费课程。护城河在于:声音一致性 + 零成本批量。

真人一天录不了几条,克隆音色可以批处理几百条,而且每条都是同一个"人"在说——这是个人做号能规模化的关键。

怎么上手(务实版)

GitHub:github.com/jamiepine/voicebox

官网:voicebox.sh

  1. 装:Windows 下 setup.exe,Mac 下 DMG,首次启动自动下载模型、自动识别 GPU;

  2. 克隆音色:这步决定成品质量,样本要 10–30 秒、单人、干净、没背景音乐;

  3. 选模型:要质量用 Qwen3-TTS,要速度用 Kokoro,接外语单就靠它的 23 种语言;

  4. 规模化:用 Stories 多轨编辑器做有声书和多角色对话;接 MCP 或它的 REST

API,就能脚本批处理几百条,从"手动配一条"变成"自动跑一批"

没 GPU 的话生成会慢,该开加速就开。更重要的是:只克隆你自己的、或拿到授权的声音。别拿名人、明星的声音

去接商单——法律和平台两头都会让你翻车。AI 配音这行能不能长久,靠的就是这条边界。

工具是免费的,门槛从来不在工具,而在认知和执行。