![](/media/liusheng/image/93432e3251937961.jpg)

![](/media/liusheng/image/e730c23e53ff054b.jpg)

![](/media/liusheng/image/bec5cc3f5f8d7291.jpg)

![](/media/liusheng/image/6ae1e478f9c01266.jpg)

![](/media/liusheng/image/a5003f54ccf77201.jpg)

![](/media/liusheng/image/956b7b94db3ab040.jpg)

![](/media/liusheng/image/7645e7729feb6e0d.jpg)

![](/media/liusheng/image/b423523dda56652a.jpg)

![](/media/liusheng/image/de39444d2cf49da9.jpg)

![](/media/liusheng/image/57256cac04c7d263.jpg)

![](/media/liusheng/image/f8954cadce239a29.jpg)

![](/media/liusheng/image/7a7bc80c7e5cab43.jpg)

![](/media/liusheng/image/81de09adde2168ae.jpg)

![](/media/liusheng/image/e185dbe83622fbf8.jpg)

![](/media/liusheng/image/06adaffa8a41dec0.jpg)

<video src="/media/liusheng/video/83d1daf21664bf03.mp4"></video>

<video src="/media/liusheng/video/6a5bfdfdbeb74ec4.mp4"></video>

<video src="/media/liusheng/video/1d869733c6346c14.mp4"></video>

<video src="/media/liusheng/video/5e86dbe7fcbcd6cf.mp4"></video>

<video src="/media/liusheng/video/ce0848266b768490.mp4"></video>

<video src="/media/liusheng/video/bb0cdb898ff5d28c.mp4"></video>

<video src="/media/liusheng/video/052aeb3b8cdcadcf.mp4"></video>

<video src="/media/liusheng/video/6b3fc52354c2b1f2.mp4"></video>

<video src="/media/liusheng/video/ad4bde65e360d0f0.mp4"></video>

<video src="/media/liusheng/video/6a90ea8ec761cc3a.mp4"></video>

ElevenLabs 一年订阅几百刀,做几百条配音还得盯着字符额度。

可现在有个 GitHub 上 3 万多 star的开源工具,本地跑、完全免费、还是 MIT 协议——意味着你拿它接的活,商用合法。

它叫 VoiceBox。我研究了几天,说点实在的:它能干什么,以及怎么靠它接单。

GitHub:[github.com/jamiepine/voicebox](https://github.com/jamiepine/voicebox)

官网:[voicebox.sh](https://voicebox.sh/)

## 先说它是什么

一句话:本地运行的开源 AI 语音工作室,作者把它定位成"ElevenLabs + WisprFlow 的免费替代"。

**核心三件事——**

- 声音克隆:10–30 秒一段干净录音,就能复刻一个音色;

- 本地运算:所有生成在你自己电脑上完成,不联网、不订阅、不按字符收费,做一条和做一千条,成本都是零;

- MIT 协议:可以商用。这条最关键,很多免费工具卡在"不能拿去赚钱",它不卡。

支持七种 TTS 引擎(Qwen3-TTS 求质量、Kokoro 求速度),23种语言,还带多轨编辑和混响、变调这类后期效果。Windows、Mac 都有现成安装包。

## 为什么用它赚钱？

AI 配音的需求这两年只增不减:短视频旁白、有声书、口播带货、知识付费课程,全在吃语音。

但云端工具按月、按字符收费,量一大,利润就被订阅费啃掉。本地化等于把这块成本归零——同样一单,你的毛利更高。工具不稀缺, 会用它稳定交付的人才稀缺。

## 变现路径一:接配音 / 有声书单

能接的活:有声书录制、广告配音、视频旁白、多角色剧本。

VoiceBox在这条链路里干三件事——克隆出一个稳定音色,批量出稿,再用内置后期把混响、变调处理掉,省一道剪辑工序。

**  去哪接:**

**  - 国内:配音圈、喜马拉雅的主播招募与录制、猪八戒这类众包平台;**

**  - 国外:Fiverr、Upwork、Voices.com、Voice123,以及亚马逊的有声书平台 ACX。**

怎么定价(只讲方法,具体数随平台和单子浮动):

- 按字数:适合短稿、口播,报价透明;

- 按成品分钟:有声书、长视频旁白的通行算法,把后期时间也算进去;

- 音色独占费:客户要"这个声音只给我用",单独加价——这是 AI 配音相比真人最容易溢价的点。

## 变现路径二:AI 口播 / 数字人短视频

把你自己的声音克隆出来,批量生产口播稿,喂给矩阵号、带货视频或付费课程。护城河在于:声音一致性 + 零成本批量。

真人一天录不了几条,克隆音色可以批处理几百条,而且每条都是同一个"人"在说——这是个人做号能规模化的关键。

## 怎么上手(务实版)

GitHub:[github.com/jamiepine/voicebox](https://github.com/jamiepine/voicebox)

官网:[voicebox.sh](https://voicebox.sh/)

1. 装:Windows 下 setup.exe,Mac 下 DMG,首次启动自动下载模型、自动识别 GPU;

2. 克隆音色:这步决定成品质量,样本要 10–30 秒、单人、干净、没背景音乐;

3. 选模型:要质量用 Qwen3-TTS,要速度用 Kokoro,接外语单就靠它的 23 种语言;

4. 规模化:用 Stories 多轨编辑器做有声书和多角色对话;接 MCP 或它的 REST

API,就能脚本批处理几百条,从"手动配一条"变成"自动跑一批"

没 GPU 的话生成会慢,该开加速就开。更重要的是:只克隆你自己的、或拿到授权的声音。别拿名人、明星的声音

去接商单——法律和平台两头都会让你翻车。AI 配音这行能不能长久,靠的就是这条边界。

工具是免费的,门槛从来不在工具,而在认知和执行。