![](/media/liusheng/image/93432e3251937961.jpg) ![](/media/liusheng/image/e730c23e53ff054b.jpg) ![](/media/liusheng/image/bec5cc3f5f8d7291.jpg) ![](/media/liusheng/image/6ae1e478f9c01266.jpg) ![](/media/liusheng/image/a5003f54ccf77201.jpg) ![](/media/liusheng/image/956b7b94db3ab040.jpg) ![](/media/liusheng/image/7645e7729feb6e0d.jpg) ![](/media/liusheng/image/b423523dda56652a.jpg) ![](/media/liusheng/image/de39444d2cf49da9.jpg) ![](/media/liusheng/image/57256cac04c7d263.jpg) ![](/media/liusheng/image/f8954cadce239a29.jpg) ![](/media/liusheng/image/7a7bc80c7e5cab43.jpg) ![](/media/liusheng/image/81de09adde2168ae.jpg) ![](/media/liusheng/image/e185dbe83622fbf8.jpg) ![](/media/liusheng/image/06adaffa8a41dec0.jpg)

ElevenLabs 一年订阅几百刀,做几百条配音还得盯着字符额度。可现在有个 GitHub 上 3 万多 star的开源工具,本地跑、完全免费、还是 MIT 协议——意味着你拿它接的活,商用合法。它叫 VoiceBox。我研究了几天,说点实在的:它能干什么,以及怎么靠它接单。 GitHub:[github.com/jamiepine/voicebox](https://github.com/jamiepine/voicebox) 官网:[voicebox.sh](https://voicebox.sh/) ## 先说它是什么一句话:本地运行的开源 AI 语音工作室,作者把它定位成"ElevenLabs + WisprFlow 的免费替代"。 **核心三件事——** - 声音克隆:10–30 秒一段干净录音,就能复刻一个音色; - 本地运算:所有生成在你自己电脑上完成,不联网、不订阅、不按字符收费,做一条和做一千条,成本都是零; - MIT 协议:可以商用。这条最关键,很多免费工具卡在"不能拿去赚钱",它不卡。支持七种 TTS 引擎(Qwen3-TTS 求质量、Kokoro 求速度),23种语言,还带多轨编辑和混响、变调这类后期效果。Windows、Mac 都有现成安装包。 ## 为什么用它赚钱？ AI 配音的需求这两年只增不减:短视频旁白、有声书、口播带货、知识付费课程,全在吃语音。但云端工具按月、按字符收费,量一大,利润就被订阅费啃掉。本地化等于把这块成本归零——同样一单,你的毛利更高。工具不稀缺, 会用它稳定交付的人才稀缺。 ## 变现路径一:接配音 / 有声书单能接的活:有声书录制、广告配音、视频旁白、多角色剧本。 VoiceBox在这条链路里干三件事——克隆出一个稳定音色,批量出稿,再用内置后期把混响、变调处理掉,省一道剪辑工序。 ** 去哪接:** ** - 国内:配音圈、喜马拉雅的主播招募与录制、猪八戒这类众包平台;** ** - 国外:Fiverr、Upwork、Voices.com、Voice123,以及亚马逊的有声书平台 ACX。** 怎么定价(只讲方法,具体数随平台和单子浮动): - 按字数:适合短稿、口播,报价透明; - 按成品分钟:有声书、长视频旁白的通行算法,把后期时间也算进去; - 音色独占费:客户要"这个声音只给我用",单独加价——这是 AI 配音相比真人最容易溢价的点。 ## 变现路径二:AI 口播 / 数字人短视频把你自己的声音克隆出来,批量生产口播稿,喂给矩阵号、带货视频或付费课程。护城河在于:声音一致性 + 零成本批量。真人一天录不了几条,克隆音色可以批处理几百条,而且每条都是同一个"人"在说——这是个人做号能规模化的关键。 ## 怎么上手(务实版) GitHub:[github.com/jamiepine/voicebox](https://github.com/jamiepine/voicebox) 官网:[voicebox.sh](https://voicebox.sh/) 1. 装:Windows 下 setup.exe,Mac 下 DMG,首次启动自动下载模型、自动识别 GPU; 2. 克隆音色:这步决定成品质量,样本要 10–30 秒、单人、干净、没背景音乐; 3. 选模型:要质量用 Qwen3-TTS,要速度用 Kokoro,接外语单就靠它的 23 种语言; 4. 规模化:用 Stories 多轨编辑器做有声书和多角色对话;接 MCP 或它的 REST API,就能脚本批处理几百条,从"手动配一条"变成"自动跑一批" 没 GPU 的话生成会慢,该开加速就开。更重要的是:只克隆你自己的、或拿到授权的声音。别拿名人、明星的声音去接商单——法律和平台两头都会让你翻车。AI 配音这行能不能长久,靠的就是这条边界。工具是免费的,门槛从来不在工具,而在认知和执行。