小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕 · AI HOT
小互@xiaohu精选79
2026-06-08 21:11·7天前
精选理由小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
AI 摘要小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。
GitHub开源/仓库视频语音
小互@xiaohu · X精选79
2026-06-08 21:11·7天前
精选理由小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
AI 摘要小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。
第二,时间戳是真的准。 很多工具的字幕会跑在说话人前面,或者半句话挤进下一条,看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳,再按「一句话 + 换气停顿」来切,字幕基本说完正好换条。
第三,字幕是给人看的,不是机翻直出。 它会自动纠正转写听错的专有名词(Claude 经常被听成 cloud,MCP 被听成 NCP),按语义断句,每行不超过十二个字,技术术语保留英文。双语模式下中文大、英文小,同一条里拉开字号,不是两行一样大堆在一起。
这些都是我自己做了上百条视频踩出来的细节,全写进规则里了。
拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati,我让工具配了中英双语字幕。
> It's more like a tandem bike where both people are pedaling.
机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是:
接地气、不绕口。专有名词也拎得清,Thinking Machines 这种公司名直接留英文,不硬翻。
你只要发一句「链接 + 翻译这个视频」,它会先问你要纯中文还是中英双语--我平时主要翻成中文,就默认留了这两个选项,实际上翻成任意语言都行。
除了带字幕的视频,它还会同时出一份文稿,原文加中文对照。
> 它更像是去造这样一种系统:不会自己闷头狂奔、把整个文明甩在身后,而更像一辆双人自行车,两个人一起踩着踏板。上坡的时候,也许更有劲的那个人踩得更用力,但两个人的手都在车把上。
不挑语言是这套工具最实在的地方。同一段访谈,中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕--各国译文在上、英文原文统一压一行在下,主次分明,连从右往左写的阿拉伯语也排得整整齐齐:
打开仓库你会看到三个文件夹,各管一段活,可以单独用,也可以串起来用:
- xiaohu-video-md:总指挥。负责下载、转写、调翻译、烧字幕、出文稿
- xiaohu-subtitle-polish:专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语
- xiaohu-video-download:纯下载工具。下视频、下音频、下整个播放列表,也能给本地视频烧字幕
翻译一个视频的时候,是 xiaohu-video-md 在总调度,翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些,知道有这么三块就行。
这套工具目前是给 Mac 调的,苹果芯片的机器跑得最顺。装法有两种,挑一种就行:嫌麻烦,就把下面那段话整段丢给 AI,让它替你全装完;想搞清楚每一步在干嘛、或者怕中途出岔子,就照着后面的手动三步敲。
打开你的 AI 编程工具,Claude Code、Codex、小龙虾(OpenClaw)都行,把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本,一条龙搞定,中间该问你的会停下来问:
> 帮我安装这个视频翻译工具:https://github.com/xiaohuailabs/xiaohu-video-translate
按下面的顺序来:
1. 先看我的系统:Mac 还是 Windows;Mac 的话是不是苹果芯片(M 系列)
2. 装依赖:yt-dlp、ffmpeg、whisper-cpp(Mac 用 brew install,Windows 走 WSL 或 winget)。
转写引擎--苹果芯片装 mlx-whisper,其它机器一律装 faster-whisper
3. git clone 这个仓库,进目录跑 bash install.sh,把三个技能装进我的技能目录
4. 装完找到 xiaohu-video-md 技能里的 config.json(Claude Code 在 ~/.claude/skills/ 下),
问我成品想存在哪个文件夹,帮我把 output_dir 改成完整路径
5. 最后检查依赖都装齐了没,告诉我能不能开始用
每一步做完简单说一句你干了啥;依赖装失败就停下来问我,别硬往下跑。
它替你跑的其实就是下面这三步,只是你不用自己敲。想自己动手、或者中途卡住想排查,就照着手动版来。
先确认你装了 Homebrew(Mac 上最常用的软件包管理器,没装的去 brew.sh 按提示装一下)。然后一行命令把三个工具装上:
> brew install yt-dlp ffmpeg whisper-cpp
> 这三个分别是:yt-dlp 负责下视频,ffmpeg 负责音视频处理和烧字幕,whisper-cpp 是「只下载」子技能在本地转写时用的备用命令,主翻译流程不靠它,真正干转写的是下面这步要装的引擎。
再装一个转写引擎。苹果芯片的 Mac 用这个,会走 GPU 加速,最快:(命令里 --break-system-packages 看着吓人,其实只是绕过新版系统的一个安装限制,不动你系统本身,放心敲。)
> pip3 install --break-system-packages mlx-whisper
> pip3 install --break-system-packages faster-whisper
> git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git
cd xiaohu-video-translate
bash install.sh
这个脚本会把三个技能复制到 Claude 的技能目录,自动生成配置文件,还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 【OK】 或 【缺】,看到 yt-dlp、ffmpeg、转写引擎都是 【OK】 就说明装齐了,哪个显示 【缺】 就按提示补那一个。这里路径以 Claude Code 为例(技能在 ~/.claude/skills/);你要是用 Codex、小龙虾,把这个目录换成你那家工具的技能目录就行,其余都一样。
打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件,把里面的 output_dir 改成你想存放成品的文件夹路径(要写完整路径,比如 /Users/你的用户名/Documents/视频翻译)。
中间的临时文件会进 tmp/,最终的文稿进 data/,烧好的视频默认放在下载文件夹里。
> 转写模型不用手动下。第一次跑的时候,mlx-whisper 会自己从网上把模型拉下来(一点五个 G 左右),下一次就直接用了。
上面是 Mac 的装法。Windows 也能跑,但有几处不一样,别照搬。
最省事的办法是用 WSL,也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上,脚本就能原样跑:
> sudo apt install ffmpeg
pip3 install yt-dlp faster-whisper
如果不想用 WSL,想直接在 Windows 上装,记住三点:
- 转写引擎用 faster-whisper,别装那个苹果芯片专用的版本。脚本检测不到苹果引擎,会自动用它兜底
- 安装脚本得用 Git Bash 跑,或者干脆手动把三个技能文件夹复制到工具的技能目录,再把每个配置模板复制成正式配置
- 字幕字体要换。默认用的是 Mac 的苹方,Windows 上没有这个字体,中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行
直接在 Windows 上装依赖的话,命令是这样:
> pip install yt-dlp faster-whisper
winget install Gyan.FFmpeg
> 字体这条 Linux 上也一样,苹方是苹果独有的,得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用,我正在做适配,可以去仓库提 issue 催我。
你说的话 它做的事 把这个链接翻译成中文字幕视频 + 链接 全流程,下载到出成品 翻译这个视频,要中英双语字幕 + 链接 同上,字幕换成中英双语 把这个视频转成文字 + 链接 只出 Markdown 文稿,不烧字幕 给我本地这个视频加中文字幕 + 文件路径 本地文件直接处理 下载这个视频 + 链接 只下载,不翻译 用快速模式转写 换更快但精度略低的模型 翻译时不要水印 关掉水印
YouTube 有时候下不动,报一串 403 之类的错。 这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试,一般能过。还不行就挂个代理。
烧出来的中文字幕是一个个方块。 这是 Mac 字体索引的老问题,脚本默认已经绕开了,正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来,真碰上就把字体换回 PingFang SC(苹方)。
第一次用抖音,要先登录一次。 跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py,弹出来的浏览器里扫码登录,登录状态只存在你自己电脑上,不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了,你拿到的是空的。
> github.com/xiaohuailabs/xiaohu-video-translate
代码是 MIT 协议,水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句:别把你自己的配置文件和抖音登录信息传到公开仓库上去,仓库里已经默认帮你挡掉了。
这套工具是我日常真在用的,不是写来演示的玩具。觉得好用,点个 star,有问题提 issue,我会接着维护。
下期我会开源自己的文章 IP 配图技能--用个人 IP 形象给文章生成配图,本文里那些插画就是这么来的。