
做视频的朋友都知道,剪片的过程中,最耗时耗力的往往不是剪辑本身,而是字幕制作。
要么用剪映这类工具的 AI 识别,免费版限制多多,付费版又肉疼;要么硬着头皮逐句敲字,反复核对时间轴,眼睛都看花了;更别说碰到多人对话的场景,整理说话人、对齐节奏,简直让人崩溃。
最近在 GitHub 上看到一个 4.3K 标星的开源字幕识别工具,可有效解决视频字幕相关痛点。
它叫做 AutoSubs — 一款完全开源的字幕生成工具,不仅能一键生成高质量字幕,还能自动区分不同说话人,让很多人彻底告别了字幕制作的噩梦。
项目简介
AutoSubs 是由开发者 Tom Moroney 打造的开源字幕工具,专门为视频创作者设计。
它的核心理念很简单:让字幕制作变得简单高效。
这个项目在 GitHub 上完全开源,任何人都可以免费使用。和市面上很多需要联网、依赖云服务的字幕工具不同,AutoSubs 把 AI 模型直接跑在你的本地设备上。
这意味着三件事:
• 隐私安全:不需要上传视频到云端,敏感内容也不怕泄露 • 速度更快:没有网络延迟,处理速度直接拉满 • 完全免费:一次性下载模型后,以后使用没有任何订阅费或调用次数限制
目前 AutoSubs 支持 Windows、macOS(Apple Silicon 和 Intel 双架构)以及 Linux 三大主流系统,而且提供一键安装包,小白用户也能轻松上手。
核心亮点
• 本地运行,隐私安全:采用完全本地运行的方式。所有的 AI 转录、说话人识别、翻译等功能,都在你的电脑上完成,不需要把视频上传到任何服务器。 • 说话人自动识别与颜色标记:它能自动识别出不同的说话人,给每个说话人分配一个独特的颜色标签。这样在编辑和观看时,谁在说什么一目了然,不用再费劲去区分。 • 多种 AI 模型可选:内置了多种 AI 转录模型,包括 Whisper、Parakeet 和 Moonshine 等。 • DaVinci Resolve 深度集成:它可以直接和 Resolve 集成,一键把生成好的字幕发送到时间线上,甚至支持每个说话人单独设置样式(颜色、轮廓、边框等)。
功能特性
• 一键转录音视频,支持 50+ 语言 • 现代字幕编辑器,精细调整 • 独立模式,不依赖剪辑软件 • 翻译功能,支持英文输出 • 多种导出格式
技术特点
AutoSubs 之所以能做到这么快、这么轻,和它的技术架构分不开。
它是一个基于 Tauri 构建的桌面应用,前端用 React + TypeScript 开发,后端用 Rust 语言写的。
Rust 语言以高性能和内存安全著称,用它来做后端,保证了转录和处理的速度。Tauri 则是一个比 Electron 更轻量的桌面应用框架,让应用的体积更小,占用资源更少。
整个处理流程是这样的:
用户选择文件点击转录 → Rust 后端通过 FFmpeg 预处理音频(归一化、格式转换)→ 转录引擎运行选定的 AI 模型(Whisper/Parakeet/Moonshine)→ 可选运行 Pyannote 进行说话人识别和翻译 → 格式化器应用换行、时间约束和语言特定规则 → 结果实时流式传回 UI。
快速上手
AutoSubs 的使用非常简单,即使是小白也能快速上手。
官网提供了 Windows 和 macOS 的一键安装包,直接下载安装就行。Linux 用户也有 .deb 包可用。
官网地址:https://tom-moroney.com/auto-subs/
或者在项目 Release 下载:https://github.com/tmoroney/auto-subs/releases/latest
写在最后
在视频创作这个领域,好的工具能让效率提升十倍。
AI 技术让繁琐的工作变得简单;它完全开源免费,没有订阅费,没有隐私担忧;它既有独立模式,又能和专业剪辑软件深度集成,满足不同创作者的需求。
如果你正在为字幕制作而烦恼,不妨试试 AutoSubs。或许它能帮你把更多时间用在创作本身,而不是反复调整时间轴上。
GitHub 地址: https://github.com/tmoroney/auto-subs
官网地址: https://tom-moroney.com/auto-subs
相关导航

