辛苦找到的国外"学习资料",没有字幕怎么办?

主流流媒体平台youtobe会提供自带的字幕生成并且实时翻译,但翻译较为机械且具有滞后性;并且大部分老司机的硬盘里面的影片往往无法在线生成字幕并翻译,那么有没一款支持本地离线的智能字幕生成工具

所以本期要分享的VideoCaptioner便是为了解决这一问题,该开源项目已在Github斩获 2.2k stars,通过该项目能够实现离线本地,无需GPU即可使用强大的语音识别引擎,生成精准字幕
此外,该工具还支持在线视频直接输入链接,自动解析下载视频并翻译

项目简介
VideoCaptioner是一款开源的轻量级视频字幕生成工具,一款基于大语言模型(LLM)的视频字幕处理助手,支持语音识别、字幕断句、优化、翻译全流程处理
软件完全开源免费,操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。

🎯 无需GPU即可使用强大的语音识别引擎,生成精准字幕
✂️ 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
🔄 AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
🎬 支持批量视频字幕合成,提升处理效率
📝 直观的字幕编辑查看界面,支持实时预览和快捷编辑
🤖 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
快速上手
进入主界面,直接新建任务,这里以B站一部韩国MV来做演示,直接输入地址栏链接后软件会自动解析并下载视频到本地(可当作视频下载工具用),目前支持国内外主流视频平台(B站、Youtube等)

软件会自动提取视频原有字幕进行处理并翻译,提供多种接口在线识别,效果媲美剪映(免费、高速),支持本地Whisper模型(保护隐私、可离线),开启字幕智能纠错可以自动优化专业术语、代码片段和数学公式格式


软件支持文稿提示,使用原有文稿或者相关提示优化字幕断句,如果不知道是什么,可以跳过

直接开始选择合成

合成后打开视频文件目录,看到卡卡开头便是转换后的视频,相对于原视频将多出中韩对照字幕;至于处理时长,我这个1分多钟的视频只用了十几秒
官方的参考:全流程处理一个14分钟1080P的 B站英文 TED 视频,调用本地 Whisper 模型进行语音识别,使用 gpt-4o-mini
模型优化和翻译为中文,总共消耗时间约 4 分钟。

软件甚至支持批量处理视频,这对于硬盘资源多不胜数的老司机来说,简直就是福音
关于字幕样式调整,软件提供了丰富的字幕样式模板(科普风、新闻风、番剧风等等)以及多种格式字幕视频(SRT、ASS、VTT、TXT),可根据自己需求调整风格

相关链接
项目地址:https://github.com/WEIFENG2333/VideoCaptioner
网盘下载:https://pan.quark.cn/s/d01f360eadd7