卡卡字幕助手(VideoCaptioner)
扫码查看

卡卡字幕助手(VideoCaptioner)

综合介绍

卡卡字幕助手(VideoCaptioner)是一款基于大语言模型(LLM)的智能字幕处理工具,它为用户提供从视频语音识别、字幕生成、智能断句、校正优化到多语言翻译的全流程解决方案。该工具操作简单,对硬件配置要求不高,支持在线和离线两种语音识别模式,能够满足不同用户的使用需求。用户无需具备专业的视频处理技能,即可通过该软件为视频快速生成和配置高质量的字幕。其核心优势在于利用大语言模型的上下文理解能力,对识别出的字幕进行智能优化,包括修正错别字、统一专业术语,并生成符合自然语言习惯的字幕分段,显著提升观众的阅读体验。同时,该软件支持批量处理,并提供直观的字幕编辑和预览界面,进一步提高了视频创作者的工作效率。

功能列表

  • 多平台视频处理: 支持从B站、YouTube、抖音、小红书等主流视频平台下载视频并自动提取字幕进行处理。
  • 多种语音识别引擎: 提供多种在线语音识别接口,并支持本地离线的Whisper模型,用户可在保护隐私的同时进行高效识别。
  • 智能字幕断句与校正: 利用大语言模型优化字幕断句,使其更符合阅读习惯,并能自动校正错别字、标点及专业术语。
  • 高质量多语言翻译: 结合上下文进行智能翻译,并可通过Prompt引导大模型进行“反思翻译”,提升译文质量。
  • VAD语音活动检测: 自动过滤视频中的无人声片段,减少语音识别过程中可能出现的幻觉(生成不存在的文本)现象。
  • 人声分离: 内置MDX-Net降噪功能,可将人声与背景音乐分离,提升嘈杂环境下语音识别的准确率。
  • 字幕样式自定义: 提供多种预设字幕样式模板,如科普风、新闻风等,并支持生成SRT、ASS等多种格式的字幕文件。
  • 批量处理与实时预览: 支持批量处理多个视频文件,并提供直观的编辑界面,用户可以实时预览字幕效果并进行快捷编辑。
  • 软字幕与硬字幕合成: 用户可选择将字幕文件作为软字幕(需要播放器支持)或直接将字幕烧录进视频(硬字幕)。

使用帮助

安装与启动

Windows 用户 (推荐)

  1. 从项目的 Release 页面或备用下载链接(如蓝奏盘)下载最新版本的打包程序。
  2. 该程序是绿色版,体积小(约60MB),集成了所有运行环境,下载后直接打开安装包进行安装即可。
  3. 安装完成后,运行主程序 VideoCaptioner.exe

macOS / Linux 用户由于缺乏macOS设备进行测试和打包,目前没有提供macOS的可执行程序,需要通过源码运行。

  1. 环境准备:
    • macOS用户需先安装 Homebrew。
    • 通过包管理器安装必要的系统工具:ffmpeg (用于视频处理) 和 aria2 (用于加速下载)。
      # macOS
      brew install ffmpeg brew install aria2
      # Linux (Debian/Ubuntu)
      sudo apt update && sudo apt install ffmpeg aria2
      
  2. 克隆项目:打开终端,克隆 VideoCaptioner 的代码仓库并进入项目目录。
    git clone https://github.com/WEIFENG2333/VideoCaptioner.git
    cd VideoCaptioner
    
  3. 运行启动脚本:为 run.sh 脚本添加执行权限并运行它。
    chmod +x run.sh
    ./run.sh
    

    该脚本会自动检测并创建Python虚拟环境、安装依赖项,并最终启动应用程序。

基本配置

软件的核心功能依赖于大语言模型(LLM)、翻译服务和语音识别引擎。使用前,请根据你的需求进行配置。

1. LLM API 配置大语言模型用于字幕的智能断句、校正和翻译。

  • 内置公益模型: 软件内置了基于 gpt-4o-mini 的免费公益接口,开箱即用,但服务可能不稳定,建议配置自己的API。
  • 使用自定义API: 软件支持接入兼容OpenAI接口的各种大模型服务(如DeepSeek, SiliconCloud等)。在设置中填入服务商提供的 BaseURL 和 API-key 即可。
  • 推荐中转站: 为了获得更高的并发处理能力和更优的性价比,推荐使用项目官方提供的LLM API中转站 https://api.videocaptioner.cn。注册后,在软件设置中填入以下信息:
    • BaseURLhttps://api.videocaptioner.cn/v1
    • API-key: 在中转站个人中心的API令牌页面获取。

2. 语音识别配置

  • 在线接口: 内置多个免费在线识别接口(B接口、J接口),速度快,适合中英文视频。
  • 本地模型 (fasterWhisper): 推荐使用 fasterWhisper 进行本地识别,它支持99种语言,准确率更高,尤其适合外语视频,并且支持CUDA加速。
    • 在软件的语音识别配置页面,选择 fasterWhisper
    • 根据提示下载所需的识别模型。对于中文视频,建议至少使用 Medium 模型;对于英文,Small 模型即可获得不错的效果;如果硬件允许,推荐使用 Large-v2 模型以获得最佳效果。

3. 翻译配置

  • LLM 大模型翻译: 翻译质量最高的选项,能结合上下文生成自然流畅的译文。需完成LLM API配置。
  • 其他翻译服务: 同时支持DeepLx、微软翻译和谷歌翻译等多种接口。

操作流程

软件采用模块化设计,你可以执行全流程处理,也可以单独使用某个功能。

  1. 启动与文件导入: 打开软件,直接将一个或多个视频文件拖拽到软件窗口中。
  2. 语音转录:
    • 在“语音转录”页面,选择配置好的语音识别接口。
    • VAD过滤: 默认开启,能有效过滤视频中的无声片段。
    • 音频分离: 如果视频背景音嘈杂,建议开启此功能以提取更纯净的人声。
    • 点击“开始”,软件将自动识别视频中的语音并生成初步的字幕文本。
  3. 字幕优化与翻译:
    • 转录完成后,结果会自动进入此页面。
    • 智能断句: 开启后,LLM会根据语义将长文本切分为更适合阅读的短句。
    • 字幕校正: 开启后,LLM会自动修正文本中的错别字、标点符号和格式问题。
    • 翻译: 如果需要翻译,选择目标语言和翻译服务。若使用LLM翻译,可开启“反思翻译”以提升质量。
    • 文稿匹配: 如果有视频的原始文稿或专业术语表,可在此处粘贴,以辅助LLM进行更精准的校正和翻译。
  4. 字幕视频合成:
    • 在此页面,你可以对字幕的最终样式进行调整,例如选择不同的字体、颜色和背景模板。
    • 视频合成: 开启此选项,软件会将优化后的字幕烧录到视频上,生成一个新的视频文件。
    • 软字幕: 如果你希望保留字幕的灵活性,可以关闭“视频合成”,软件将只生成一个独立的字幕文件(如 .srt 或 .ass 格式)。这种字幕需要PotPlayer等现代播放器才能加载显示。
    • 处理完成的文件会保存在工作目录 work-dir/ 下。

应用场景

  1. 视频内容创作者为YouTube、B站、抖音等平台的视频快速生成和嵌入高质量的双语或单语字幕,提升视频的观赏性和传播范围。创作者无需再手动打轴和校对,大幅提升后期制作效率。
  2. 在线教育与课程制作为在线课程、教学视频、学术讲座等内容制作精准的字幕。通过“文稿匹配”功能,可以确保视频字幕与教学讲义中的专业术语、公式等内容完全一致,方便学生理解和复习。
  3. 外语学习者利用该工具为外语电影、剧集或学习资料生成双语字幕。通过对比原文和译文,结合精准的时间轴,可以有效地进行跟读练习和语言学习。
  4. 企业内部培训与会议记录将企业内部的培训视频、网络会议录屏等内容快速转换为带字幕的视频或文字稿。方便员工回顾和检索会议内容,也便于存档和分享。

QA

  1. 这个软件需要付费吗?软件本身是开源免费的。但其核心功能依赖第三方服务,其中一些可能是收费的。例如,使用更高质量的大语言模型(LLM)进行字幕校正和翻译会消耗API提供商的Token,这通常需要付费。但软件也内置了免费的在线语音识别接口和公益LLM模型,可满足基本使用。
  2. 我的电脑没有高端显卡(GPU),能使用吗?可以。软件的核心功能对GPU没有硬性要求。在线语音识别接口和大部分LLM服务都在云端运行。只有当你选择使用本地的 fasterWhisper 模型并希望通过CUDA加速时,才需要NVIDIA显卡。没有GPU的用户仍然可以顺畅地使用CPU进行本地识别或选择在线接口。
  3. 为什么我下载的视频清晰度很低?部分视频网站(如B站)对未登录的下载请求会限制视频的清晰度。要解决此问题,你需要在浏览器中登录相应网站,然后使用Cookie提取工具(如EditThisCookie插件)导出 cookies.txt 文件,并将其放置在软件安装目录的 AppData/ 文件夹下。这样,软件就能以你的登录状态下载高清视频。
  4. 什么是“软字幕”和“硬字幕”?
    • 硬字幕:指将字幕的文字图像直接“烧录”或“压制”到视频画面中,成为视频的一部分。优点是任何播放器都能显示,缺点是用户无法关闭或更改字幕样式。
    • 软字幕:指一个独立的字幕文件(如SRT、ASS格式),与视频文件分开。播放时由播放器加载并实时叠加到视频上。优点是用户可以自由开关字幕、切换语言或自定义样式,缺点是需要播放器支持。
  5. 处理速度很慢怎么办?处理速度主要受网络状况、API并发能力和视频时长的影响。如果感觉慢,可以尝试以下方法:
    • 如果你使用的是自定义LLM API,并且服务商支持高并发,可以在软件设置中适当调高“线程数”。
    • 检查网络连接是否稳定。
    • 使用本地 fasterWhisper 模型时,如果设备支持,确保已开启CUDA加速。
微信微博Email复制链接