Lazy loaded image
🗒️视频翻译工具:支持语音识别、在线翻译、文字合成语音、去背景音乐
Words 826Read Time 3 min
2023-12-3
2023-12-3
type
date
slug
status
summary
tags
category
password
icon
这是一个视频翻译工具,可将一种语言的视频翻译为另一种语言和配音的视频。语音识别基于 openai-whisper 离线模型、文字翻译使用google翻译接口,文字合成语音使用 Microsoft Edge tts,背景音乐去除使用 Spleeter,无需购买任何商业接口,也无需付费。
notion image
## 使用说明
  1. 只可用于 win10 win11 系统 (编译版非最新,建议源码部署)
  1. 从 release 中下载最新版,解压,双击 sp.exe
  1. 原始视频目录:选择mp4视频;
  1. 输出视频目录:如果不选择,则默认生成在同目录下的 _video_out
  1. 网络代理地址:如果你所在地区无法直接访问 google,需要在软件界面 网络代理 中设置代理,比如若使用 v2ray ,则填写 http://127.0.0.1:10809,若clash,则填写 http://127.0.0.1:7890. 如果你修改了默认端口或使用的其他代理软件,则按需填写
  1. 视频原始语言:选择待翻译视频里的语言种类
  1. 翻译目标语言:选择希望翻译到的语言种类
  1. 选择配音:选择翻译目标语言后,可从配音选项中,选择配音角色;
    1. 嵌入字幕:是否翻译后将字幕嵌入视频 (该参数和“选择配音”必须至少设置其中一个,也就是不能“既不嵌入字幕又不选择配音角色”)
  1. 文字识别模型: 选择 base/small/medium/large, 识别效果越来越好,但识别速度越来越慢,第一次将需要下载模型,默认 base,可以预先单独下载模型后,放到 当前软件目录/models目录下.
  1. 配音语速:填写 -90到+90 之间的数字,同样一句话在不同语言语音下,所需时间是不同的,因此配音后可能声画字幕不同步,可以调整此处语速,负数代表降速,正数代表加速播放。
  1. 自动加速: 如果翻译后的语音时长大于原时长,并且这里确认选中,那么将强制加速播放该片段,以缩小时长
  1. 去除背景音:若选中可尝试删掉背景音乐,以使结果更准确
  1. 静音片段: 填写100到2000的数字,代表毫秒,默认 500,即以大于等于 500ms 的静音片段为区间分割语音
  1. 点击 开始按钮 底部会显示当前进度和日志,右侧文本框内显示字幕
原始视频统一使用mp4格式,处理速度快,网络兼容性好
采用软合成字幕:字幕作为单独文件嵌入视频,可再次提取出,如果播放器支持,可在播放器字幕管理中启用或禁用字幕;
默认会在 原始视频目录 下生成同名的字幕文件 视频名.srt
对于无法识别的语音将直接复制原语音
github项目地址https://github.com/jianchang512/pyvideotrans
版本下载地址
https://github.com/jianchang512/pyvideotrans/releases
完整版国内下载地址
https://www.123pan.com/s/p6cA-FuUG.html
上一篇
Inke:AI加持的Markdown在线工具
下一篇
跨平台局域网传输工具LocalSend:单文件!无联网共享文件和消息