AI字幕基于whisper.cpp,支持在本地直接为视频生成字幕,同时支持通过chatgpt对识别结果进行翻译。

下载地址:百度云

下载后解压放到extension\app目录下

使用方法

点击“打开文件”选择一个视频文件,或者直接选择KikoPlay正在播放的文件。如果只是想翻译字幕,也支持仅打开srt字幕文件:

点击“识别字幕” 开始识别,如果提示“请在设置中指定whisper模型文件”,在设置页中先设置 whisper模型文件,默认携带了base版本模型(位于model目录)

识别结束后可点击“翻译字幕”进行翻译(需要设置chatgpt api):

可直接双击识别结果进行修改。点击“保存字幕”可将结果保存为srt字幕文件,可保存原始/识别/双语结果:

保存后可点击“载入KikoPlay”将字幕直接加载到KikoPlay正在播放的文件里。

设置

  • 使用cuda加速whisper识别:如果系统安装了cuda,可勾选这个选项加速识别过程。(whisper.cpp加载相同的模型,cpu/gpu识别相同的文件可能有不同的结果)
  • whisper模型文件:默认打包了base版本的模型(位于model目录下),可以自行下载更大的模型(识别效果会更好):huggingface, ggerganov, 魔塔社区
  • 视频语言识别:默认是”auto”,由whisper自动检测,如果检测不正确,可手动指定:(只输入:前面的部分)
     en: english,
     zh: chinese,
     de: german,
     es: spanish,
     ru: russian,
     ko: korean,
     fr: french,
     ja: japanese,
     pt: portuguese,
     tr: turkish,
     pl: polish,
     ca: catalan,
     nl: dutch,
     ar: arabic,
     sv: swedish,
     it: italian,
     id: indonesian,
     hi: hindi,
     fi: finnish,
     vi: vietnamese,
     he: hebrew,
     uk: ukrainian,
     el: greek,
     ms: malay,
     cs: czech,
     ro: romanian,
     da: danish,
     hu: hungarian,
     ta: tamil,
     no: norwegian,
     th: thai,
     ur: urdu,
     hr: croatian,
     bg: bulgarian,
     lt: lithuanian,
     la: latin,
     mi: maori,
     ml: malayalam,
     cy: welsh,
     sk: slovak,
     te: telugu,
     fa: persian,
     lv: latvian,
     bn: bengali,
     sr: serbian,
     az: azerbaijani,
     sl: slovenian,
     kn: kannada,
     et: estonian,
     mk: macedonian,
     br: breton,
     eu: basque,
     is: icelandic,
     hy: armenian,
     ne: nepali,
     mn: mongolian,
     bs: bosnian,
     kk: kazakh,
     sq: albanian,
     sw: swahili,
     gl: galician,
     mr: marathi,
     pa: punjabi,
     si: sinhala,
     km: khmer,
     sn: shona,
     yo: yoruba,
     so: somali,
     af: afrikaans,
     oc: occitan,
     ka: georgian,
     be: belarusian,
     tg: tajik,
     sd: sindhi,
     gu: gujarati,
     am: amharic,
     yi: yiddish,
     lo: lao,
     uz: uzbek,
     fo: faroese,
     ht: haitian creole,
     ps: pashto,
     tk: turkmen,
     nn: nynorsk,
     mt: maltese,
     sa: sanskrit,
     lb: luxembourgish,
     my: myanmar,
     bo: tibetan,
     tl: tagalog,
     mg: malagasy,
     as: assamese,
     tt: tatar,
     haw: hawaiian,
     ln: lingala,
     ha: hausa,
     ba: bashkir,
     jw: javanese,
     su: sundanese,
     yue: cantonese,
    
  • 启用VAD:支持基于silero-vad的vad检测,如果音频中包含较多空白影响whisper检测效果,可尝试开启。

    开启后,在whisper识别前会执行vad检测,提取包含语音的片段合并后再由whisper识别,最终将识别结果映射会原始音频的位置。

    可调整 检测阈值、语音之间的最小空白、语音最少持续 三个选项来取得更好的检测效果。

  • ChatGPT API Key:可从这里免费获取一个支持chatgpt 3.5的API Key,需要有github账户。
  • ChatGPT翻译Prompt:通过Prompt引导chatgpt进行翻译,可自行调整
  • ChatGPT每次请求翻译条数:条数越少请求次数越多,但条数多可能影响识别效果。