GitHub

功能

解析视频文件，提取其中文字以及对应的时间节点。主要用于语料生成。

生成的语料不能保证完全正确，还需要后续标注。

将视频文件放到 videos 目录下
运行 get_position.py 手动确定视频中字幕的具体位置
运行 extract_subtitle.py
1. 截取视频每一帧字幕位置的图片，保存在 frame_img 目录下
2. 提取图片中文字，生成 时间点+文字内容 的文件
运行 to_textgrid.py 生成 textgrid 文件
自行调用 del_file.py 里的函数，多线程删除中间文件

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitignore		.gitignore
README.md		README.md
del_file.py		del_file.py
extract_subtitle.py		extract_subtitle.py
get_position.py		get_position.py
listen.py		listen.py
to_textgrid.py		to_textgrid.py