-
Notifications
You must be signed in to change notification settings - Fork 56
从字幕生成词库
-
打开从字幕生成词库窗口,然后选择 SRT 字幕,也可以拖放文件到窗口快速打开,
然后选择对应的视频,再然后点击开始
按钮。字幕来源于Sintel英国国家语料库(BNC) 和当代语料库(COCA)里的词频顺序介绍
BNC 词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近 20 年的,为什么两者都要提供呢?很简单,quay(码头)这个词在当代语料库(COCA)里排两万以外,你可能觉得是个没必要掌握的生僻词,而 BNC里面却排在第 8906 名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂 19 世纪即以前的各类名著,你会发现 BNC 的词频很管用。而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC 词频里基本就没收录(没进前 20 万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。BNC 较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代和实时,以和科技紧密相关。所以两者搭配,干活不累。[1] -
在左边的预览区可以看到程序生成的单词。你可以点击左边的过滤词频顺序为0的词,词频为 0 的词包括简单的字母和数字还有一些没有收录进词频顺序的生僻词。
-
可以勾选【过滤 COCA 词频前 1000 的单词】或【过滤 BNC 词频前 1000 的单词】,过滤最常见的 1000 词,这个值可以改成 2000,或 3000。
-
还可以把所有的派生词替换为原型词。
-
如果有数字还可以过滤数字
-
经过前面的过滤之后,还是有你很熟悉的词,比如你已经过了很熟悉牛津核心5000词了,
点击左边的内置词库,然后选择:牛津核心词 -> The_Oxford_5000,选择之后的单词是不是少了很多。 -
如果还有你熟悉的词,可以先把排序改成【按 COCA 词频排序】或【按 BNC 词频排序】,这样熟悉的单词就会出现在最前面。再使用鼠标单击单词的右上角的删除按钮,删除的单词会添加到熟悉词库。
-
也可以在记忆单词的时候删除熟悉的词,把鼠标移动到正在记忆的单词,会弹出一个菜单,可以从这里删除单词。可以直接使用快捷键 Delete 删除单词。
-
词库不要保存到应用程序的安装目录,升级的时候要先卸载软件,卸载的时候会把安装目录删除。如果你想把内置词库和生成的词库放到一起,可以把内置的词库复制出来。