corpuscharacterlist.dict.yaml:现代汉语语料库汉字频率表
语料规模:2000万字,只列入出现次数大于5次的字。
汉字频率表没给出多音字在不同读音下的频率,以上注音选取多音字较常见读音
corpuswordlist.dict.yaml:现代汉语语料库词语频率表
语料规模:2000万字,只列入出现次数大于50次的词。
数据来源:语料库在线网站
sogouw.dict.yaml:互联网词库(SogouW)
互联网词库(SogouW)来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,标出了这部分词条的词频信息。
数据来源:搜狗实验室
示例:
我们	wo men	26823
一个	yi ge	24807
与	yu	23823
从	cong	23749
polyphones.dict.yaml:用以解决汉字频率表中的多音字注音的问题
因汉字频率表中并无多音字不同读音下的频率,故此表无汉字出现频率
数据来源:PolyphoneDisambiguation
示例:
乐	le
乐	yue
乘	cheng
乘	sheng
symbols.dict.yaml:部分数学符号、Emoji表情及希腊字母
拼音输出特殊符号(如☑,α,Ⅷ,⑧,😀等)
Emoji数据来源:fcitx-emoji
示例:
✓	gou
✖	cha
∫	jifen
∞	wuxian
α	alpha
β	beta
😂	xiaoku
😃	haha
Ⅶ	qi
⑦	qi