此项目为我在开发 overtrue/pinyin 时所用到的参考的资料收集,旨在方便有同样需求的朋友。
以下内容摘自: 《汉语同音字和多音字处理方法研究》- 杨宪泽,谈文蓉,刘玉萍,张 楠,殷 锋
中文是象形文字,字数多,字形复杂。西文是拼音文字,英文只有 26 个字母,加上大写小写及数字符号,总数不超过 128 个,用七位二进制码就可表达。而中文字成千上万,要用十几位二进制码才能把它们区别开来, 这给存储乃至输入方式等都造成困难。
多音字判别方法中技术的关键是基于统计特征, 特征提取使多音字正确判音有效。特征包含在特征词典中, 采用规则描述。共定义了以下特征:
-
词内左右邻接字
通式为: Xi-1 Xi 和 Xi Xi+1。Xi 是当前要判断读音的多音字,这是处理多音字在不同的词语中读不同的音的情况 。例如 “人参” 与 “参加”、“银行” 与 “行程”、“重量” 与 “重复” 等等 。
-
左右邻接词
通式为:Wi-1 Xi 和 XiWi+1 。X 是当前要判断读音的多音字,Wi-1 和 Wi+1 是多音字 的左右邻接词,这是处理多音字与不同的邻接词读不同的音的情况 。例如“相当长”、“大队长”、“长方形” 等等。
-
当前词的词性
例如 “数” 作名词的读法和作动词的读法,“更” 作名词的读法和作副词的读法等等。
-
边界条件
该特征是有的字在句首 、句末或不同位置读音不同,更多地体现在一些语气助词上面 。例如 “了” 在句中和句末时读音往往不会相同 。
- 《Frequency statistics 频率统计 - 音素和音节频率》- http://lingua.mtsu.edu
- 《Syllable frequencies with tones 记调音节频率》- http://lingua.mtsu.edu
- 《Character frequency lists 汉字单字频率列表》- http://lingua.mtsu.edu
- 《普通话异读词审音表》1985 年 12 月修订 - 国家语言文字工作委员会
CC0 1.0 Universal