-
Notifications
You must be signed in to change notification settings - Fork 562
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请解决librime地球拼音声调(数字)对词频(数字)的影响? #507
Comments
用了八股文否? |
@LEOYoon-Tsaw |
有測試數據嗎? |
没有 |
出廠的詞序就很好啊,說明librime可以正確地爲不同聲調按固態詞典的詞頻排序。 沒有數據,那怎麼驗證問題呢。 |
@lotem
|
最近玩了几天小麦注音。 你看 /Data-CHS(或CHT)/phrase.occ 这东西,我敢打赌这东西比 RIME 的八股文还要聪明一点。 不过这间接证明一个问题:小麦注音与 RIME 的八股文都没有针对读音定义词频。 Rime 目前这样在地球拼音的音运库当中单独逐一对每一笔记录使用百分比加权的方法,虽看似精准,却未免太被动。 你现在遇到的问题,没准使用我维护的这个仓库的 phrase.occ 的内容当做八股文的话会有转机。 (简体版的音韵表与 PHRASE.OCC 是我亲自维护的,包括化学元素在内的很多生僻用字都是正确指定到万国码上的、而非 PUA。其词频数据源自小麦注音原始仓库,自然是被我做过安全处理的。) |
我知啦,因爲你是在用簡拼。 如果你不要輸入聲調,就用明月拼音,如果要輸入聲調才用地球拼音。如果是「偶爾」才輸入一下聲調,請切換方案,或者在方案中添加多個translator實現。 此案了結。 |
1\采用“- abbrev/^([a-z]+)[0-5]$/$1/”简拼法则,结果还是上面“小狼亳测试一”的结果; |
@ShikiSuen |
@wwzrh 他就故意摻的私貨(不只這些,而是從第一個 commit 裡面的詞庫開始就有了): 但因為是 MIT 專案,所以我們這些用家將這些內容刪掉就好。 |
|
稍微吐槽一下好了: 這樣能省很多筆空間,特別是在基礎音韻表支援全字庫那種超過十萬漢字的情況下。 |
這個說法不對, |
地球拼音的註音數據相對於朙月拼音相對不足,補足這個差距需要大量工作。 |
@lotem 那就先用全字庫的讀音數據將缺少的字的讀音先補上。 |
P.S.: 我收集的全字庫數據來自 2020 年底的最新版,理論上已經包含了所有簡體中文字與傳統漢字……但可能會有漏收某些簡體中文「超冷僻字」的情況。 |
不止單個漢字。還有包含多音字的詞語的註音。 我覺得不要在這裏繼續偏題了。如果有興趣您可以開一個新的試驗項目。我覺得這是個大工程。 |
@lotem 那這就得寫腳本轉換了。 |
@ShikiSuen 你覺得啥都有了,那不妨另做一個方案,先用起來。各方面都有優勢的話,大家自然會採用。 |
@lotem 正好我想跟您确认一下: |
This comment has been minimized.
This comment has been minimized.
當然不包含。至少缺少多音字在詞語中聲調消歧的數據,比如數字(shù zì)。另外兩份詞典各自經過衆多次編輯、導入詞條的操作。 |
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
@lotem 解决了吗?能编译一个rime来用用吗? |
好像是修好了 |
在“https://github.com/rime/weasel/issues/678 请帮忙测试一下小狼亳词频问题:”
经测试terra pinyin.dict.yaml地球拼音
码表词频排列:
|
今年 jin1 nian2 50127
近年 jin4 nian2 15720
瑾年 jin3 nian2 9
锦年 jin3 nian2 3
在初始部署下,没有输调情况下,输入显示为:
https://github.com/rime/weasel/issues/678
不是:今年→近年→瑾年→锦年
而是:今年→瑾年→近年→锦年
测试小狼亳【朙月拼音】【袖珍簡化字拼音】和手机同文Trime的都是正确显示“今年→近年→瑾年→锦年|”,
这体现了,不是小狼亳的问题,而是librime的bug问题。
请@lotem 大哥解决!
The text was updated successfully, but these errors were encountered: