一般网上找的词库都是等权的,没有按照频率权重,效果不是佷好,所以自己从语料库词频表自己做了。
现代汉语 top100 常用词
> 的 744863 > 了 130191 > 在 118823 > 是 118527 > 和 83958 > 一 81119 > 这 65146 > 有 53556 > 他 52912 > 我 52728 > 也 47908 > 不 46965 > 就 44947 > 地 42332 > 着 41116 > 中 40849 > 上 38084 > 说 35429 > 都 34323 > 人 33991 > 个 31512 > 对 30936 > 种 30123 > 把 29749 > 为 29265 > 要 29039 > 你 28769 > 而 28404 > 来 28038 > 我们 26823 > 又 25715 > 一个 24807 > 与 23823 > 从 23749 > 年 22029 > 到 21744 > 还 21148 > 它 21041 > 大 20907 > 等 20210 > 她 19915 > 两 19539 > 去 18963 > 没有 18950 > 里 18805 > 得 18698 > 时 18257 > 多 18064 > 他们 17787 > 发展 17331 > 用 17259 > 那 17198 > 以 17181 > 所 17101 > 很 16774 > 可以 16734 > 使 16571 > 但 15963 > 自己 14793 > 小 14509 > 之 14428 > 能 14413 > 下 14051 > 或 13918 > 看 13758 > 就是 13715 > 被 13624 > 什么 13589 > 三 13220 > 这个 13202 > 会 12996 > 好 12660 > 可 12457 > 后 12144 > 这样 11980 > 给 11678 > 向 11609 > 社会 11461 > 由 11413 > 进行 11087 > 问题 10899 > 工作 10531 > 如 10502 > 呢 10425 > 于 10296 > 其 10206 > 起来 10196 > 国家 10139 > 过 10047 > 不能 10033- 搜狗互联网词库(SogouW) https://www.sogou.com/labs/resource/w.php
另外有更大的清华大学的分类词频库:http://thuocl.thunlp.org/sendMessage