Skip to content

snoopycat/Mohaema

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Mohaema 中文分词系统

介绍

这是基于字典和原则的中文分词项目,可以支持快速且准确的中文分词,同时可以根据新文本和旧字典生成新字典,也通过PyQt支持UI界面显示。

详细介绍和算法可在report/下找到。

使用方法

Python程序内部调用

from moha import segment
segment("艺术是什么")

#函数返回 "艺术  是  什么"

命令行调用

python moha.py "伙伴精神是二十国集团最宝贵的财富"
# 伙伴  精神  是  二十国  集团  最  宝贵  的  财富

python moha.py [infile] [outfile]
# 可以在outfile文件下写入对infile的分词结果

曾经的README

This is the final version of our team project.


/programm/project.py main programm (note: cannot run without PyQt4) /data all the work aimed at G20 corpus /lex lex-building /report project report

/data/segtest.txt testing-corpus mentioned in report /data/G20_3.txt corpus from G20

Contact: zhangyinqing@sjtu.edu.cn Zhang Yinqing 2017/01/10

About

Mohaema Chinese Segmenter System Mohaema 中文分词系统

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%