Thai natural language processing in Python.
PyThaiNLP is a Python package for text processing and linguistic analysis, similar to nltk, but with focus on Thai language.
PyThaiNLP supports Python 3.4+. Since version 1.7, PyThaiNLP deprecates its support for Python 2. Python 2 users can still use PyThaiNLP 1.6.
- Thai word segmentation, including subword segmentation based on Thai Character Cluster (TCC) and ETCC
- Thai WordNet
- Thai part-of-speech taggers
- Thai romanization
- Thai soundex and MetaSound
- Thai misspellings detection and spelling correction
- Thai stop words
- and much more.
Using pip
$ pip install pythainlpSee https://thainlp.org/pythainlp/docs/1.7/
ประมวลภาษาไทยในภาษา Python
PyThaiNLP เป็นไลบารีภาษาไพทอนเพื่อการประมวลผลภาษาธรรมชาติ โดยเน้นการสนับสนุนภาษาไทย แจกจ่ายฟรี (ตลอดไป) เพื่อคนไทยและชาวโลกทุกคน!
เพราะโลกขับเคลื่อนต่อไปด้วยการแบ่งปัน
รองรับ Python 3.4 ขึ้นไป
- หน้าหลัก GitHub: https://github.com/PyThaiNLP/pythainlp/
- ตัดคำภาษาไทย
- ถอดเสียงภาษาไทยเป็น Latin
- ระบุชนิดคำ (part-of-speech) ภาษาไทย
- อ่านตัวเลขเป็นข้อความภาษาไทย
- เรียงจำนวนคำของประโยค
- แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา
- ตรวจคำสะกดผิดในภาษาไทย
- รองรับ Thai Character Clusters (TCC) และ ETCC
- Thai WordNet
- stop word ภาษาไทย
- MetaSound และ soundex ภาษาไทย
- และอื่น ๆ
รุ่นเสถียร
$ pip install pythainlpรุ่นกำลังพัฒนา
$ pip install https://github.com/PyThaiNLP/pythainlp/archive/dev.zipอ่านที่ https://thainlp.org/pythainlp/docs/1.7/
ออกแบบโดยคุณ วรุตม์ พสุธาดล จากการประกวดที่ https://www.facebook.com/groups/408004796247683/permalink/475864542795041/ และ https://www.facebook.com/groups/408004796247683/permalink/474262752955220/
คุณสามารถร่วมพัฒนาโครงการนี้ได้ โดยการ fork และส่ง pull request กลับมา