Skip to content

PyThaiNLP/pythainlp

Repository files navigation

PyThaiNLP Logo

PyThaiNLP

Codacy Badgepypi Build Status Build status Coverage Status License

Thai natural language processing in Python.

PyThaiNLP is a Python package for text processing and linguistic analysis, similar to nltk, but with focus on Thai language.

PyThaiNLP supports Python 3.4+. Since version 1.7, PyThaiNLP deprecates its support for Python 2. Python 2 users can still use PyThaiNLP 1.6.

Capabilities

  • Thai word segmentation, including subword segmentation based on Thai Character Cluster (TCC) and ETCC
  • Thai WordNet
  • Thai part-of-speech taggers
  • Thai romanization
  • Thai soundex and MetaSound
  • Thai misspellings detection and spelling correction
  • Thai stop words
  • and much more.

Install

Using pip

$ pip install pythainlp

Documentation

See https://thainlp.org/pythainlp/docs/1.7/

License

Apache Software License 2.0

ภาษาไทย

ประมวลภาษาไทยในภาษา Python

PyThaiNLP เป็นไลบารีภาษาไพทอนเพื่อการประมวลผลภาษาธรรมชาติ โดยเน้นการสนับสนุนภาษาไทย แจกจ่ายฟรี (ตลอดไป) เพื่อคนไทยและชาวโลกทุกคน!

เพราะโลกขับเคลื่อนต่อไปด้วยการแบ่งปัน

รองรับ Python 3.4 ขึ้นไป

ความสามารถ

  • ตัดคำภาษาไทย
  • ถอดเสียงภาษาไทยเป็น Latin
  • ระบุชนิดคำ (part-of-speech) ภาษาไทย
  • อ่านตัวเลขเป็นข้อความภาษาไทย
  • เรียงจำนวนคำของประโยค
  • แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา
  • ตรวจคำสะกดผิดในภาษาไทย
  • รองรับ Thai Character Clusters (TCC) และ ETCC
  • Thai WordNet
  • stop word ภาษาไทย
  • MetaSound และ soundex ภาษาไทย
  • และอื่น ๆ

ติดตั้ง

รุ่นเสถียร

$ pip install pythainlp

รุ่นกำลังพัฒนา

$ pip install https://github.com/PyThaiNLP/pythainlp/archive/dev.zip

เอกสารการใช้งาน

อ่านที่ https://thainlp.org/pythainlp/docs/1.7/

License

Apache Software License 2.0

Logo

ออกแบบโดยคุณ วรุตม์ พสุธาดล จากการประกวดที่ https://www.facebook.com/groups/408004796247683/permalink/475864542795041/ และ https://www.facebook.com/groups/408004796247683/permalink/474262752955220/

สนับสนุน

คุณสามารถร่วมพัฒนาโครงการนี้ได้ โดยการ fork และส่ง pull request กลับมา