Skip to content

Commit f6b310b

Browse files
committed
add pylexto
1 parent fd8dbae commit f6b310b

File tree

3 files changed

+21
-1
lines changed

3 files changed

+21
-1
lines changed

docs/pythainlp-1-4-thai.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -51,6 +51,7 @@ engine คือ ระบบตัดคำไทย ปัจจุบัน
5151
1. icu - engine ตัวดั้งเดิมของ PyThaiNLP (ความแม่นยำต่ำ) และเป็นค่าเริ่มต้น
5252
2. dict - เป็นการตัดคำโดยใช้พจานุกรมจาก thaiword.txt ใน corpus (ความแม่นยำปานกลาง)
5353
3. mm - ใช้ Maximum Matching algorithm ในการตัดคำภาษาไทย
54+
4. pylexto ใช้ LexTo ในการตัดคำ
5455

5556
คืนค่าเป็น ''list'' เช่น ['แมว','กิน']
5657

pythainlp/tokenize/__init__.py

Lines changed: 4 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -4,16 +4,19 @@ def word_tokenize(text,engine='icu'):
44
"""
55
ระบบตัดคำภาษาไทย
66
7-
word_tokenize(text,engine='icu')
7+
word_tokenize(text,engine='mm')
88
engine มี
99
- icu
1010
- dict
1111
- mm ใช้ Maximum Matching algorithm
12+
- pylexto ใช้ LexTo ในการตัดคำ
1213
"""
1314
if engine=='icu':
1415
from .pyicu import segment
1516
elif engine=='dict':
1617
from .dict import segment
1718
elif engine=='mm':
1819
from .mm import segment
20+
elif engine=='pylexto':
21+
from .pylexto import segment
1922
return segment(text)

pythainlp/tokenize/pylexto.py

Lines changed: 16 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,16 @@
1+
# -*- coding: utf-8 -*-
2+
from __future__ import absolute_import,unicode_literals
3+
import sys
4+
try:
5+
from pylexto import LexTo
6+
except ImportError:
7+
import pip
8+
pip.main(['install','https://github.com/wannaphongcom/pylexto/archive/master.zip'])
9+
try:
10+
from pylexto import LexTo
11+
except ImportError:
12+
sys.exit('Error ! using pip install https://github.com/wannaphongcom/pylexto/archive/master.zip')
13+
def segment(text):
14+
lexto = LexTo()
15+
words, types = lexto.tokenize(text)
16+
return words

0 commit comments

Comments
 (0)