You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
This commit was created on GitHub.com and signed with GitHub’s verified signature.
The key has expired.
1. Use morpheme features
Unlike 2.xx, unspecified eomi can also be segmented. (default backend is pynori)
e.g. ~소서(경어), ~세용(신조어), ~했음/임(전성어미) ~구나(미등록 어미), etc.
>>>split_sentences("부디 만수무강 하옵소서 천천히 가세용~ 너 밥을 먹는구나 응 맞아 난 근데 어제 이사했음 그랬구나 이제 마지막임 응응")
['부디 만수무강 하옵소서', '천천히 가세용~', '너 밥을 먹는구나', '응 맞아 난 근데 어제 이사했음', '그랬구나 이제 마지막임', '응응']
Boost segmentation speed via changing morpheme analyzer backend to mecab.
>>>split_sentences("부디 만수무강 하옵소서 천천히 가세용~ 너 밥을 먹는구나 응 맞아 난 근데 어제 이사했음 그랬구나 이제 마지막임 응응", backend="mecab")
['부디 만수무강 하옵소서', '천천히 가세용~', '너 밥을 먹는구나', '응 맞아 난 근데 어제 이사했음', '그랬구나 이제 마지막임', '응응']
You can turn off this by changing morpheme analyzer backend to none.
>>>split_sentences("부디 만수무강 하옵소서 천천히 가세용~ 너 밥을 먹는구나 응 맞아 난 근데 어제 이사했음 그랬구나 이제 마지막임 응응", backend="none")
['부디 만수무강 하옵소서 천천히 가세용~ 너 밥을 먹는구나 응 맞아 난 근데 어제 이사했음 그랬구나 이제 마지막임 응응']
2. Support multiprocessing and batch processing
You can input Tuple[str] and List[str] as input text for batch processing.
>>>split_sentences(["안녕하세요 반가워요", "반갑습니다. 잘 지내시나요?"])
[['안녕하세요', '반가워요'], ['반갑습니다.', '잘 지내시나요?']]
You can change the number of multiprocess worker. default is -1 (max)