Списък с думи на български език.
Зависимости:
- wget
- sed
- unzip
- awk
- hunspell
- hunspell-bg
./update.sh
За генериране на списъка:
wget https://github.com/chitanka/content-text/archive/master.zip
unzip -p master.zip | sed "s/[^а-я^А-Я]/\n/g" | sed "/^.{,1}$/d" | awk '{print tolower($0)}' | sort -u > dict.txt
За генериране на списъка с валидните думи е използван hunspell
:
hunspell -d bg_BG -G dict.txt | sort -u > dict.spellchecked.txt
Използван е корпус от https://github.com/chitanka/content-text.