Skip to content

Компилятор aot-словарей в бинарный формат быстрого поиска

License

Notifications You must be signed in to change notification settings

demidko/aot-compiler

Repository files navigation

Aot Compiler

Компилятор файлов aot-словаря русской морфологии в оптимизированный для быстрого поиска бинарный формат.

Исходный текстовый формат

Документация расположена в оригинальном репозитории aot.

Оптимизированный бинарный формат (mrd.gz)

количество морфологий
морфология
...
морфология 

количество строк
строка
...
строка

количество лемм
(индекс строки, индекс морфологии) (индекс строки, индекс морфологии)... (индекс строки, индекс морфологии) (индекс строки, индекс морфологии)
(индекс строки, индекс морфологии) (индекс строки, индекс морфологии)... (индекс строки, индекс морфологии) (индекс строки, индекс морфологии)
...
(индекс строки, индекс морфологии) (индекс строки, индекс морфологии)... (индекс строки, индекс морфологии) (индекс строки, индекс морфологии)

количество хешей (коллизии проверяются в рантайме, нет смысла отделяеть их во время компиляции, т. к. могут быть и внешние коллизии)
хеш, индекс леммы, индекс леммы
хеш, индекс леммы, индекс леммы, индекс леммы
хеш, индекс леммы, индекс леммы, индекс леммы, индекс леммы
...
хеш, индекс леммы, индекс леммы, индекс леммы

Компиляция mrd.gz

make

Проверка данных

Для проверки результатов выводится статистика.
Эталонные результаты компиляции должны быть такие:

Compilation [1..4]
1. Morphology (2970)
2. Strings (3039129)
3. Lemma indexes (174628)
4. Flexion hashes (3034914)

About

Компилятор aot-словарей в бинарный формат быстрого поиска

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Contributors 2

  •  
  •