Language models

Getting Started

Data format

Corpus file should contain sentences, each in separate line.

Preprocess

Before training model datasets should be prepared based on corpus file. Running

python preprocess.py --corpus-path=data/wiki100k/corpus.txt --output-directory=data/wiki100k/

will create word2index, index2word, index2count, trainset and testset.

Model configuration

Model configurations are stored in configs directory.

Training model

python train.py --config=configs/wiki100k.yaml

Testing model

python test.py --config=configs/wiki100k.yaml

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
configs		configs
src		src
.gitignore		.gitignore
README.md		README.md
preprocess.py		preprocess.py
test.py		test.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Language models

Getting Started

Data format

Preprocess

Model configuration

Training model

Testing model

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Crawenlil/language_model

Folders and files

Latest commit

History

Repository files navigation

Language models

Getting Started

Data format

Preprocess

Model configuration

Training model

Testing model

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages