MLTools

module for custom functions used in keras and ML projects

installation

use pip install . from root dir

use pip install -e . for symlink (updates immediately accessible)

tools:

picklable class-based tokenization and indexing

use the Tokenizer and Indexer in sequence for automatic indexing:

from mltools.preprocessing import Tokenizer, Indexer, Pipeline

tokenizer = Tokenizer(max_vocab=100, min_count=1, lower=True, regex=True)
indicizer = Indexer(max_len=10, pad='post', truncate='post',
                    reverse=False, unk_name='UNK', pad_name='PAD')

pipeline = Pipeline([
    ('tokenize', tokenizer),
    ('indicize', indicizer)
])

pipeline.fit(texts)

vects = pipeline.transform(text[:split_idx])

this pipeline can be pickled with sklearn.externals.joblib dump() and load()

mltools.preprocessing

functions for getting (truncated) vocabulary, integer-indexing sequences for keras

decode_sequence, get_vocab, index_sents, onehot_vectorize, dataGenerator

mltools.embeddings

functions for training gensim.word2vec models

mltools.similarity

class for using cosine similarity of sentence vectors for retrieval-based dialogs

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
mltools		mltools
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
ex-gensim-embeddings.ipynb		ex-gensim-embeddings.ipynb
ex-text-to-index-pickle.ipynb		ex-text-to-index-pickle.ipynb
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

MLTools

installation

tools:

picklable class-based tokenization and indexing

mltools.preprocessing

mltools.embeddings

mltools.similarity

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

SNUDerek/MLTools

Folders and files

Latest commit

History

Repository files navigation

MLTools

installation

tools:

picklable class-based tokenization and indexing

mltools.preprocessing

mltools.embeddings

mltools.similarity

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages