- Предобработка текста (Text preprocessing)
Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel, deduplication, lsh, minhash. - Классификация текста (мешок слов) (Bag-of-words classification)
TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста - Поиск и исправление опечаток (Spellchecking)
Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell. - Базовое языковое моделирование (Basic Language Modelling)
Вероятность слова, Ngram language model, перплексия, генерация текста, beam search. - Векторные представления слов (Word embeddings) (word2vec, fastext)
cbow, skip-gram, negative sampling - Сверточные нейронные сети (CNN)
CNN. - RNN и извлечение именованных сущностей (Named Entity Recognition)
LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling. - BERT
masked language modelling, positional encoding - GPT
autoregressive language modelling, self-attention - Машинный перевод (Machine Translation)
cross attention, encoder-decoder model, bleu score - Instruct fine-tuning. Quantization, PEFT
- Reinforcement learning
- Multimodality (vision) (CLIP SigLIP, VQGAN)
- Multimodality (vision) (nanovlm, vqgan + LLM)
- Multimodality (audio)
-
Notifications
You must be signed in to change notification settings - Fork 76
mannefedov/compling_nlp_hse_course
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ
Topics
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published