compling_nlp_hse_course
compling_nlp_hse_course copied to clipboard
Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ
Материалы курса по компьютерной лингвистике (Natural Language Processing course materials)
Jupyter-ноутбуки 2021-22
-
Предобработка текста (Text preprocessing)
Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel. -
Классификация текста (мешок слов) (Bag-of-words classification)
TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста -
Поиск и исправление опечаток (Spellchecking)
Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell. -
Базовое языковое моделирование (Basic Language Modelling)
Вероятность слова, Ngram language model, перплексия, генерация текста. -
Тематическое моделирование (Topic modelling)
Матричные разложения (SVD, NMF), LDA, перплексия, когерентность. -
Векторные представления слов (word2vec/fastext) (Word embeddings)
CBOW, Skip-gram, negative sampling, deep learning basics, sigmoid, softmax. -
WSD/WSI
Adagram, кластеризация контекстов, wordnet, алгоритм Леска. -
RNN и извлечение именованных сущностей (Named Entity Recognition)
LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling. -
Использование предобученных моделей (Fine-tuning pretrained models)
Transformer, BERT, HuggingFace, fine-tuning. - Генерация текста (GPT)
- Машинный перевод (Machine Translation)
Архивные jupyter-ноутбуки
- NER с помощью грамматик (yargy)
- Few-shot NER (deep pavlov)
- Деревья зависимостей (Dependency trees)
- Тематическое моделирование в BigARTM
- Keyword extraction
- Определение языка
- Коллокации
- CNN (tf), CNN (pytorch)
- RNN (pytorch)
- Deep learning intro (tf), Deep learning intro (pytorch)
- Кластеризация (Clustering)
- Морфологическая дизамбигуация
- Использование предобученных моделей (pytorch)
- Viterbi/MEMM
- Sentence tokenization
- Relation extraction
- Semantic Role Labelling