nlp-notebook icon indicating copy to clipboard operation
nlp-notebook copied to clipboard

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断、三元组抽取、预训练模型等。

项目描述

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、文本生成、句子相似度判断、三元组抽取、预训练模型等。

依赖

python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2

目录

0. 新词发现算法

  • 0-1. New Words Discovery

1. 词向量

  • 1-1. Word2Vec(Skip-gram)
  • 1-2. Glove

2. 文本分类 (每个模型内部使用optuna进行调参)

  • 2-1. TextCNN
  • 2-2. FastText
  • 2-3. TextRCNN
  • 2-4. TextRNN_Att
  • 2-5. DPCNN
  • 2-6. XGBoost
  • 2-7. Distill_& fine tune Bert
  • 2-8. Pattern-Exploiting-Training 利用MLM做文本分类
  • 2-9. R-Drop

数据集(data文件夹): 二分类舆情数据集,划分如下:

数据集 数据量
训练集 56700
验证集 7000
测试集 6300

3. 实体识别NER

  • 3-1. Bert-MRC
  • 3-2. Bert-CRF
  • 3-3. Bert-Label-Semantics

4. 文本摘要生成

1). 生成式

  • 4-1. Seq2seq 模型
  • 4-2. Seq2seq 模型+注意力机制
  • 4-3. Transformer 模型
  • 4-4. GPT 摘要生成
  • 4-5. Bert-seq2seq

2). 抽取式

  • 4-6. Bert-extractive-summarizer

5. 句子相似度判别

  • 5-1. Sentence-Similarity

6. 多标签分类

  • 6-1. MultiLabel-Classification

7. 三元组抽取

  • 7-1. Relation-Extraction

8. 预训练模型(ELECTRA + SimCSE)

  • 8-1. Pretrained-Language-Model

9. 提示学习

  • 9-1. P-tuning V1

10. PaperwithCode

该文件夹记录一些paper及其所对应的模型代码:

11. QA

该文件夹内记录机器学习/深度学习一些知识点的简单总结。