nlp-notebook
nlp-notebook copied to clipboard
NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断、三元组抽取、预训练模型等。
项目描述
NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、文本生成、句子相似度判断、三元组抽取、预训练模型等。
依赖
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
目录
0. 新词发现算法
- 0-1. New Words Discovery
1. 词向量
- 1-1. Word2Vec(Skip-gram)
- 1-2. Glove
2. 文本分类 (每个模型内部使用optuna进行调参)
- 2-1. TextCNN
- 2-2. FastText
- 2-3. TextRCNN
- 2-4. TextRNN_Att
- 2-5. DPCNN
- 2-6. XGBoost
- 2-7. Distill_& fine tune Bert
- 2-8. Pattern-Exploiting-Training 利用MLM做文本分类
- 2-9. R-Drop
数据集(data文件夹): 二分类舆情数据集,划分如下:
数据集 | 数据量 |
---|---|
训练集 | 56700 |
验证集 | 7000 |
测试集 | 6300 |
3. 实体识别NER
- 3-1. Bert-MRC
- 3-2. Bert-CRF
- 3-3. Bert-Label-Semantics
4. 文本摘要生成
1). 生成式
- 4-1. Seq2seq 模型
- 4-2. Seq2seq 模型+注意力机制
- 4-3. Transformer 模型
- 4-4. GPT 摘要生成
- 4-5. Bert-seq2seq
2). 抽取式
- 4-6. Bert-extractive-summarizer
5. 句子相似度判别
- 5-1. Sentence-Similarity
6. 多标签分类
- 6-1. MultiLabel-Classification
7. 三元组抽取
- 7-1. Relation-Extraction
8. 预训练模型(ELECTRA + SimCSE)
- 8-1. Pretrained-Language-Model
9. 提示学习
- 9-1. P-tuning V1
10. PaperwithCode
该文件夹记录一些paper及其所对应的模型代码:
- 10.1. Co-Interactive-Transformer
- 10.2. Lattice_LSTM
11. QA
该文件夹内记录机器学习/深度学习一些知识点的简单总结。