Bert-Chinese-Text-Classification-Pytorch
Bert-Chinese-Text-Classification-Pytorch copied to clipboard
使用Bert,ERNIE,进行中文文本分类
我在自己的数据集上进行了测试,发现确实如您所说,原始的bert,ernie的结果就很不错,但作为embedding层就不好了,我想问这是为什么呢?
请问一下在进行padding前,train、test、dev原文本格式是怎么样的呢?文本与label之间有空格吗?谢谢~
您好,请问是哪里出现了空行呢
预测代码
`import os import time import torch import pandas as pd import numpy as np from train_eval import train, init_network from importlib import import_module import argparse from utils import build_dataset, build_iterator,...
对于事件抽取任务 如果要使用BERT和ERNIE进行训练,该如何改进
请问一下,我已经训练好了两个模型,现在想用这两个模型做预测,在加载第一个模型的时候没问题,但是加载完成第一个模型之后,再去加载第二个模型的时候,就会报错,提示的错误是受到第一个模型参数的影响,请问这个应该怎么初始化torch才能让两个模型加载的时候不受相互影响嫩 class Model(nn.Module): def __init__(self, config): super(Model, self).__init__() self.bert = BertModel.from_pretrained(config.bert_path) for param in self.bert.parameters(): param.requires_grad = True self.fc = nn.Linear(config.hidden_size, config.num_classes) def forward(self, x): context = x[0] # 输入的句子...
在代码里词嵌入部分: """Construct the embeddings from word, position and token_type embeddings. """ def __init__(self, config): super(BertEmbeddings, self).__init__() self.word_embeddings = nn.Embedding(config.vocab_size, config.hidden_size, padding_idx=0) self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size) self.token_type_embeddings = nn.Embedding(config.type_vocab_size, config.hidden_size) 这里word、position、token_type三个embedding都是随机初始化的,这样应该就相当于没有用到别人预训练的效果了吧。还是实际上词嵌入部分并不是按照上面部分进行的、又或者即使随机初始化也能用到预训练的效果,烦请大神解答
我的内存总是显示溢出,网上说可以调小batchsize,但这里的batch_size在哪啊
請問在轉換成embedding前是否有做文字切割,若有的話是基於甚麼方法? 或者只是以character為單位而不是word
我大概有10亿条短文本约42GB,每次加载数据时都会超出内存,batch size和pad size也调过了都不行,请问有大佬有办法解决吗