liuyu

Results 12 comments of liuyu

你的transformers版本可能过高了

Maybe you're actually using a Bert model。

如果你用的是英文的BERT的话,可以这么写: MODEL_TYPE='bert' MODEL_NAME_OR_PATH='../pretrained_models/bert_base_cased' 其中MODEL_TYPE 对应的是用的什么transformer预训练模型,例如bert,albert,roberta MODEL_NAME_OR_PATH对应的是这个预训练模型的权重文件的存放地址

这个不用的,只要MODEL_NAME_OR_PATH的路径写对了就行,例如/pretrained_models/electra/electra-base-discriminator,而不应该是/pretrained_models/electra/, MODEL_NAME_OR_PATH这个目录下应该要有pytorch_model.bin这个文件的

模型并不计算sub_token(带##前缀的token)的损失,利用valid_sequence_output函数将sub_token在BERT中的输出给mask掉了,所以最后在计算损失的时候是可以将token和label对应起来的

这可真不是我代码的锅,你试试看双卡,小batch_size

试过啊,而且crf的代码我还专门调整过,可以在多gpu上跑

You need to specify the values of the following variables: DATA_DIR='' MODEL_TYPE='' MODEL_NAME_OR_PATH='' OUTPUT_DIR='' LABEL='' For example DATA_DIR='../datasets/conll2003' MODEL_TYPE='bert' MODEL_NAME_OR_PATH='../pretrained_models/bert_base_cased' OUTPUT_DIR='../output/conll2003/bert' LABEL='../datasets/conll2003/labels.txt'

@yao8839836 您好,我看代码里面写到第一层的GCN的featureless为True,那么在运行的时候,输入x其实是被忽略掉的,不参与运算,那么整个网络层可以写成 relu(relu(Adj*W0) * W1), 那么是不是可以把整个网络层理解为W0作为输入,W0中的每一行作为一个样本的特征

灾难性遗忘,所以LLM是否不合适用来进行专有任务的微调?