CNN_Nested_NER 使用自定义数据集运行出错

使用自定义数据集运行出错

Open lllllcccccyyyyy opened this issue 10 months ago • 3 comments

我将自己的数据集处理成代码要求的格式并确保所有的token序列长度小于512，使用chinese-roberta-wwm-ext作为预训练模型，参数和genia数据集相同，出现如下错误 screenshot-20240414-172235 显示是data/padder.py文件下的 buffer[i, :len(f), :len(f)] = torch.from_numpy(f)出现错误非常期待您的回复，谢谢

Apr 14 '24 09:04 lllllcccccyyyyy

看起来是由于那个f数据太长了，没有被截取成512长度的哇

May 20 '24 02:05 yhcc

我将自己的数据集处理成代码要求的格式并确保所有的token序列长度小于512，使用chinese-roberta-wwm-ext作为预训练模型，参数和genia数据集相同，出现如下错误显示是data/padder.py文件下的 buffer[i, :len(f), :len(f)] = torch.from_numpy(f)出现错误非常期待您的回复，谢谢

请问你自己的数据集是中文的吗，可以告知怎么处理的吗

Jul 02 '24 14:07 wind1312

我将自己的数据集处理成代码要求的格式并确保所有的token序列长度小于512，使用chinese-roberta-wwm-ext作为预训练模型，参数和genia数据集相同，出现如下错误显示是data/padder.py文件下的 buffer[i, :len(f), :len(f)] = torch.from_numpy(f)出现错误非常期待您的回复，谢谢

请问你自己的数据集是中文的吗，可以告知怎么处理的吗

同问中文数据集怎么处理呢？？

Jul 15 '24 08:07 houyuchao

CNN_Nested_NER CNN_Nested_NER copied to clipboard

使用自定义数据集运行出错

CNN_Nested_NER
CNN_Nested_NER copied to clipboard