CNN_Nested_NER icon indicating copy to clipboard operation
CNN_Nested_NER copied to clipboard

使用自定义数据集运行出错

Open lllllcccccyyyyy opened this issue 10 months ago • 3 comments

我将自己的数据集处理成代码要求的格式并确保所有的token序列长度小于512,使用chinese-roberta-wwm-ext作为预训练模型,参数和genia数据集相同,出现如下错误 screenshot-20240414-172235 显示是data/padder.py文件下的 buffer[i, :len(f), :len(f)] = torch.from_numpy(f)出现错误 非常期待您的回复,谢谢

lllllcccccyyyyy avatar Apr 14 '24 09:04 lllllcccccyyyyy

看起来是由于那个f数据太长了,没有被截取成512长度的哇

yhcc avatar May 20 '24 02:05 yhcc

我将自己的数据集处理成代码要求的格式并确保所有的token序列长度小于512,使用chinese-roberta-wwm-ext作为预训练模型,参数和genia数据集相同,出现如下错误 screenshot-20240414-172235 显示是data/padder.py文件下的 buffer[i, :len(f), :len(f)] = torch.from_numpy(f)出现错误 非常期待您的回复,谢谢

请问你自己的数据集是中文的吗,可以告知怎么处理的吗

wind1312 avatar Jul 02 '24 14:07 wind1312

我将自己的数据集处理成代码要求的格式并确保所有的token序列长度小于512,使用chinese-roberta-wwm-ext作为预训练模型,参数和genia数据集相同,出现如下错误 screenshot-20240414-172235 显示是data/padder.py文件下的 buffer[i, :len(f), :len(f)] = torch.from_numpy(f)出现错误 非常期待您的回复,谢谢

请问你自己的数据集是中文的吗,可以告知怎么处理的吗

同问中文数据集怎么处理呢??

houyuchao avatar Jul 15 '24 08:07 houyuchao