yanguangqing
yanguangqing
这个数据集是百度数据抽取大赛的数据集,加我微信17710158550,我私下发给你
链接:https://pan.baidu.com/s/1YMkNQdDSd0q7vfuuu7T4-g 提取码:n929 复制这段内容后打开百度网盘手机App,操作更方便哦
另外的数据集是代码中对已有数据集进行预处理之后生成的,你可以看看代码里面哪里生成了文件从而获取到数据集
能把苏老师逼成这样子的你也是厉害,主要是因为数据传输的过程中会有一定的数据丢失,或者是数据转存中的方法不统一,所以造成读取文件的时候会报错,针对数据集做一些优化这个必不可少
爆内存了,数据预处理的时候有内存泄露。
` train_ds = load_dataset(reader, data_path=args.train_path, max_seq_len=args.max_seq_len, lazy=False) dev_ds = load_dataset(reader, data_path=args.dev_path, max_seq_len=args.max_seq_len, lazy=False)` 这段代码中的lazy建议开启为true。可能会一定程度上环节coredump的情况。
试了一下不能解决,目前看来只能将数据量降低来解决这个问题了。
是啊是啊 连环报错 我现在也在改 可真是艰难 我看起来是因为负样本构造比例问题 但是调节了之后依旧报错
这是一个bug 我还没改明白
我也遇到了一样的问题,减小了batch size之后就好了或者是重新运行一次。很偶然