GPT2-chitchat icon indicating copy to clipboard operation
GPT2-chitchat copied to clipboard

是本身就存在的train.py 里的bug吗? 写入正确的数据path,成功导入数据后仍然会报的valueerror问题 到底是哪一步错了?

Open Saraooe opened this issue 3 years ago • 12 comments

ValueError: num_samples should be a positive integer value, but got num_samples=0 我做的地方就是先将train.txt 训练语料集放到data文件里,然后进行preprocess.py 生成train.pkl 接下来进行train.py 于是就报了上面的错误 但是我也尝试在train.py代码中间打印出我导入的data, 也发现在中途数据是有成功导入进去的,很想知道到底是错在哪里了

Saraooe avatar Jul 19 '21 06:07 Saraooe

我也遇到了这个问题,请问你解决成功了吗

dadidada avatar Jul 20 '21 07:07 dadidada

@Saraooe 好像是preprocess.py里对文件的划分有问题,要改一下,不然哪个文件就只有一行

dadidada avatar Jul 20 '21 09:07 dadidada

@dadidada 请问具体是在哪里改动呢

zzzzz167 avatar Jul 26 '21 02:07 zzzzz167

@zzzzz167 preprocess.py第70行把\n\n换成\n好像就可以训练了

dadidada avatar Jul 26 '21 12:07 dadidada

image 好像还是不行

RainyNian avatar Jul 31 '21 13:07 RainyNian

同问,解决了吗?

miko8422 avatar Aug 01 '21 01:08 miko8422

emm,如果是用自己的语料的话,应该是验证集(val_num)大小的问题吧,但是不知道为什么改完之后训练出来是乱码。。。

zzzzz167 avatar Aug 01 '21 13:08 zzzzz167

@miko8422 @Little-LinNian 也许是你自己的语料太少了吧,它这个默认是8000个验证集。试试用--val_num 100 或者是更小的值试试?

r1cebank avatar Oct 12 '21 22:10 r1cebank

@miko8422 @Little-LinNian 也许是你自己的语料太少了吧,它这个默认是8000个验证集。试试用--val_num 100 或者是更小的值试试?

有用,感谢

FuryMartin avatar Apr 29 '22 17:04 FuryMartin

我也遇到这个问题,是数据集太小,还不够8000组对话呢,可以--val-num指定验证集的数量就行了

lewiswu1209 avatar Jun 26 '22 04:06 lewiswu1209

语料 一行一句话,最后一行后面不能换行。 再转换成pkl ,就好了。

cywjava avatar Mar 22 '23 10:03 cywjava

@miko8422 @Little-LinNian 也许是你自己的语料太少了吧,它这个默认是8000个验证集。试试用--val_num 100 或者是更小的值试试?

有用,感谢

Delimeng avatar Dec 08 '23 09:12 Delimeng