GPT2-chitchat
GPT2-chitchat copied to clipboard
是本身就存在的train.py 里的bug吗? 写入正确的数据path,成功导入数据后仍然会报的valueerror问题 到底是哪一步错了?
ValueError: num_samples should be a positive integer value, but got num_samples=0 我做的地方就是先将train.txt 训练语料集放到data文件里,然后进行preprocess.py 生成train.pkl 接下来进行train.py 于是就报了上面的错误 但是我也尝试在train.py代码中间打印出我导入的data, 也发现在中途数据是有成功导入进去的,很想知道到底是错在哪里了
我也遇到了这个问题,请问你解决成功了吗
@Saraooe 好像是preprocess.py里对文件的划分有问题,要改一下,不然哪个文件就只有一行
@dadidada 请问具体是在哪里改动呢
@zzzzz167 preprocess.py第70行把\n\n换成\n好像就可以训练了
好像还是不行
同问,解决了吗?
emm,如果是用自己的语料的话,应该是验证集(val_num)大小的问题吧,但是不知道为什么改完之后训练出来是乱码。。。
@miko8422 @Little-LinNian 也许是你自己的语料太少了吧,它这个默认是8000个验证集。试试用--val_num 100
或者是更小的值试试?
@miko8422 @Little-LinNian 也许是你自己的语料太少了吧,它这个默认是8000个验证集。试试用
--val_num 100
或者是更小的值试试?
有用,感谢
我也遇到这个问题,是数据集太小,还不够8000组对话呢,可以--val-num指定验证集的数量就行了
语料 一行一句话,最后一行后面不能换行。 再转换成pkl ,就好了。
@miko8422 @Little-LinNian 也许是你自己的语料太少了吧,它这个默认是8000个验证集。试试用
--val_num 100
或者是更小的值试试?
有用,感谢