superAE
superAE copied to clipboard
关于preprocess.py预处理结果
您好,请问当前版本的preprocess.py是针对LCSTS2.0数据集吗? (LCSTS2.0的数据文件中有大量<>tag,但似乎没有见到去除这些tag的操作?)
想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作,谢谢! (是因为在预处理其他数据集时发现,处理后的结果运行时报错)
您好,请问当前版本的preprocess.py是针对LCSTS2.0数据集吗? (LCSTS2.0的数据文件中有大量<>tag,但似乎没有见到去除这些tag的操作?)
想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作,谢谢! (是因为在预处理其他数据集时发现,处理后的结果运行时报错) 我在预处理的过程中报错,the following arguments are required: -train_src, -train_tgt, -valid_src, -valid_tgt, -save_data,请问你这里怎么做到的
你好,当前版本针对lcsts 1.0。 处理数据时需要将数据集中的原始文本抽取出来放在train.src/valid.src文件里,将摘要抽取出来放在train.tgt/valid.tgt里,然后再用 python preprocess.py -train_src train.src -train_tgt train.tgt -valid_src valid.src -valid_tgt valid.tgt -save_data lcsts.pt 处理得到lcsts.pt文件。
针对原始文本抽取预处理的文件在githun没有放出来,楼主可以提供一下吗@shumingma
原始文本的抽取,需要有什么格式么? 下面我尝试出现了错误。希望能得到指点。。。
File "preprocess.py", line 273, in
楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题
针对原始文本抽取预处理的文件在githun没有放出来,楼主可以提供一下吗@shumingma
您好,请问您拿到抽取原始文本的文件了吗?
楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题
我在prune函数里面for i in idx[:size]:前面加了idx = idx.numpy()
谢谢楼主!