superAE icon indicating copy to clipboard operation
superAE copied to clipboard

关于preprocess.py预处理结果

Open miragelmz opened this issue 6 years ago • 8 comments

您好,请问当前版本的preprocess.py是针对LCSTS2.0数据集吗? (LCSTS2.0的数据文件中有大量<>tag,但似乎没有见到去除这些tag的操作?)

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作,谢谢! (是因为在预处理其他数据集时发现,处理后的结果运行时报错)

miragelmz avatar Nov 22 '18 13:11 miragelmz

您好,请问当前版本的preprocess.py是针对LCSTS2.0数据集吗? (LCSTS2.0的数据文件中有大量<>tag,但似乎没有见到去除这些tag的操作?)

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作,谢谢! (是因为在预处理其他数据集时发现,处理后的结果运行时报错) 我在预处理的过程中报错,the following arguments are required: -train_src, -train_tgt, -valid_src, -valid_tgt, -save_data,请问你这里怎么做到的

angeluau avatar Nov 25 '18 11:11 angeluau

你好,当前版本针对lcsts 1.0。 处理数据时需要将数据集中的原始文本抽取出来放在train.src/valid.src文件里,将摘要抽取出来放在train.tgt/valid.tgt里,然后再用 python preprocess.py -train_src train.src -train_tgt train.tgt -valid_src valid.src -valid_tgt valid.tgt -save_data lcsts.pt 处理得到lcsts.pt文件。

shumingma avatar Nov 25 '18 12:11 shumingma

针对原始文本抽取预处理的文件在githun没有放出来,楼主可以提供一下吗@shumingma

angeluau avatar Nov 25 '18 12:11 angeluau

原始文本的抽取,需要有什么格式么? 下面我尝试出现了错误。希望能得到指点。。。 File "preprocess.py", line 273, in main() File "preprocess.py", line 249, in main opt.src_vocab_size) File "preprocess.py", line 130, in initVocabulary genWordVocab = makeVocabulary(dataFile, vocabSize) File "preprocess.py", line 110, in makeVocabulary vocab = vocab.prune(size) File "/media/network/数据仓库/superAE-master/data/dict.py", line 118, in prune newDict.add(self.idxToLabel[i]) KeyError: tensor(13)

GITJolly avatar Nov 30 '18 02:11 GITJolly

楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题

angeluau avatar Dec 03 '18 07:12 angeluau

针对原始文本抽取预处理的文件在githun没有放出来,楼主可以提供一下吗@shumingma

您好,请问您拿到抽取原始文本的文件了吗?

ishurironaldinho avatar Mar 04 '19 08:03 ishurironaldinho

楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题

我在prune函数里面for i in idx[:size]:前面加了idx = idx.numpy()

Lanme avatar Sep 30 '19 06:09 Lanme

谢谢楼主!

jufengada avatar Oct 04 '19 13:10 jufengada