superAE 关于preprocess.py预处理结果

您好，请问当前版本的preprocess.py是针对LCSTS2.0数据集吗？（LCSTS2.0的数据文件中有大量<>tag，但似乎没有见到去除这些tag的操作？）

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作，谢谢！（是因为在预处理其他数据集时发现，处理后的结果运行时报错）

Nov 22 '18 13:11 miragelmz

您好，请问当前版本的preprocess.py是针对LCSTS2.0数据集吗？（LCSTS2.0的数据文件中有大量<>tag，但似乎没有见到去除这些tag的操作？）

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作，谢谢！（是因为在预处理其他数据集时发现，处理后的结果运行时报错）我在预处理的过程中报错，the following arguments are required: -train_src, -train_tgt, -valid_src, -valid_tgt, -save_data，请问你这里怎么做到的

Nov 25 '18 11:11 angeluau

你好，当前版本针对lcsts 1.0。处理数据时需要将数据集中的原始文本抽取出来放在train.src/valid.src文件里，将摘要抽取出来放在train.tgt/valid.tgt里，然后再用 python preprocess.py -train_src train.src -train_tgt train.tgt -valid_src valid.src -valid_tgt valid.tgt -save_data lcsts.pt 处理得到lcsts.pt文件。

Nov 25 '18 12:11 shumingma

针对原始文本抽取预处理的文件在githun没有放出来，楼主可以提供一下吗@shumingma

Nov 25 '18 12:11 angeluau

原始文本的抽取，需要有什么格式么？下面我尝试出现了错误。希望能得到指点。。。 File "preprocess.py", line 273, in main() File "preprocess.py", line 249, in main opt.src_vocab_size) File "preprocess.py", line 130, in initVocabulary genWordVocab = makeVocabulary(dataFile, vocabSize) File "preprocess.py", line 110, in makeVocabulary vocab = vocab.prune(size) File "/media/network/数据仓库/superAE-master/data/dict.py", line 118, in prune newDict.add(self.idxToLabel[i]) KeyError: tensor(13)