textsum-gan icon indicating copy to clipboard operation
textsum-gan copied to clipboard

用自己的数据训练怎么准备discriminator_train_data.npz?

Open hxmhxm opened this issue 5 years ago • 4 comments

用自己的数据训练怎么准备discriminator_train_data.npz

hxmhxm avatar Oct 11 '19 03:10 hxmhxm

discriminator_train_data.npz包含了一篇文档的真实摘要 (正样本) 和若干非真实摘要 (负样本),负样本可以通过随机采样不相关的摘要或通过一个预先训练的generator去生成摘要。

iwangjian avatar Oct 22 '19 04:10 iwangjian

我用自己的中文数据预训练generator去生成摘要打算制作discriminator_train_data.npz,我看您README.md里 dropbox连接中的discriminator_train_data.npz数据量很小,只有18.4MB,我想问我们用预训练的generator去decode生成摘要,然后用decode生成的摘要去制作discriminator_train_data.npz,decode时的数据集是使用预训练时的train.bin数据集还是用其他数据集呢,如果用这个train.bin的话,那制作出来的discriminator_train_data.npz应该很大,想问下我这样做对接下来完整的模型有影响吗?或者是我应该怎么做呢

HunterYCG avatar Dec 06 '19 03:12 HunterYCG

是使用train.bin数据集去得到discriminator_train_data.npz, 如果数据量过大可以只使用部分数据进行decode.

iwangjian avatar Dec 06 '19 07:12 iwangjian

嗯嗯,我觉得也应该是这样,非常感谢您的建议

HunterYCG avatar Dec 06 '19 07:12 HunterYCG