textsum-gan
textsum-gan copied to clipboard
用自己的数据训练怎么准备discriminator_train_data.npz?
用自己的数据训练怎么准备discriminator_train_data.npz
discriminator_train_data.npz包含了一篇文档的真实摘要 (正样本) 和若干非真实摘要 (负样本),负样本可以通过随机采样不相关的摘要或通过一个预先训练的generator去生成摘要。
我用自己的中文数据预训练generator去生成摘要打算制作discriminator_train_data.npz,我看您README.md里 dropbox连接中的discriminator_train_data.npz数据量很小,只有18.4MB,我想问我们用预训练的generator去decode生成摘要,然后用decode生成的摘要去制作discriminator_train_data.npz,decode时的数据集是使用预训练时的train.bin数据集还是用其他数据集呢,如果用这个train.bin的话,那制作出来的discriminator_train_data.npz应该很大,想问下我这样做对接下来完整的模型有影响吗?或者是我应该怎么做呢
是使用train.bin数据集去得到discriminator_train_data.npz, 如果数据量过大可以只使用部分数据进行decode.
嗯嗯,我觉得也应该是这样,非常感谢您的建议