deepnlp icon indicating copy to clipboard operation
deepnlp copied to clipboard

语料预处理问题(时间、数字)

Open sunjinguo opened this issue 7 years ago • 4 comments

您好,目前在学习您的textsum源代码解决文本自动摘要问题。看到您对语料预处理阶段对数字及时间用相应的标签置换,想知道您这么处理的初衷?(因为数字组合使vocab很大吗?)毕竟新闻类对时间、地点的要求性很高,如果直接置换掉,其应用性会降低很多吧。或者说您后续有什么处理,我忽略了,求指教,谢谢!

sunjinguo avatar Aug 21 '17 08:08 sunjinguo

我也想问这个问题🤝。如果把数字直接替换掉,后续生成标题的话可能会影响标题的内容吧

kobesxl avatar Aug 22 '17 04:08 kobesxl

TensorFlow 官方的 textsum 的 sample training data 中数字是全部用#替代的

EquinoxHzXu avatar Aug 31 '17 01:08 EquinoxHzXu

请问你们中文新闻语料库在哪下载的啊?我在搜狗实验室都下载失败

wonderwgf avatar Nov 06 '17 03:11 wonderwgf

搜狗实验室下载,需要账号密码,如有需要,我可以给你百度网盘

2017-11-06 11:21 GMT+08:00 wonderwgf [email protected]:

请问你们中文新闻语料库在哪下载的啊?我在搜狗实验室都下载失败

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/rockingdingo/deepnlp/issues/25#issuecomment-342036641, or mute the thread https://github.com/notifications/unsubscribe-auth/AQ0TZa3L1J9vi--CJ3zAWIsx-zKh5Igkks5sznswgaJpZM4O9C0x .

KingsleyHsu avatar Nov 08 '17 01:11 KingsleyHsu