Silent-Roar

Results 7 comments of Silent-Roar

> 没有解决,你想用这个模型的话,可以参考 https://github.com/425776024/bertsum-chinese 你好,请问在参考这个新仓库时,训练之后如何根据不同的模型对生成的摘要进行rouge打分呢

- 关于npy文件可能出现np.load遇到pickled data问题可参照这两个解决办法 https://blog.csdn.net/Datura_Metel/article/details/104640556 https://blog.csdn.net/huapiaoxiang21/article/details/89670464

> 感谢您的提醒! > np.load部分加上一个参数allow_pickle=True即可,其余错误会不断纠正 非常好的开源项目,谢谢你们带来的帮助!

你好,我在设置了自己的filter_words之后发现过滤效果不是很明显,在一开始的爬虫阶段爬取了非常多的无关url,我想请问一下是不是因为这个dont filter的设置(之前设置为true)导致在爬虫阶段没有成功过滤无关词汇吗?打扰你的日常研究学习了,谢谢你的解答! ------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" ***@***.***>; 发送时间: 2021年3月12日(星期五) 凌晨0:14 ***@***.***>; ***@***.******@***.***>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 感谢您的提醒! np.load部分加上一个参数allow_pickle=True即可,其余错误会不断纠正 — You are receiving this because you authored the thread. Reply to this email...

好的,那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False,为什么这里需要设置为True呢,这不是无法起到去重已爬取url的效果了吗?谢谢您的解答! ------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:34 ***@***.***>; ***@***.******@***.***>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。 — You are receiving this because you authored the thread. Reply to this email directly,...

你好,我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢,已经简体和繁体都添加了仍然在爬取 ------------------ 原始邮件 ------------------ 发件人: "空城" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:44 ***@***.***>; 主题: 回复: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 好的,那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False,为什么这里需要设置为True呢,这不是无法起到去重已爬取url的效果了吗?谢谢您的解答! ------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:34 ***@***.***>; ***@***.******@***.***>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。 —...

是否是因为有的url是没有将实体名加入的,而是类似'%E6%B8%B8%E6%88%8F'这样的形式,请问这种时候应该怎么去找出他的源头url呢 ------------------ 原始邮件 ------------------ 发件人: "空城" ***@***.***>; 发送时间: 2021年4月5日(星期一) 中午1:25 ***@***.***>; 主题: 回复: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 你好,我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢,已经简体和繁体都添加了仍然在爬取 ------------------ 原始邮件 ------------------ 发件人: "空城" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:44 ***@***.***>; 主题: 回复: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 好的,那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False,为什么这里需要设置为True呢,这不是无法起到去重已爬取url的效果了吗?谢谢您的解答! ------------------ 原始邮件 ------------------...