Silent-Roar comments

Results 7 comments of


                                            Silent-Roar

ValueError: max() arg is an empty sequence；label的含义

> 没有解决，你想用这个模型的话，可以参考 https://github.com/425776024/bertsum-chinese 你好，请问在参考这个新仓库时，训练之后如何根据不同的模型对生成的摘要进行rouge打分呢

爬虫代码一些注意问题

- 关于npy文件可能出现np.load遇到pickled data问题可参照这两个解决办法 https://blog.csdn.net/Datura_Metel/article/details/104640556 https://blog.csdn.net/huapiaoxiang21/article/details/89670464

爬虫代码一些注意问题

> 感谢您的提醒！ > np.load部分加上一个参数allow_pickle=True即可，其余错误会不断纠正非常好的开源项目，谢谢你们带来的帮助！

你好，我在设置了自己的filter_words之后发现过滤效果不是很明显，在一开始的爬虫阶段爬取了非常多的无关url，我想请问一下是不是因为这个dont filter的设置（之前设置为true）导致在爬虫阶段没有成功过滤无关词汇吗？打扰你的日常研究学习了，谢谢你的解答！ ------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" ***@***.***>; 发送时间: 2021年3月12日(星期五) 凌晨0:14 ***@***.***>; ***@***.******@***.***>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 感谢您的提醒！ np.load部分加上一个参数allow_pickle=True即可，其余错误会不断纠正 — You are receiving this because you authored the thread. Reply to this email...

爬虫代码一些注意问题

好的，那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False，为什么这里需要设置为True呢，这不是无法起到去重已爬取url的效果了吗？谢谢您的解答！ ------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:34 ***@***.***>; ***@***.******@***.***>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接，而筛选也是通过关键词筛选，可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的，其目标是筛选掉重复的URL，如果某个URL之前被爬取过，则下一次不再爬取，其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。 — You are receiving this because you authored the thread. Reply to this email directly,...

爬虫代码一些注意问题

你好，我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢，已经简体和繁体都添加了仍然在爬取 ------------------ 原始邮件 ------------------ 发件人: "空城" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:44 ***@***.***>; 主题: 回复： [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 好的，那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False，为什么这里需要设置为True呢，这不是无法起到去重已爬取url的效果了吗？谢谢您的解答！ ------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:34 ***@***.***>; ***@***.******@***.***>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接，而筛选也是通过关键词筛选，可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的，其目标是筛选掉重复的URL，如果某个URL之前被爬取过，则下一次不再爬取，其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。 —...

爬虫代码一些注意问题

是否是因为有的url是没有将实体名加入的，而是类似'%E6%B8%B8%E6%88%8F'这样的形式，请问这种时候应该怎么去找出他的源头url呢 ------------------ 原始邮件 ------------------ 发件人: "空城" ***@***.***>; 发送时间: 2021年4月5日(星期一) 中午1:25 ***@***.***>; 主题: 回复： [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 你好，我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢，已经简体和繁体都添加了仍然在爬取 ------------------ 原始邮件 ------------------ 发件人: "空城" ***@***.***>; 发送时间: 2021年3月15日(星期一) 上午9:44 ***@***.***>; 主题: 回复： [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3) 好的，那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False，为什么这里需要设置为True呢，这不是无法起到去重已爬取url的效果了吗？谢谢您的解答！ ------------------ 原始邮件 ------------------...