scrapy_for_zh_wiki 爬虫代码一些注意问题

错误：module 'queue' has no attribute 'put' 注意queue.py的名字可改为queue1.py
有三个markdown文件启动爬虫前请照做创建好目录与要求文件
代码里有些地方origin拼写错误，注意目录名字

Mar 11 '21 13:03 Silent-Roar

关于npy文件可能出现np.load遇到pickled data问题可参照这两个解决办法 https://blog.csdn.net/Datura_Metel/article/details/104640556 https://blog.csdn.net/huapiaoxiang21/article/details/89670464

Mar 11 '21 13:03 Silent-Roar

感谢您的提醒！ np.load部分加上一个参数allow_pickle=True即可，其余错误会不断纠正

Mar 11 '21 16:03 wjn1996

感谢您的提醒！ np.load部分加上一个参数allow_pickle=True即可，其余错误会不断纠正

非常好的开源项目，谢谢你们带来的帮助！

Mar 11 '21 16:03 Silent-Roar

你好，我在设置了自己的filter_words之后发现过滤效果不是很明显，在一开始的爬虫阶段爬取了非常多的无关url，我想请问一下是不是因为这个dont filter的设置（之前设置为true）导致在爬虫阶段没有成功过滤无关词汇吗？打扰你的日常研究学习了，谢谢你的解答！

------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月12日(星期五) 凌晨0:14 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

感谢您的提醒！ np.load部分加上一个参数allow_pickle=True即可，其余错误会不断纠正

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Mar 15 '21 01:03 Silent-Roar

爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接，而筛选也是通过关键词筛选，可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的，其目标是筛选掉重复的URL，如果某个URL之前被爬取过，则下一次不再爬取，其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。

Mar 15 '21 01:03 wjn1996

好的，那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False，为什么这里需要设置为True呢，这不是无法起到去重已爬取url的效果了吗？谢谢您的解答！

------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月15日(星期一) 上午9:34 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接，而筛选也是通过关键词筛选，可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的，其目标是筛选掉重复的URL，如果某个URL之前被爬取过，则下一次不再爬取，其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Mar 15 '21 01:03 Silent-Roar

你好，我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢，已经简体和繁体都添加了仍然在爬取

------------------ 原始邮件 ------------------ 发件人: "空城" @.>; 发送时间: 2021年3月15日(星期一) 上午9:44 @.>;

主题: 回复： [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

好的，那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False，为什么这里需要设置为True呢，这不是无法起到去重已爬取url的效果了吗？谢谢您的解答！

------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月15日(星期一) 上午9:34 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接，而筛选也是通过关键词筛选，可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的，其目标是筛选掉重复的URL，如果某个URL之前被爬取过，则下一次不再爬取，其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Apr 05 '21 05:04 Silent-Roar

是否是因为有的url是没有将实体名加入的，而是类似'%E6%B8%B8%E6%88%8F'这样的形式，请问这种时候应该怎么去找出他的源头url呢

------------------ 原始邮件 ------------------ 发件人: "空城" @.>; 发送时间: 2021年4月5日(星期一) 中午1:25 @.>;

主题: 回复： [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

你好，我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢，已经简体和繁体都添加了仍然在爬取

------------------ 原始邮件 ------------------ 发件人: "空城" @.>; 发送时间: 2021年3月15日(星期一) 上午9:44 @.>;

主题: 回复： [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

好的，那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False，为什么这里需要设置为True呢，这不是无法起到去重已爬取url的效果了吗？谢谢您的解答！

------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月15日(星期一) 上午9:34 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)

爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接，而筛选也是通过关键词筛选，可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的，其目标是筛选掉重复的URL，如果某个URL之前被爬取过，则下一次不再爬取，其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Apr 05 '21 05:04 Silent-Roar

可以试试 from urllib import parse // decode parse.unquote(str)

May 07 '22 09:05 InFiNiTeemo

scrapy_for_zh_wiki scrapy_for_zh_wiki copied to clipboard

爬虫代码一些注意问题

scrapy_for_zh_wiki
scrapy_for_zh_wiki copied to clipboard