scrapy_for_zh_wiki
scrapy_for_zh_wiki copied to clipboard
爬虫代码一些注意问题
- 错误:module 'queue' has no attribute 'put' 注意queue.py的名字可改为queue1.py
- 有三个markdown文件启动爬虫前请照做创建好目录与要求文件
- 代码里有些地方origin拼写错误,注意目录名字
- 关于npy文件可能出现np.load遇到pickled data问题可参照这两个解决办法 https://blog.csdn.net/Datura_Metel/article/details/104640556 https://blog.csdn.net/huapiaoxiang21/article/details/89670464
感谢您的提醒! np.load部分加上一个参数allow_pickle=True即可,其余错误会不断纠正
感谢您的提醒! np.load部分加上一个参数allow_pickle=True即可,其余错误会不断纠正
非常好的开源项目,谢谢你们带来的帮助!
你好,我在设置了自己的filter_words之后发现过滤效果不是很明显,在一开始的爬虫阶段爬取了非常多的无关url,我想请问一下是不是因为这个dont filter的设置(之前设置为true)导致在爬虫阶段没有成功过滤无关词汇吗?打扰你的日常研究学习了,谢谢你的解答!
------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月12日(星期五) 凌晨0:14 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
感谢您的提醒! np.load部分加上一个参数allow_pickle=True即可,其余错误会不断纠正
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。
好的,那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False,为什么这里需要设置为True呢,这不是无法起到去重已爬取url的效果了吗?谢谢您的解答!
------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月15日(星期一) 上午9:34 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢,已经简体和繁体都添加了仍然在爬取
------------------ 原始邮件 ------------------ 发件人: "空城" @.>; 发送时间: 2021年3月15日(星期一) 上午9:44 @.>;
主题: 回复: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
好的,那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False,为什么这里需要设置为True呢,这不是无法起到去重已爬取url的效果了吗?谢谢您的解答!
------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月15日(星期一) 上午9:34 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
是否是因为有的url是没有将实体名加入的,而是类似'%E6%B8%B8%E6%88%8F'这样的形式,请问这种时候应该怎么去找出他的源头url呢
------------------ 原始邮件 ------------------ 发件人: "空城" @.>; 发送时间: 2021年4月5日(星期一) 中午1:25 @.>;
主题: 回复: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
你好,我想请问你是否有遇到在filter_words里添加了一些无关的category名但仍然爬取了无关url的情况呢,已经简体和繁体都添加了仍然在爬取
------------------ 原始邮件 ------------------ 发件人: "空城" @.>; 发送时间: 2021年3月15日(星期一) 上午9:44 @.>;
主题: 回复: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
好的,那我会继续添加filter_words的内容。但我查阅后得知dont_filter默认为False,为什么这里需要设置为True呢,这不是无法起到去重已爬取url的效果了吗?谢谢您的解答!
------------------ 原始邮件 ------------------ 发件人: "wjn1996/scrapy_for_zh_wiki" @.>; 发送时间: 2021年3月15日(星期一) 上午9:34 @.>; @.@.>; 主题: Re: [wjn1996/scrapy_for_zh_wiki] 爬虫代码一些注意问题 (#3)
爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
可以试试 from urllib import parse // decode parse.unquote(str)