spider_collection icon indicating copy to clipboard operation
spider_collection copied to clipboard

关于知乎爬虫

Open MercuialC opened this issue 3 years ago • 9 comments

感谢优秀的工作! 知乎用户文章有反爬机制,作者有空可以拓展一下知乎的爬虫,或者分享一下爬取公众号文章的经验吗

MercuialC avatar Sep 08 '21 09:09 MercuialC

嗯嗯,对于知乎的那个反爬后面会更新ip代理池来修复的,之前也有想过做一下知乎用户信息爬取的爬虫,在未来可能会实现并加入到该仓库吧,对于公众号文章的爬取我还没有具体涉及,后续会找时间试试看,如果有什么进展会在这个帖子给你答复的

srx-2000 avatar Sep 09 '21 06:09 srx-2000

好的 期待更新

MercuialC avatar Sep 09 '21 06:09 MercuialC

目前知乎问答的那个爬虫已经可以较为有效的反反爬啦,同时用户个人信息那个爬虫也已经提交了第一版,基本可以做到每日5w-10w用户数据的爬取,后续还会持续更新,会优化爬取算法。也会增加用户信息分析,用户排行榜等多个模块,公众号文章那个之前在得到你的反馈后,我有去尝试,但好像没有想象中的那么好爬,可能明年一月份我会突击一下,如果有什么进展我会在这里通知你的

srx-2000 avatar Oct 18 '21 02:10 srx-2000

好的, 本想做一个个性化邮箱推送的小软件,但是反爬机制直接给我劝退了。期待大佬更新时学习一波!

MercuialC avatar Oct 18 '21 09:10 MercuialC

嗯嗯,感谢支持

srx-2000 avatar Oct 18 '21 10:10 srx-2000

em...抱歉啦,微信公众号文章那个爬虫,我这段时间确实研究了一下,可惜的是前段时间微信刚刚改版之前使用历史记录爬取的方案应该已经作废了,我也不是很想通过搜狗的接口去爬取微信,所以可能要需要一段时间去找找别的方式.......如果有进展了我在这里给你回复吧,还请见谅了

srx-2000 avatar Jan 28 '22 13:01 srx-2000

知乎问题的那个有人运行成功了吗 raise ProgramError(value) execjs._exceptions.ProgramError: SyntaxError: 语法错误 我的报这个错

ZXB1020 avatar Apr 18 '22 06:04 ZXB1020

那个有人运行成功了吗

首先确保自己电脑中有nodejs环境,同时安装了execjs库 然后可以参考这个issue中的解决办法:[#23]

srx-2000 avatar Apr 18 '22 07:04 srx-2000