weibo-crawler
weibo-crawler copied to clipboard
新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
未能获取到用户信息,可能需要验证码验证。 收到的 JSON 数据:{'ok': 0, 'msg': '这里还没有内容', 'data': {'cards': []}} 检测到可能的验证码挑战,但未提供验证码 URL。请手动检查浏览器并完成验证码验证。 验证码验证失败或未完成,程序将退出。 但如果我重新克隆一个repo又可以重新使用,不知道为什么
一开始还挺快的,到几百页后突然就变慢了,url都要请求五条,而且获取的微博正文不是展开的全文了。又因为不能从指定日期开始爬取,又只能重新尝试从头爬取。如果这时能出现验证,就会恢复正常。请问怎么解决呢?
请问我除了一开始前200项 速度能到2s/it后,后续速度就80~100s/it左右,都是请求url满五次,请问我该怎么加快
且运行界面显示如下: 未能获取到用户信息,可能需要验证码验证。 收到的 JSON 数据:{'ok': -100, 'errno': '-100', 'msg': '', 'url': 'https://m.weibo.cn/api/geetest?testType=1&backUrl=/', 'extra': ''} 检测到验证码挑战。正在打开验证码页面以供手动验证。 请在打开的浏览器窗口中完成验证码验证。 完成验证码后,请输入 'y' 继续,或输入 'q' 退出: 输入y后也无法继续,而是跳转到一个页面,并显示: {"ok":0,"errno":"100007","msg":"\u4e0d\u7b26\u5408\u7684\u8bf7\u6c42\u65b9\u5f0f","extra":""} 请问应该如何解决呢?谢谢!
断点续写问题
您好,我在第一次爬取时中断了,此时excel中记录了2900条数据。之后我从中断的页数继续爬,结束后发现excel中的数据并没有增加,请问应该如何解决呢?
只有user.csv文件
只有一个user.csv是什么原因呢,显示如下,但是没有生成姐夫哦文件夹 成功获取到页面 30 的数据。 ------------------------------已获取微博辟谣(1866405545)的第30页微博------------------------------ Progress: 1%|▊ | 30/2500 [01:33
博主你好!我想问一下,代码下载图片和视频的逻辑是:先回去图片链接再下载吗?中间有什么特殊变量吗?我直接用下载函数,输入图片链接就不能使用request。
请问运行代码时只能爬取200页微博是为什么呢?设定start_page为1时,前200页的微博能够正常打印并爬取,200页之后的内容会遍历,但并没有输出和信息抓取;设定start_page为200时,能够正常遍历,但是所有微博都没有输出和信息抓取,最后输出“微博爬取完成,共爬取0条微博”。请问是什么问题呢?超级感谢!!!
验证码问题?
之前运行能成功,最近重新运行报错了:Processed since_date: 2024-01-01T00:00:00 JSON 解码失败,错误信息:'utf-8' codec can't decode byte 0xd3 in position 0: invalid continuation byte。等待 10 秒后重试... 未能获取到用户信息,可能需要验证码验证。收到的 JSON 数据:{'ok': 1, 'data': {'cards': [{'card_type': 11, 'card_group': [{'card_type': 42, 'display_arrow':...
希望增加这个选项