weibo-crawler
weibo-crawler copied to clipboard
新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
您好我想爬取我关注的博主的半年可见后,不可见的微博,修改代码何处可以实现哇
您好 首先非常感谢weibo-crawler对我带来的帮助! 有两个问题, 第一个问题是老生常谈的user-id-list过长就会被限制的问题,在参考之前的issue修改了get_pages方法后仍然会被限制,想请问有没有其他地方可以修改来避免或者减少这一问题? 第二个问题是当被限制以后中断程序,再跑的时候如果要将list中剩余用户的信息爬下来,是否有办法进行断点续写(目前还是只能从头开始再跑一遍) 谢谢!
非常感谢你们的代码!我想问一下如何爬取每日热点话题下的微博呢?不是通过user_list去获取微博。
关于所在地爬取
您好,请问现在是无法爬取到用户的所在地信息了吗?
我发现如果微博带有头条文章的链接,爬取后article_url中并不会显示头条文章的url,这个是什么原因呢?是否必须使用cookie版?
请问存入mysql数据库的时候,如果需要存入像存为csv文件格式时的所有字段,需要怎么修改呢,想要用到用户转发的微博文本
你好,我希望爬取用户所有包含“美国”的微博。但想请教两个问题: 1. 在 weibo-crawler 的 config 文件里面添加了 cookie 之后,仍然是只能获得最近2000条微博吗?还是说会去爬取所有微博呢? 2. 请问 query_list 选项可以在 weiboSpider 的 py 文件里面添加吗? ``` query_list是一个关键词字符串列表或以,分隔关键词的字符串,用于指定关键词搜索爬取,若为空[]或""则爬取全部微博。例如要爬取用户包含“梦想”和“希望”的微博,则设定如下: ```
关于阅读量的爬取
我发现登陆后能看到微博左下角的阅读量数据,https://m.weibo.cn/profile/info?uid=3131858347, 我发现这个接口下的statuses,reads就是阅读量,为何只有10条?
之前爬取正常,爬了60个账号左右报错:ValueError: time data 'Fri Jan 15 08:36:13 +0800 2021' does not match format '%Y-%m-%d',请教一下,应该如何修改呢?下面是all.log文件的内容 Progress: 0%| | 0/529 [00:00