weibo-crawler
weibo-crawler copied to clipboard
新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
纯小白实在不知道怎么搞,我把weibo.py拖入cmd后pychar会直接打开.py文件。。。。 求大佬讲解
运行报错
'download_comment' Traceback (most recent call last): File "/root/weibo-crawler/weibo.py", line 1980, in main wb = Weibo(config) File "/root/weibo-crawler/weibo.py", line 45, in __init__ self.validate_config(config) File "/root/weibo-crawler/weibo.py", line 131, in validate_config if config[argument]...
报错1 list index out of range Traceback (most recent call last): File "D:\demo\weibo-crawler\weibo.py", line 1075, in get_one_page w = w.get("card_group",[0])[0] or w IndexError: list index out of range 报错2 string...
如题所述
首先,我加了COOKIE,Progress: 19%,跑到8000多条的时候,就爬取完成了。此时我怀疑是cookie失效了,然后我立即重新去检查了一下cookie,发现测试是成功的。请问目前爬不全的问题可能是什么其它原因? 谢谢! 日志信息如下:Progress: 19%就结束了 ------------------------------已获取王盐Charles(5659598386)的第918页微博------------------------------ Progress: 19%|████▊ | 918/4922 [1:20:13
为什么用sqlite储存,数据非常大,一个用户,几百条微博数据,就占用了将近200mb的空间,要如何优化下sqlite数据库?
 不了解是什么原因,登录微博看了链接的最后两个数字变了,然后就访问不了了
如图,为什么每一条都是不能完整抓取的,这是有什么限制吗 
 download_repost就是这个,这个是当前这条微博下别人的评论吗,怎么找不到被放在了哪?求解惑
我严格按照“如何检测cookie是否有效(可选)”进行设置,最后发现不管什么设置,程序运行的结果永远是:“经检查,cookie无效,系统退出”。我可以确定config.json里面的cookie是没问题的,因为使用这个json获取了一些博主的在cookie设置错误情况下获取不到的微博。在const.py里面的"HIDDEN_WEIBO",你的教程里面说用自己的非公开微博,我也拿自己的公开微博试了一下,结果还是“经检查,cookie无效,系统退出”。所以我认为可能有bug。 (从打印的日志来看,就是你发非公开微博,然后用这个发微博的账号采集,采集不到这个非公开微博) 然后我打了一些断点,发现有些地方很奇怪,比如图中,“created_at”,2024-04-04后面有一个T,你今天说“把weibo.py文件handle_download方法的11改成10就好”,但是好像不止这个地方,也不知道与我这个cookie问题有没有关系。 更新:目前能够采集到自己发布的非公开微博了,但是程序依然是“经检查,cookie无效,系统退出” 