Chen Lei

Results 471 comments of Chen Lei

或者修改search.py,目前程序通过“下一页”链接获取微博下一页信息,如果不存在就停止。因为现在有的微博即便存在下一页,但是没有链接,所以程序误判导致停止。可以改成for循环,计算下一页。

1.是的; 2.你的意思是不知道有几页,所以不知道for循环几次吗?可以抓取当前页面的html获得页数,停止。

我现在不方便调试,你可以修改search.py,所有信息获取都来自这里,如果微博搜索页面包含位置,可以参考其它属性获取。

这是格式错误,是不是修改代码了?按照错误提示添加空格看看

这个我没研究过,不知道,这样要获取的微博就太多了,非常非常困难。猜测你可以随机获取某些用户在相同时间段的微博,只要用户量多,也应该有代表性的,只是爬起来数量可能要求太多了,会很慢,可行性不高。

最近没办法调试,你看看其它issue,有类似问题和方法的。

pipelines.py文件就包含了mongo和图片等的操作,我目前不方便调试,你可以参考下这个文件,图片等的名字是和微博id相关的,大体是微博id和发布日期的组合,它们和url没有关系。

说明没有安装pip软件,先安装pip,再安装依赖。