Chen Lei

Results 925 comments of Chen Lei

有可能是速度太快被暂时限制了,我也不确定,你在网页上看看能否搜索东西。

同一台电脑同一账号,程序不行网页行,我也不知道怎么回事。如果网页要验证之类的,可能就是速度太快。

程序模拟的是微博搜索网页,它的搜索结果是什么就获取什么,这个程序也控制不了。不过,如果您不想要这些微博,可以修改pipelines.py的最后的方法,它是负责筛选的,但这仍然是需要爬这些无关微博的,只不过手动去掉了,速度不会提升。

@Zhaoyh0918 可以参考 #7 有代码的内容。

@Zhaoyh0918 代码示例是去除重复的,您如果是想删除不满足要求的搜索,要参考它,按自己的需求修改。 程序停止有多种原因,可能是被暂时限制了,也可能是网络原因。

感谢反馈。 会不会是配置的原因?比如只爬了热门等等。还有种原因,就是很多微博的发布者集中在一个地方一个时间发了微博,程序对于同一个城市在同一个小时段内最多能获取1000条,考虑到发微博的地方和时间应该是分散的,即不会特别集中,因为有400多个城市和地方,24个时间段,有10000多种组合,如果微博发布很分散且很多,最多能爬取1000多万条的,所以理论上是可以爬下大部分微博的。集中的情况比较罕见,不知道是不是程序出了bug。如果方便,能否告知KEYWORD_LIST、WEIBO_TYPE、CONTAIN_TYPE、REGION、START_DATE和END_DATE配置,我调试下。

应该是搜索结果不稳定的原因。 上面的配置其实搜索的2020-11-03 0点到2020-11-09 0点的原创微博,,900多条。然后,把间隔换成1天,也是900多,不知道是不是不稳定。你可以把REGION 改成具体的省或直辖市列表,这样每个省都可以获得900左右,或者分开每天这样爬。

修改weibo/spiders/search.py,把里面的数字50调小,比如40。 这里的50是搜索的最大页数,每次搜索最多显示50页。程序在获取某关键词时,如果发现该关键词的搜索结果小于50页,说明它一共就这么多微博;否则会认为结果没有完全展示,所以会细分,比如当前是按天搜索的,细分到小时,再判断小时的页数是否小于50,以此类推。因为上面的关键词即便很多,但是最多只显示了40多页,程序认为只有40多页,就不再细分了。为了继续细分,即把50调小为某个数字,只要页数到达这个数字,程序认为结果没有展示完全,继续细分。 所以,把数字调小就可以了,这个数字是是否继续细分的阈值,不应该过小。比如,调小成2,即便结果真的只有两页,程序也会细分,本来一两页就能完成,现在要额外细分,会很慢。所以,数字不应太小,40多应该可以。

感谢反馈。 可能是关键词的原因,我发现不同关键词的最大页数不同,比较迷,有的是50,有的40多,不知道会不会有其它数值,我在考虑下如何修改。 再次感谢反馈和建议。

客气了。 直接写个比较小的数就行,比如40,只是这样可能会误判,把本来只有40多页的关键词错当成可以细分的,这样就会多爬几页,速度会略慢。