Chen Lei comments

Results 925 comments of


                                            Chen Lei

爬取4小时候结果文件不继续更新

同一台电脑同一账号，程序不行网页行，我也不知道怎么回事。如果网页要验证之类的，可能就是速度太快。

关于关键词爬取结果不够准确的问题

程序模拟的是微博搜索网页，它的搜索结果是什么就获取什么，这个程序也控制不了。不过，如果您不想要这些微博，可以修改pipelines.py的最后的方法，它是负责筛选的，但这仍然是需要爬这些无关微博的，只不过手动去掉了，速度不会提升。

关于关键词爬取结果不够准确的问题

@Zhaoyh0918 代码示例是去除重复的，您如果是想删除不满足要求的搜索，要参考它，按自己的需求修改。程序停止有多种原因，可能是被暂时限制了，也可能是网络原因。

感谢反馈。会不会是配置的原因？比如只爬了热门等等。还有种原因，就是很多微博的发布者集中在一个地方一个时间发了微博，程序对于同一个城市在同一个小时段内最多能获取1000条，考虑到发微博的地方和时间应该是分散的，即不会特别集中，因为有400多个城市和地方，24个时间段，有10000多种组合，如果微博发布很分散且很多，最多能爬取1000多万条的，所以理论上是可以爬下大部分微博的。集中的情况比较罕见，不知道是不是程序出了bug。如果方便，能否告知KEYWORD_LIST、WEIBO_TYPE、CONTAIN_TYPE、REGION、START_DATE和END_DATE配置，我调试下。

微博搜索内容不全

应该是搜索结果不稳定的原因。上面的配置其实搜索的2020-11-03 0点到2020-11-09 0点的原创微博，，900多条。然后，把间隔换成1天，也是900多，不知道是不是不稳定。你可以把REGION 改成具体的省或直辖市列表，这样每个省都可以获得900左右，或者分开每天这样爬。

微博搜索内容不全

修改weibo/spiders/search.py，把里面的数字50调小，比如40。这里的50是搜索的最大页数，每次搜索最多显示50页。程序在获取某关键词时，如果发现该关键词的搜索结果小于50页，说明它一共就这么多微博；否则会认为结果没有完全展示，所以会细分，比如当前是按天搜索的，细分到小时，再判断小时的页数是否小于50，以此类推。因为上面的关键词即便很多，但是最多只显示了40多页，程序认为只有40多页，就不再细分了。为了继续细分，即把50调小为某个数字，只要页数到达这个数字，程序认为结果没有展示完全，继续细分。所以，把数字调小就可以了，这个数字是是否继续细分的阈值，不应该过小。比如，调小成2，即便结果真的只有两页，程序也会细分，本来一两页就能完成，现在要额外细分，会很慢。所以，数字不应太小，40多应该可以。

微博搜索内容不全

感谢反馈。可能是关键词的原因，我发现不同关键词的最大页数不同，比较迷，有的是50，有的40多，不知道会不会有其它数值，我在考虑下如何修改。再次感谢反馈和建议。

微博搜索内容不全

客气了。直接写个比较小的数就行，比如40，只是这样可能会误判，把本来只有40多页的关键词错当成可以细分的，这样就会多爬几页，速度会略慢。