Chen Lei comments

Results 931 comments of


                                            Chen Lei

微博数据数据不全，貌似只能爬取到前50页的内容？

本程序是模拟的微博搜索。 1.搜索每次最多获取50页，但是可以通过细分做到更多。程序在获取某个搜索时，如果结果不足50页，就认为只有这么多微博，否则认为还有更多，只是显示了50页，这是程序会细分。比如当前如果是按天搜索的，细分成按小时，获取更多。但是有些关键词虽然有很多，最多却显示40多页。这时程序会误认为只有这么多，所以获取少了。为了获取更多，修改weibo-search\weibo\spiders\search.py，把数字50改成45左右就行。 2.程序模拟的微博搜索，说明微博上也是这么显示的，应该是模糊搜索。修改piplines.py->DuplicatesPipeline，将process_item方法改成如下代码即可： ``` def process_item(self, item, spider): keywords = item['keyword'].split(' ') for keyword in keywords: if keyword not in item['weibo']['text']: raise DropItem("过滤不满足关键词的微博: %s" % item) if item['weibo']['id'] in self.ids_seen:...

Chen Lei

微博数据数据不全，貌似只能爬取到前50页的内容？

微博数据数据不全，貌似只能爬取到前50页的内容？

微博数据数据不全，貌似只能爬取到前50页的内容？

以一个关键词组爬完后不能继续爬了。

以一个关键词组爬完后不能继续爬了。

以一个关键词组爬完后不能继续爬了。

运行后再运行失败

运行后再运行失败

下载的图片命名格式是id-数字编号吗？为什么搜索id却和csv文件对应不上

前面运行正常，到后面某一段突然全部变成乱码，但CMD页面是正常的