Chen Lei

Results 931 comments of Chen Lei

本程序是模拟的微博搜索。 1.搜索每次最多获取50页,但是可以通过细分做到更多。程序在获取某个搜索时,如果结果不足50页,就认为只有这么多微博,否则认为还有更多,只是显示了50页,这是程序会细分。比如当前如果是按天搜索的,细分成按小时,获取更多。但是有些关键词虽然有很多,最多却显示40多页。这时程序会误认为只有这么多,所以获取少了。为了获取更多,修改weibo-search\weibo\spiders\search.py,把数字50改成45左右就行。 2.程序模拟的微博搜索,说明微博上也是这么显示的,应该是模糊搜索。修改piplines.py->DuplicatesPipeline,将process_item方法改成如下代码即可: ``` def process_item(self, item, spider): keywords = item['keyword'].split(' ') for keyword in keywords: if keyword not in item['weibo']['text']: raise DropItem("过滤不满足关键词的微博: %s" % item) if item['weibo']['id'] in self.ids_seen:...

用scrapy crawl search看看。

删除crawls文件夹看看,这里保存进度文件,可能之前没有正确保存。

可能是编码不正确,csv操作在pipelines.py,可以尝试修改CsvPipeline处的utf-8-sig,换成其它格式,看看是否有效果。