Mar2812
Mar2812
cookie测试过可以用,换了两个cookie也不行
yield Request(url, callback=self.parse, meta={'source_url': url, 'mid':mid, 'c':0,'max_count':666}) 在start_request中改为这个,c表示计数器,每保存一个评论就加一,能大概控制数量,但不够精准,仅供思路参考哈 其次排序,我看代码里面是先抓一级评论然后抓二级评论,默认按热度排序
> 已经解决啦,详细的办法这里写不下可以看看我的博客:https://www.dataeast.cn/archives/1728728804585  这位大哥的方法写的很好,但我的错误和这个不一样,但也类似,都是embedding服务没有正确启动,我的inster log报错首先是: 1. 返回的html文件,里面有403,后来我发现是9001端口被占用了,然后修改了QAnything/qanything_kernel/configs/model_config.py里面的LOCAL_EMBED_SERVICE_URL = "localhost:9001"改为其他端口如9220 2. 完成1后仍然有错,然后我就继续看inert log里面的错误,就是connected refused,然后我就:python3 -u qanything_kernel/dependent_server/embedding_server/embedding_server.py,发现报错是9001端口仍然被占用,就可以知道,需要在qanything_kernel/dependent_server/embedding_server/embedding_server.py继续修改端口为9220(和1保持一致) 3. 然后重启:docker compose -f docker-compose-linux.yaml up -d 总结:整个过程需要多看error log,多看issue的解决方案 致敬大佬!
数据明显还没有爬完,我也没有设置下载图片和视频
已经修改代码,但是目前端口打印的日期的微博,并没有保存到结果文件,而且一直再重复这个日期, 2023.7.5 17:00-17:59(关键词:淄博烧烤)
@dataabc 大佬您好,查了一下这个时间段的微博信息,依然大于五十页,那如果出现这样的情况怎么办呀?我觉得可能是因为某天依然大于50页,导致一直在搜索,而不保存,陷入死循环了
感觉如果按小时搜索还是大于50页的话,最好能判断一下,到了小时粒度如果大于50页就停止搜索,您看这个建议是否可以采纳一下呢?
@dataabc 嗯嗯,谢谢回答!这个我理解的。我想要获取尽可能详细一点的内容,如果FURTHER_THRESHOLD设置大于50,可能就不直接细分了。我的意思是,有些小时内可能小于50条不用细分,而有的小时内大于50条,就导致了陷入循环里面。是否可以加入一个判断条件,就是搜索范围已经变成小时粒度了,且页数大于50,这时候能不能设置一个停止循环的条件
@dataabc 好的,谢谢大佬,后面我再看看