Mar2812 comments

Results 9 comments of


                                            Mar2812

如何控制抓取评论的数量？

yield Request(url, callback=self.parse, meta={'source_url': url, 'mid':mid, 'c':0,'max_count':666}) 在start_request中改为这个，c表示计数器，每保存一个评论就加一，能大概控制数量，但不够精准，仅供思路参考哈其次排序，我看代码里面是先抓一级评论然后抓二级评论，默认按热度排序

[BUG] <title>所有文件都无法解析，报错milvus insert error

> 已经解决啦，详细的办法这里写不下可以看看我的博客：https://www.dataeast.cn/archives/1728728804585 ![image](https://github.com/user-attachments/assets/11089a2c-af0e-42ff-a844-e06b089273e9) 这位大哥的方法写的很好，但我的错误和这个不一样，但也类似，都是embedding服务没有正确启动，我的inster log报错首先是： 1. 返回的html文件，里面有403，后来我发现是9001端口被占用了，然后修改了QAnything/qanything_kernel/configs/model_config.py里面的LOCAL_EMBED_SERVICE_URL = "localhost:9001"改为其他端口如9220 2. 完成1后仍然有错，然后我就继续看inert log里面的错误，就是connected refused，然后我就：python3 -u qanything_kernel/dependent_server/embedding_server/embedding_server.py，发现报错是9001端口仍然被占用，就可以知道，需要在qanything_kernel/dependent_server/embedding_server/embedding_server.py继续修改端口为9220（和1保持一致） 3. 然后重启：docker compose -f docker-compose-linux.yaml up -d 总结：整个过程需要多看error log，多看issue的解决方案致敬大佬！

文件保存问题

数据明显还没有爬完，我也没有设置下载图片和视频

文件保存问题

已经修改代码，但是目前端口打印的日期的微博，并没有保存到结果文件，而且一直再重复这个日期， 2023.7.5 17:00-17:59（关键词：淄博烧烤）

文件保存问题

@dataabc 大佬您好，查了一下这个时间段的微博信息，依然大于五十页，那如果出现这样的情况怎么办呀？我觉得可能是因为某天依然大于50页，导致一直在搜索，而不保存，陷入死循环了

文件保存问题

感觉如果按小时搜索还是大于50页的话，最好能判断一下，到了小时粒度如果大于50页就停止搜索，您看这个建议是否可以采纳一下呢？

文件保存问题

@dataabc 嗯嗯，谢谢回答！这个我理解的。我想要获取尽可能详细一点的内容，如果FURTHER_THRESHOLD设置大于50，可能就不直接细分了。我的意思是，有些小时内可能小于50条不用细分，而有的小时内大于50条，就导致了陷入循环里面。是否可以加入一个判断条件，就是搜索范围已经变成小时粒度了，且页数大于50，这时候能不能设置一个停止循环的条件

文件保存问题

@dataabc 好的，谢谢大佬，后面我再看看