GoFilm icon indicating copy to clipboard operation
GoFilm copied to clipboard

采集数据有时候会出现的问题

Open yyg-max opened this issue 1 year ago • 8 comments

image

比如这个采集过程中出现的问题我这只截取了一个。导致出现很多资源没有采集下来,这个设置间隔时长能解决吗?还是如何解决这个问题

image

yyg-max avatar Nov 24 '24 11:11 yyg-max

有些采集站对采集频率是做了限制的,还有使用代理进行采集也会被拒绝请求,可以通过设置采集间隔,一般2000~3000ms左右,也可以去对应源的提供方那里让他们给你加一下白名单

ProudMuBai avatar Nov 25 '24 08:11 ProudMuBai

建议加一个采集失败的话自动重试机制,如果设置间隔时长的话采集就太慢了

yyg-max avatar Nov 25 '24 13:11 yyg-max

去对应源的提供方的话对方可能也不肯

yyg-max avatar Nov 25 '24 13:11 yyg-max

或者加一个失败的队列啥的可以用redis保存,给个管理界面上清晰看到哪个请求失败可以重新一键采取和指定采取啥的这样就能先保证把大部分的内容采取下来失败的可以后面慢慢的采取也可以设置时间间隔,即使再次采集失败也能重试(我觉得这种方式最好)

yyg-max avatar Nov 25 '24 14:11 yyg-max

嗯,的确,采集失败我有设置一次重试操作的,但如果是请求被拒绝确实收益不高,改成把失败请求存到redis然后每天用定时任务把失败请求进行二次处理应该会好很多,等后续有时间我会对采集失败的问题和定向搜索采集这些问题做处理的,最近有点忙,一月份会进行一次大的更新,到时候会加一些新功能和集中处理目前issues的这些问题

ProudMuBai avatar Nov 26 '24 14:11 ProudMuBai

好的辛苦了,建议把这个需求等级提高点影响确实挺大的

yyg-max avatar Nov 26 '24 14:11 yyg-max

image 这个是采集站官方回复的

yyg-max avatar Nov 27 '24 08:11 yyg-max

@yyg-max 新版本已添加失败记录和相应的恢复采集功能

ProudMuBai avatar Mar 23 '25 08:03 ProudMuBai