Blanker
Blanker
目前发现浙江省/湖北省部分时间序列数据存在数据异常,可能的原因是丁香园数据为人工录入,某些数据可能录入错误,比如某一次爬虫获取的浙江省治愈人数为537人,数分钟后被修改回正常人数。 本项目爬虫仅从丁香园公开的数据中获取并储存数据,并不会对异常值进行判断和处理,因此如果将本数据用作科研目的,请自己对数据进行清洗。 同时,可以直接在此问题中反馈潜在的异常数据,我会定期检查并处理。 --- ### 所有与数据异常不相关的问题请另开issue,自2020年4月3日起,所有与数据异常不相关的问题不再回复。
万分感谢大家对本项目的支持。 本API建立的初衷,是让更多人能够回溯数据、直观地看到这次疫情的变化,能够满足部分人非商业性的开发或者科研的目的,而并不希望为单个企业来服务。 我在第一个版本的API文档上就已经明确表示,**本API主要开放给非商业用途使用。** 然而,近期我收到一封邮件,要求增加服务器带宽以满足更高频率请求,**发件邮箱的域名是企业域名,同时落款为某上市公司。甚至,在该公司的官方网站上,明确标识了他们近期开发的项目为政府提供数据指导。** 因此,昨天和今天我分析网站后端请求数据的logfile,有大量来自同一个C类IP下的请求,每秒大约有5次,严重占用了其他用户对API的调用和对数据的获取。 服务器目前每秒钟需要处理的请求数量超过20个,而服务器仅10Mbps的带宽已经无法响应如此庞大的商用业务的请求数量,因此不得不部署反爬虫措施。 目前的措施很简单: **限制单个IP每秒请求数量最多为5次,如果超过该访问频率,则返回503错误。** 2月21日更新:考虑到目前有4个API,并且偶尔会有断线情况,且设置反爬虫措施后API响应速度已有明显改善,因此每秒最大请求数量更改为5次。 3月18日更新:自3月16日起,每秒最大请求数量重新限制为2次。 如果大家有高频请求的需求,可以在本地建立缓存,定时请求服务器刷新数据,而不是将每一次的请求都发送到本服务器,否则会严重影响双方的数据传输效率。 再次感谢。 --- Thank you very much for your support. The original intention of this API is to allow more...
Hi, My node is hosted on the cloud service, and syncing with 40+ nodes at the same time with `external-address` set up. However, the Windows and Ubuntu miner will periodically...