Primitivní cachování 'all.xml.gz'
WIP #1: Pracovní verze rozpracování CI s cílem cachovat přechozí data.
Jelikož czechpoint.cz nevrací hlavičku Last-Modified, tak automatický timestamp wgetu (-N) nedokáže detekovat nezměněný soubor a pokaždé ho stáhne. Tento PR zkouší porovnávat velikost soubor uloženém v cache s proklepnutím hlavičky pomocí wgetu. Pokud jsou oba soubory stejné velikosti, má se za to, že jsou nezměněné.
Zároveň je přidaný adresář pro stahování a zpracování dat (.data) aby v tom byl trochu pořádek (a protože Github Actions cachují vždy celou složku a tak to cachovalo celé repo).
Dalo by se to pak rozšířit právě i pro "cache.json" přidáním do restore klíčů a hashovací funkce.
Omlouvám se, tady jsem měl dodat víc kontextu předem. Můj pohled:
- Vůbec nám nevadí opakované stahování zdrojového datasetu (
all.xml), je to maximálně pár případů do týdne. - Co nám vadí hodně je otloukání RUIAN, kde chcem souřadnice pro každou ze šesti tisíc obcí, ačkoliv už je víme z předchozího běhu.
- Místo kešování
cache.jsonmezi běhy bysme mohli stáhnout data z předchozího produkčního běhu?
Ono postup bude stejný jen se nahradí assety v rámci cache step
ten krok je to WIP abychom si ujasnili které assety chceme kešovat a trochu si ověřit jak by to fungovalo ... skusím to překlopit na ty předchozí data a uvidíme co to uděla.
(PS. Tak stejně ale může byt uložený ten cache.json není to velký problém)