obce icon indicating copy to clipboard operation
obce copied to clipboard

Primitivní cachování 'all.xml.gz'

Open michto01 opened this issue 5 years ago • 3 comments

WIP #1: Pracovní verze rozpracování CI s cílem cachovat přechozí data.

Jelikož czechpoint.cz nevrací hlavičku Last-Modified, tak automatický timestamp wgetu (-N) nedokáže detekovat nezměněný soubor a pokaždé ho stáhne. Tento PR zkouší porovnávat velikost soubor uloženém v cache s proklepnutím hlavičky pomocí wgetu. Pokud jsou oba soubory stejné velikosti, má se za to, že jsou nezměněné.

Zároveň je přidaný adresář pro stahování a zpracování dat (.data) aby v tom byl trochu pořádek (a protože Github Actions cachují vždy celou složku a tak to cachovalo celé repo).

michto01 avatar Apr 26 '20 15:04 michto01

Dalo by se to pak rozšířit právě i pro "cache.json" přidáním do restore klíčů a hashovací funkce.

michto01 avatar Apr 26 '20 16:04 michto01

Omlouvám se, tady jsem měl dodat víc kontextu předem. Můj pohled:

  1. Vůbec nám nevadí opakované stahování zdrojového datasetu (all.xml), je to maximálně pár případů do týdne.
  2. Co nám vadí hodně je otloukání RUIAN, kde chcem souřadnice pro každou ze šesti tisíc obcí, ačkoliv už je víme z předchozího běhu.
  3. Místo kešování cache.json mezi běhy bysme mohli stáhnout data z předchozího produkčního běhu?

zoul avatar Apr 27 '20 15:04 zoul

Ono postup bude stejný jen se nahradí assety v rámci cache step

ten krok je to WIP abychom si ujasnili které assety chceme kešovat a trochu si ověřit jak by to fungovalo ... skusím to překlopit na ty předchozí data a uvidíme co to uděla.

(PS. Tak stejně ale může byt uložený ten cache.json není to velký problém)

michto01 avatar Apr 27 '20 16:04 michto01