od
od copied to clipboard
[all] Inkrementální nahrávání
Chtěl bych adresovat dvě věci:
- Aby se datasety uměly nahrávat ze zdroje jen částečně, aby nedocházelo ke zbytečné parsovací práci
- Aby se tyhle částečný updaty uměly reflektovat v databázi
K tomu prvnímu bodu mám trochu rozmyšleno, že by každá main() brala jako první vstup dict[URI, datetime], což by byl současný stav (ukládaný do done.json po konci zpracování nebo tak něco). Kdyby se tenhle slovník i vracel z tý main(), tak to pak v root/main.py můžem zpracovat s tím JSONem a celý to tam orchestrovat.
Bude pak na každým main(), aby se rozhodl, co s těma timestampama udělá - jestli to porovná s Last-Modified nebo jinou informací.