Ondrej Kokes
Ondrej Kokes
```sql SELECT tts.popis_stavu, tt.* FROM psp.tisky_tisky tt INNER JOIN psp.poslanci_organy org ON org.id_organ = tt.id_org_obd and org.zkratka in ('PSP6', 'PSP7', 'PSP8') INNER JOIN psp.tisky_stavy using(id_stav) INNER JOIN psp.tisky_typ_stavu tts using(id_typ)...
Hlasování 9-12 jsou tady v názvu navázána na sněmovní tisk 167, ale v datech to nevidim. http://www.psp.cz/sqw/phlasa.sqw?o=8&s=18&pg=1 Když vezmu id 68049, tak ho v datech mám jen v tabulce hlasování...
V datech je poměrně zvláštní specifikace smluvních stran - není ihned jasné, kdo je poskytovatel a kdo dodavatel - je tam booleanovský indentifikátor, ale občas je zavádějící, občas jsou vyplněny...
K dnešnímu dni máme 6551 osob v datasetu od PSP, ale jen 5635 z nich má vyplněné datum narození, které je odlišné od 1900-01-01 (jejich sentinel value místo NULL). Je...
Data už máme (https://github.com/kokes/od/commit/b8da73fd9c91ce6dccaf20f7f8dbb6369d06c7d0), teď ještě přidat info do rootovýho README a pak taky rozšířit README toho subprojektu.
Třeba z toho přehledu, kterej sem dělal pro video https://gist.github.com/kokes/4f0e3c45d71e2160ede7d80d432f54a8
Jaké technologie jsou použité, co by se dalo změnit (třeba ze shellu na něco přenositelnějšího) a s čim je to implicitně kompatibilní (v případě DB třeba).
Spousta identifikátorů je neplatných. Občas to jsou blbosti (1), občas to je kombinace IČO a nějakého jiného identifikátoru, třeba "44992785-28", když bylo myšleno Brno, 44992785.
Někde v zakázkách byly sloupce, který měly hodnoty ano/ne, z těch bychom mohli udělat boolean.
Mohli bychom použít pandas profiling (možná v rámci CI? nebo jako shell skript?) a jeho output někde zobrazit. Ať má člověk přehled o tom, co v těch datech je (a...