opendata-issue-tracker icon indicating copy to clipboard operation
opendata-issue-tracker copied to clipboard

Kraapida kinnisvaratehingute hinnad

Open andreskytt opened this issue 6 years ago • 9 comments

Kraapida http://www.maaamet.ee/kinnisvara/htraru/ ja teha ühe failina kättesaadavaks vastavalt juhendile

andreskytt avatar Jul 02 '19 07:07 andreskytt

@andreskytt mul huvi sarnast asja teha, võin collabida koodi ja vajadusel hostida scrapereid jm

ma ei suutnud kiiresti leida - kas seal on mingid kasutuspiirangud ka või ma võiksin tuimalt teha 100k queryt, igaüks nii detailselt kui võimalik?

taivop avatar Jul 30 '19 08:07 taivop

Related: https://github.com/okestonia/opendata-issue-tracker/issues/36

Päringukeskkonna alusel andmete tekitamine ehk kõikvõimalik päringute pidev käivitamine, tulemuste andmebaasi salvestamine ja nende masinloetaval kujul avaldamine eeldab mahukat IT arendust.

Ma arvan, et selle mahuka IT-arenduse MVP saaks kerge nädalavahetuse-hackathoniga ära teha.

taivop avatar Jul 30 '19 08:07 taivop

Mahupiirangu osas ei mäleta, et seal midagi peal oleks - vaevalt. Kuni sa ühe lõimega järjest küsid, siis vast suudab nende server ka ühe lõimega järjest vastata ja ei lähe katki. Esimese hooga võiks teha ühe tõmmise näiteks aastast 2015 nädalase resolutsiooniga. Siis ei pea kraapijat kuskile jooksma jätta, nood numbrid vaevalt et enam muutuvad.

andreskytt avatar Aug 05 '19 16:08 andreskytt

Tegin ühe kraapija, mis võtab etteantud aasta nädalate kaupa ette ja tassib ühe asustusüksuse kaupa pessa: https://github.com/taneljairus/opendata-scrapers/blob/master/htraru.py

Väljundiks on esialgu iga aruande kohta üks JSON, mille nimi on formaadis EHAK_ARUANDEKOOD_ALGUS_LÕPP.json.

Näiteks: 0037_R01_2015-03-19_2015-03-25.json 0037 - Harju maakond R01 - Tehingud võõrandajate residentsuse kaupa 2015-03-19 - perioodi algus 2015-03-25 - perioodi lõpp

Kui 2015 ring on peal, siis vaatab kuidas nende JSONitega mõistlik edasi majandada on.

taneljairus avatar Aug 11 '19 16:08 taneljairus

@taneljairus panid jooksma? Kui sul dump olemas, anna teada.

taivop avatar Aug 12 '19 18:08 taivop

Ja olemas - https://tugi.maant.ee/tmp/scrapings_14082019.tar.gz Kõik 2015 aasta kinnisvaratehingud peaks sees olema. Nagu öeldud iga aruanne on eraldi JSON, kui faili pole, siis sellel nädalal sellises haldusüksuses tehinguid polnud. Positiivne on see, et hoolimata miljonist päringust ei kukkunud süsteem maha ja ära mind ka ei blokeeritud.

Nüüd on küsimus, mis nendega edasi teha. Kas peaks ühte suurde laia tabelisse koondama, ühendama sama haldusüksuse andmed või mingi kolmas variant? Ridu on umbes-täpselt nii palju, et Excel kogu pakiga hakkama ei saaks.

@andreskytt @taivop

taneljairus avatar Aug 14 '19 06:08 taneljairus

Aga kuulaks klienti ehk? Teeks selle kraabuskiga andmehulga ära ja küsiks publikult, et kuidaspidi seda andmestikku parem konsumeerida oleks

andreskytt avatar Aug 19 '19 18:08 andreskytt

Nõus @andreskytt .

@taneljairus äkki saad mingiks lihtsaks CSVks teha? Sealt edasi saab juba väga kergesti hackathonidel või tudengitele kätte anda, või lihtsalt ise mingi näidis-notebook teha nende andmete peal.

taivop avatar Aug 21 '19 12:08 taivop

CSV tuleb kole lai, kui tahta lihtsalt teha. Tegin ühe suure (100MB) JSONi: https://tugi.maant.ee/htraru.json

taneljairus avatar Aug 21 '19 13:08 taneljairus