kleineanfragen icon indicating copy to clipboard operation
kleineanfragen copied to clipboard

Rewrite Sachsen Scraper

Open robbi5 opened this issue 9 years ago • 0 comments

Da der Sachsen Scraper zu viel Last auf dem Parlamentsdokumentationssystem erzeugt, sollten wir:

  • OverviewScraper nicht mehr immer über alle Anfragen grasen lassen
  • Möglichst nicht tagsüber scrapen

Da trotzdem der Scrapevorgang immer noch recht aufwändig ist (klickt sich durch relativ viele Formulare/Seiten, bis alle Metainformationen zusammengesammelt) macht es Sinn, zu prüfen, ob eine API im Sachsener Parlamentsdokumentationssystem bereitgestellt werden kann.

Benötigte Daten aus der API:

Erster Import
  • Vollständige Liste aller kleinen/großen Anfragen mit Antwort einer Wahlperiode
  • Kleinste benötigte Rückgabe: Liste mit Dokumentennummern (für weitere Einzelabfragen)
  • Besser: Liste mit Dokumentennummer, Titel, Veröffentlichungsdatum, ... (wie Einzelabfrage)
Folgende Importe
  • Im besten Fall: RSS/Atom-Feed mit Vorgängen, bei denen Änderungen passiert sind
    • sollte auch bei "nur Tippfehler" oder ähnlichen kleinen Änderungen funktionieren
    • sollte auch bei Änderungen an den PDFs funktionieren
    • Feed nicht abschneiden, da sonst wieder Komplettimport passieren muss
  • Falls nicht möglich: Abfragemöglichkeit für Anfragen mit Antwort, die sich seit (Datum) verändert haben. Rückgabe wie oben.
Einzelabfrage
  • Abfrage der Metadaten für eine Anfrage mit Antwort anhand der Dokumentennummer
  • benötigte Rückgabe:
    • Wahlperiode
    • Dokumentennummer
    • Dokumententyp (kleine/große Anfrage)
    • Veröffentlichungsdatum
    • Titel
    • Anfragesteller (Vollständiger Name, Fraktion)
    • Beantwortendes Ministerium
    • Stabile URL zur PDF
    • falls möglich: letztes Änderungsdatum

Zur PDF-URL: Aktuell erfolgt ein Rehosting der PDFs bei kleineanfragen.de, da die URL zum PDF im Parlamentsdokumentationssystem nur funktioniert, wenn vorher die Anfrage im Viewer auch angezeigt wurde.

Die API sollte bestmöglich stateless und ohne Authentifizierung sein und auf REST mit JSON-Dokumenten basieren.

Andere (whsl. sinnvollere) Möglichkeit: Implementation von OParl, ein Standard für offenen Zugriff auf parlamentarische Informationssysteme.

robbi5 avatar Jan 26 '16 17:01 robbi5