plpr-scraper icon indicating copy to clipboard operation
plpr-scraper copied to clipboard

Anwendung auf vorangegangene Wahlperioden

Open cschwem2er opened this issue 9 years ago • 1 comments

Hi,

erstmal vielen Dank für die Mühe! :) Würde der Parser auch auf zu txt konvertierten PDF's (z.B: mit pdf2text) früherer Wahlperioden funktionieren? Soweit ich das nachvollziehen kann liegen Textfiles der Protokolle nur für WP17 und WP18 vor. Ich würde gerne für ein Forschungsprojekt auch Protokolle vorangegangener Wahlperioden verarbeiten.

cschwem2er avatar Mar 09 '16 14:03 cschwem2er

Im Prinzip schon, nur produzieren pdf-Konverter wie pdf2text den Text normalerweise mit jeder Menge extra Zeilenumbrüchen und Leerzeichen etc. - die müsste man erst mal aufräumen, um den Text systematisch parsebar zu machen.

pudo avatar Mar 11 '16 10:03 pudo