plpr-scraper
plpr-scraper copied to clipboard
Anwendung auf vorangegangene Wahlperioden
Hi,
erstmal vielen Dank für die Mühe! :) Würde der Parser auch auf zu txt konvertierten PDF's (z.B: mit pdf2text) früherer Wahlperioden funktionieren? Soweit ich das nachvollziehen kann liegen Textfiles der Protokolle nur für WP17 und WP18 vor. Ich würde gerne für ein Forschungsprojekt auch Protokolle vorangegangener Wahlperioden verarbeiten.
Im Prinzip schon, nur produzieren pdf-Konverter wie pdf2text den Text normalerweise mit jeder Menge extra Zeilenumbrüchen und Leerzeichen etc. - die müsste man erst mal aufräumen, um den Text systematisch parsebar zu machen.