NER post processing stap toevoegen
Naast de gazeteers, is er behoefte aan een lijst van NE's die in een Post=processing stap alsnog keihard over de standaard NE's heen gezet worden.
- Dit moet optioneel zijn.
- Toegekende NE's moeten netjes overschreven worden. Langere kunnen vervangen worden.
- de lijst moet wel zorgvuldig opgesteld worden. Liefst alleen woorden die NIET al als een gewone NE getagd zijn.
Een eerste versie is nu geïmplementeerd.
Nu wachten op een serieuze test
Dit sluit een beetje aan bij een vraag die ik heb dus ik stel het hier maar: hoe zit het met de precendence/volgorde van de gazetteers? Ik zie dat ze in ners.known staan, geldt hier "de eerst match wint" of de "de laatste match wint"? (in geval van ambiguiteit tussen meerdere gazetteers dus). En zoals ik nu begrijp komen de gazetteers altijd na de gewone context-sensitive tagging? (het zou misschien helemaal mooi zijn als ook dit configureerbaar is)
wel: bij inlezen van de gazeteers, worden de entities opgeslagen op lengte. Daardoor wordt geregeld dat de NE 'New York Airport' zal winnen van 'New York' Daarnaast is het per lengte gewoon een map. dus de laatste entry wordt bewaard. Dus als 'New York loc(city)' komt NA 'New York loc' in welke gazeteerlijst dan ook, dan wordt alleen de eeste gebruikt.