offeneskoeln icon indicating copy to clipboard operation
offeneskoeln copied to clipboard

Geo-Lokalisierung: Einige Straßen gibt es mehrfach

Open marians opened this issue 13 years ago • 0 comments

Bei der Suche nach Themen im Umkreis eines Nutzers gibt es eine Ungenauigkeit dadurch, dass einige Straßen in Köln mehr als nur einmal existieren.

Ein Beispiel: die Gertrudenstraße http://offeneskoeln.de/api/positions-by-name?name=Gertrudenstra%C3%9Fe

Zunächst ist es wichtig, festzustellen, dass die Straße mehrfach vorhanden ist. Hierzu könnte man sämtliche Koordinatenpunkte einer Straße betrachten und die Entfernungen N:N berechnen. Die Entfernungen zwischen den Punkten derselben Straße werden vergleichsweise klein ausfallen. Die Entfernungen zwischen einem Punkt der einen Straße und einem anderen Punkt der gleichnamigen Straße an einem anderen Ort jedoch wird vergleichsweise hoch ausfallen. Daraus müssten sich "Cluster" von zusammengehörigen Punkten errechnen lassen.

Dann weiß man, dass es die Gertrudenstraße einmal mit Mittelpunkt in Köln-Innenstadt und einmal in Köln-Porz-Ensen gibt.

Beim Verarbeiten der Dokumente ist dann die Frage, welcher der beiden Straßen das Dokument, das den Namen "Gertrudenstraße" enthält, zugeordnet wird. Hierfür könnten verschiedene Mechanismen herangezogen werden.

A) Stammt das Dokument aus der Sitzung einer Bezirksvertretung, handelt es sich mit großer Wahrscheinlichkeit um den Stadtteil, der in dem entsprechenden Bezirk liegt. (Unklar ist, ob es Straßen-Dopplungen innerhalb des selben Bezirks gibt.)

B) Bayessche Klassifizierung: Anhand aller Dokumente, die einer Bezirksvertretung zugeordnet sind, lässt sich ein Bayesscher Classifier trainieren. Dieser wird dann genutzt, um den Volltext des Dokuments einer der Klassen zuzuordnen. Gegenüber A hat dies den Vorteil, dass es auch auf Dokumente anwendbar ist, die nicht aus einer Bezirksvertretung stammen.

Letztlich stellt sich noch die Frage, wie dann die Kombination aus Straße und Stadtbezirk bzw. Stadtteil am Dokument hinterlegt wird. Aktuell wird nur der Straßenname "Gertrudenstraße" abgelegt. Es wird eine Konvention benötigt, in der alle Details Platz finden, z.B. "Gertrudenstraße (Innenstadt)".

marians avatar Feb 06 '12 16:02 marians