offeneskoeln
offeneskoeln copied to clipboard
Stichwort-Extraktion mittels TF*IDF
Zur Einführung: http://blog.offeneskoeln.de/post/19006750619/gepflegte-stichworte
Darunter hat Stefan kommentiert, dass es auch ohne manuell gepflegte Stoppwortliste möglich sein sollte, die relevanten Begriffe zu extrahieren, indem man die Begriffshäufigkeit innerhalb eines Dokuments mit der Häufigkeit des selben Begriffs in allen Dokumenten vergleicht. http://en.wikipedia.org/wiki/Tf*idf