opencorpora
opencorpora copied to clipboard
Специальная обработка неправильной токенизации
Чтобы не перезапускать обучение токенизатора вручную при ошибках заливающих тексты предлагаю на примеры, где поставлена граница между двумя буквами одного алфавита, обрабатывать как ошибку и не отдавать в обучение.
Да можно просто прибить гвоздями, что в этих случаях разбивать не надо. Le 24 oct. 2015 9:24 AM, "Victor Bocharov" [email protected] a écrit :
Чтобы не перезапускать обучение токенизатора вручную при ошибках заливающих тексты предлагаю на примеры, где поставлена граница между двумя буквами одного алфавита, обрабатывать как ошибку и не отдавать в обучение.
— Reply to this email directly or view it on GitHub https://github.com/OpenCorpora/opencorpora/issues/687.
Я думаю, что лучше прибить гвоздями так, чтобы в обучение такие случаи не попадали. Вместо этого пусть появляются в списке "токенизация сломалась на ..."