opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Специальная обработка неправильной токенизации

Open vbocharov opened this issue 10 years ago • 2 comments

Чтобы не перезапускать обучение токенизатора вручную при ошибках заливающих тексты предлагаю на примеры, где поставлена граница между двумя буквами одного алфавита, обрабатывать как ошибку и не отдавать в обучение.

vbocharov avatar Oct 24 '15 06:10 vbocharov

Да можно просто прибить гвоздями, что в этих случаях разбивать не надо. Le 24 oct. 2015 9:24 AM, "Victor Bocharov" [email protected] a écrit :

Чтобы не перезапускать обучение токенизатора вручную при ошибках заливающих тексты предлагаю на примеры, где поставлена граница между двумя буквами одного алфавита, обрабатывать как ошибку и не отдавать в обучение.

— Reply to this email directly or view it on GitHub https://github.com/OpenCorpora/opencorpora/issues/687.

grandsbor avatar Oct 24 '15 07:10 grandsbor

Я думаю, что лучше прибить гвоздями так, чтобы в обучение такие случаи не попадали. Вместо этого пусть появляются в списке "токенизация сломалась на ..."

vbocharov avatar Oct 25 '15 06:10 vbocharov