spacy-ru icon indicating copy to clipboard operation
spacy-ru copied to clipboard

Как получить `nerus.jsonl` для тренировки модели?

Open sbushmanov opened this issue 4 years ago • 1 comments

Собственно вопрос в шапке. Тривиальным ответом, наверное, было бы: конвертировать из исходника:
spacy convert nerus.conllu -t 'jsonl' > nerus.jsonl Но, непонятно что делать с токенизатором, т.к. правила токенизации для встроенного spacy токенизатора и nerus.conllu отличаются. Был бы признателен за ссылку или пример скрипта конвертации nerus.conlluв nerus.jsonl.

sbushmanov avatar Jul 25 '20 11:07 sbushmanov

Ну, появится один процент ошибок из-за неправильной токенизации. Забить на это пока. Теоретически, там есть способ сматчить токенизации, но это надо глубоко копать.

buriy avatar Jul 25 '20 14:07 buriy