spacy-ru
spacy-ru copied to clipboard
Как получить `nerus.jsonl` для тренировки модели?
Собственно вопрос в шапке.
Тривиальным ответом, наверное, было бы: конвертировать из исходника:
spacy convert nerus.conllu -t 'jsonl' > nerus.jsonl
Но, непонятно что делать с токенизатором, т.к. правила токенизации для встроенного spacy
токенизатора и nerus.conllu
отличаются.
Был бы признателен за ссылку или пример скрипта конвертации nerus.conllu
в nerus.jsonl
.
Ну, появится один процент ошибок из-за неправильной токенизации. Забить на это пока. Теоретически, там есть способ сматчить токенизации, но это надо глубоко копать.