opencorpora
opencorpora copied to clipboard
Сокращения с точкой внутри
Есть токены-сокращения типа: пра-и.е. (праиндоевропейский), чл.-корр. (член-корреспондент), ст.-слав. (старославянский), сев.-зап. (северо-западный), др.-греч. (древнегреческий) и т.п.
Токенизатор очень им удивляется, но дело даже не в этом. Конкретного решения в инструкции про них нет.
- вписать их в инструкцию?
- добавить их в словарь?
- (если не добавлять в словарь) исключить их все из обучения токенизатора?
cc @victorbocharov @svbichineva
Я бы добавила в словарь
Best, Svetlana Alexeeva
8 февр. 2016 г., в 2:15, Dmitry Granovsky [email protected] написал(а):
Есть токены-сокращения типа: пра-и.е. (праиндоевропейский), чл.-корр. (член-корреспондент), ст.-слав. (старославянский), сев.-зап. (северо-западный), др.-греч. (древнегреческий) и т.п.
Токенизатор очень им удивляется, но дело даже не в этом. Конкретного решения в инструкции про них нет.
вписать их в инструкцию? добавить их в словарь? (если не добавлять в словарь) исключить их все из обучения токенизатора? cc @victorbocharov @svbichineva
— Reply to this email directly or view it on GitHub.
А если добавить в словарь, то как отдельные леммы или в парадигму к полным версиям?
Я за отдельные леммы
Best, Svetlana Alexeeva
24 февр. 2016 г., в 11:12, Dmitry Granovsky [email protected] написал(а):
А если добавить в словарь, то как отдельные леммы или в парадигму к полным версиям?
— Reply to this email directly or view it on GitHub.
@svbichineva как отдельные леммы без крайней справа точки?