tomita-parser
tomita-parser copied to clipboard
Извлекаются не все факты из текста.
Есть ли какие-нибудь ограничения на количество слов, которые могут попадать в извлекаемые факты? Например если запустить на распознавание текст, то скажем извлеклось 3 факта из 6 , которые находятся в тексте, далее если уменьшить размер первых 3 фактов (удалить половину текста) и вновь отправить текст на распознавание , извлекается уже 5 фактов из 6. Какие на это могут влиять ограничения и можно ли как-то их изменить (увеличить)
Ограничения на количество слов нет. Приведите, пожалуйста, минимальный пример (грамматика, словари, газетиры, ...), который демонстрировал бы проблему. Тогда я смогу посмотреть.
А ограничение на длину извлекаемой цепочки есть? Как вы себе представляете приведение примера?
Есть ограничение на количество фактов в рамках одного предложения: https://github.com/yandex/tomita-parser/blob/b27ab81671057f940b383349a7d2e5e496fbbce0/src/FactExtract/Parser/common/textminerconfig.proto#L148
А ограничение на длину извлекаемой цепочки есть?
Не могу вспомнить ограничений на длину цепочки.
Как вы себе представляете приведение примера?
Сделайте отдельный проект, который демнострирует проблему, о которой вы пишете, но не делает ничего больше. Скопируйте в комментарии к этому тикету каждый файл (грамматики, газетиры, словари, конфиг). Добавьте входной файл, на котором будет видна проблема. Файл должен быть достаточным для демонстрации проблемы, но не более того.
А что значит количество фактов в рамках одного предложения?
Вначале парсер делит текст на предложения. Факты выделяются только внутри одного предложения. Если на одно предложение сгенерируется MaxFactsCountPerSentence
фактов, то он остановит разбор этого предложения и не сгенерирует на него больше никаких фактов.
А как изменить этот параметр?
В config.proto
поставьте MaxFactsCountPerSentence=нужное значение