tomita-parser Извлекаются не все факты из текста.

Есть ли какие-нибудь ограничения на количество слов, которые могут попадать в извлекаемые факты? Например если запустить на распознавание текст, то скажем извлеклось 3 факта из 6 , которые находятся в тексте, далее если уменьшить размер первых 3 фактов (удалить половину текста) и вновь отправить текст на распознавание , извлекается уже 5 фактов из 6. Какие на это могут влиять ограничения и можно ли как-то их изменить (увеличить)

Apr 15 '22 15:04 KotIva

Ограничения на количество слов нет. Приведите, пожалуйста, минимальный пример (грамматика, словари, газетиры, ...), который демонстрировал бы проблему. Тогда я смогу посмотреть.

Apr 15 '22 21:04 victorbocharov

А ограничение на длину извлекаемой цепочки есть? Как вы себе представляете приведение примера?

Apr 18 '22 07:04 KotIva

Есть ограничение на количество фактов в рамках одного предложения: https://github.com/yandex/tomita-parser/blob/b27ab81671057f940b383349a7d2e5e496fbbce0/src/FactExtract/Parser/common/textminerconfig.proto#L148

А ограничение на длину извлекаемой цепочки есть?

Не могу вспомнить ограничений на длину цепочки.

Как вы себе представляете приведение примера?

Сделайте отдельный проект, который демнострирует проблему, о которой вы пишете, но не делает ничего больше. Скопируйте в комментарии к этому тикету каждый файл (грамматики, газетиры, словари, конфиг). Добавьте входной файл, на котором будет видна проблема. Файл должен быть достаточным для демонстрации проблемы, но не более того.

Apr 18 '22 11:04 victorbocharov

А что значит количество фактов в рамках одного предложения?

Apr 18 '22 14:04 KotIva

Вначале парсер делит текст на предложения. Факты выделяются только внутри одного предложения. Если на одно предложение сгенерируется MaxFactsCountPerSentence фактов, то он остановит разбор этого предложения и не сгенерирует на него больше никаких фактов.

Apr 18 '22 19:04 victorbocharov

А как изменить этот параметр?

Apr 19 '22 07:04 KotIva

В config.proto поставьте MaxFactsCountPerSentence=нужное значение

Apr 20 '22 19:04 victorbocharov

tomita-parser tomita-parser copied to clipboard

Извлекаются не все факты из текста.

tomita-parser
tomita-parser copied to clipboard