tomita-parser icon indicating copy to clipboard operation
tomita-parser copied to clipboard

Извлекаются не все факты из текста.

Open KotIva opened this issue 2 years ago • 7 comments

Есть ли какие-нибудь ограничения на количество слов, которые могут попадать в извлекаемые факты? Например если запустить на распознавание текст, то скажем извлеклось 3 факта из 6 , которые находятся в тексте, далее если уменьшить размер первых 3 фактов (удалить половину текста) и вновь отправить текст на распознавание , извлекается уже 5 фактов из 6. Какие на это могут влиять ограничения и можно ли как-то их изменить (увеличить)

KotIva avatar Apr 15 '22 15:04 KotIva

Ограничения на количество слов нет. Приведите, пожалуйста, минимальный пример (грамматика, словари, газетиры, ...), который демонстрировал бы проблему. Тогда я смогу посмотреть.

victorbocharov avatar Apr 15 '22 21:04 victorbocharov

А ограничение на длину извлекаемой цепочки есть? Как вы себе представляете приведение примера?

KotIva avatar Apr 18 '22 07:04 KotIva

Есть ограничение на количество фактов в рамках одного предложения: https://github.com/yandex/tomita-parser/blob/b27ab81671057f940b383349a7d2e5e496fbbce0/src/FactExtract/Parser/common/textminerconfig.proto#L148

А ограничение на длину извлекаемой цепочки есть?

Не могу вспомнить ограничений на длину цепочки.

Как вы себе представляете приведение примера?

Сделайте отдельный проект, который демнострирует проблему, о которой вы пишете, но не делает ничего больше. Скопируйте в комментарии к этому тикету каждый файл (грамматики, газетиры, словари, конфиг). Добавьте входной файл, на котором будет видна проблема. Файл должен быть достаточным для демонстрации проблемы, но не более того.

victorbocharov avatar Apr 18 '22 11:04 victorbocharov

А что значит количество фактов в рамках одного предложения?

KotIva avatar Apr 18 '22 14:04 KotIva

Вначале парсер делит текст на предложения. Факты выделяются только внутри одного предложения. Если на одно предложение сгенерируется MaxFactsCountPerSentence фактов, то он остановит разбор этого предложения и не сгенерирует на него больше никаких фактов.

victorbocharov avatar Apr 18 '22 19:04 victorbocharov

А как изменить этот параметр?

KotIva avatar Apr 19 '22 07:04 KotIva

В config.proto поставьте MaxFactsCountPerSentence=нужное значение

victorbocharov avatar Apr 20 '22 19:04 victorbocharov