tomita-parser icon indicating copy to clipboard operation
tomita-parser copied to clipboard

Терминал Word выбирает цифры

Open pilezkiy opened this issue 7 years ago • 2 comments

Терминал Word вопреки документации выбирает цепочки цифр. https://tech.yandex.ru/tomita/doc/dg/concept/terminals-list-docpage/

Строка "ОГРН 111111111111 ИНН 2222222222222 Алтайский край Панкрушихинский район". Пишу правило для выборки региона: RegionW -> 'область' | 'край' | 'республика' | 'округ'; RegionSokr -> 'обл.' | 'кр.' | 'респ.' | 'окр.' | 'обл' | 'кр' | 'респ' | 'окр'; RegionDesc -> RegionW | RegionSokr; Region -> (Word) Word RegionDesc; Region -> RegionDesc (Word) Word;

В итоге выбирается строка "2222222222222 АЛТАЙСКИЙ КРАЙ".

pilezkiy avatar Nov 26 '17 04:11 pilezkiy

Странно, у меня выдает край Панкрушихинский район

denis-ivanov avatar Dec 15 '17 07:12 denis-ivanov

У меня срабатывает на простом примере. Правило: S -> Word interp (SomeWord.Word);

Факт: message SomeWord: NFactType.TFact { optional string Word = 1; }

На строку: "111.111" Возвращает SomeWord.Word: "111.111"

Вывод tree.txt: coverage: 1, weight: 0.43333333 S -> {Word%TERM}[*111.111] :: 0.66666666 {Word%TERM} -> Word[*111.111] :: 0.66666666 Word -> 111.111 :: 1

stan-yu avatar Dec 16 '19 11:12 stan-yu