python-glr-parser
python-glr-parser copied to clipboard
Как обрабатывать ошибку tokenizer stopped at pos ?
Возникает ошибка tokenizer stopped at pos 3462 of %r in "%s" at "%s"
Как я понял, она возникает, если python-glr-parser не понимает какое-то слово в грамматике, однако трэйсбэк неинформативен, сложно по позиции понять какое именно слово вызывает ошибку.
Пытался пропускать ошибку (в файле scanner.py закомментировать экспешн и далее pass), это приводит к пропуску проблемного слова. Временно решает проблему, но не ясно какие именно слова и почему вызвали ошибку, сколько слов упущено и т.п. Хотелось бы неизвестные слова либо добавлять в словарь, либо, что проще, обрабатывать regexp. Та же проблема со многими матерными словами и их формами.