Dmitry Granovsky
Dmitry Granovsky
1) значит, его можно игнорировать 2-3) значит, связи нужно делать со всеми
Нет, дубликаты - это ненормально. А можно включить туда режим типа "dry run", в котором ничего реально с базой не происходит, а только пишется в stdout (или stderr), что должно...
Смержил в текущем виде в веточку и выкатил в тестинг. opencorpora.org:8080, база там продакшен
Да можно просто прибить гвоздями, что в этих случаях разбивать не надо. Le 24 oct. 2015 9:24 AM, "Victor Bocharov" [email protected] a écrit : > Чтобы не перезапускать обучение токенизатора...
Из них в корпусе есть: - брони - ванной - вихре - внучка - внучки - внучку - деревца - деревце - дружке - дружки - заводские - заводским -...
Comment [#1](https://code.google.com/p/opencorpora/issues/detail?id=393#c1) originally posted by OpenCorpora on 2013-04-16T15:20:12.000Z: Сама ненайденная словоформа идёт без отстутпа с начала строки. Затем идут строки из list-utf-8.txt, где содержалось это слово. Затем идут результаты Parse,...
Comment [#2](https://code.google.com/p/opencorpora/issues/detail?id=393#c2) originally posted by OpenCorpora on 2013-04-16T15:26:18.000Z: Оу, много :)
Comment [#3](https://code.google.com/p/opencorpora/issues/detail?id=393#c3) originally posted by OpenCorpora on 2013-04-17T01:48:07.000Z: Погорячились насчёт двух дней? :)
Comment [#4](https://code.google.com/p/opencorpora/issues/detail?id=393#c4) originally posted by OpenCorpora on 2013-04-17T08:18:46.000Z: Да, потому что всё надо смотреть глазами и добавлять руками :)
Comment [#5](https://code.google.com/p/opencorpora/issues/detail?id=393#c5) originally posted by OpenCorpora on 2013-04-23T17:18:30.000Z: В общем, я добавляю понемногу. Если какие-то конкретные термины хочется добавить побыстрее, то давайте список. А то у нас же ещё есть...