opencorpora
opencorpora copied to clipboard
Добавить математические термины
Original issue 393 created by OpenCorpora on 2013-04-16T15:16:49.000Z:
В файле list-utf-8.txt содержится список матем. терминов. В missing_words.txt - те, которых не оказалось в pymorphy2. Собирались они с помощью скрипта 1.py.
{{{ бруна: 2181;Близнецы, Бруна теорема 2403;Бруна решето 2404;Бруна теорема о близнецах бруно Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,inan,neut sing,gent'), normal_form=u'\u0431\u0440\u0443\u043d\u043e', estimate бруно Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,inan,neut plur,nomn'), normal_form=u'\u0431\u0440\u0443\u043d\u043e', estimate бруно Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,inan,neut plur,accs'), normal_form=u'\u0431\u0440\u0443\u043d\u043e', estimate бруна Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form=u'\u0431\u0440\u0443\u043d\u0430', estimate бруна Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,anim,femn,Name sing,nomn'), normal_form=u'\u0431\u0440\u0443\u043d\u0430', est брун Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,anim,masc sing,gent'), normal_form=u'\u0431\u0440\u0443\u043d', estimate=0.2307 брун Parse(word=u'\u0431\u0440\u0443\u043d\u0430', tag=OpencorporaTag('NOUN,anim,masc sing,accs'), normal_form=u'\u0431\u0440\u0443\u043d', estimate=0.2307 }}}
Ненайденные слова желательно перепроверять, там есть опечатки. Всего там 2526 таких слов.
Comment #1 originally posted by OpenCorpora on 2013-04-16T15:20:12.000Z:
Сама ненайденная словоформа идёт без отстутпа с начала строки. Затем идут строки из list-utf-8.txt, где содержалось это слово. Затем идут результаты Parse, предсказанные pymorphy2.
Comment #3 originally posted by OpenCorpora on 2013-04-17T01:48:07.000Z:
Погорячились насчёт двух дней? :)
Comment #4 originally posted by OpenCorpora on 2013-04-17T08:18:46.000Z:
Да, потому что всё надо смотреть глазами и добавлять руками :)
Comment #5 originally posted by OpenCorpora on 2013-04-23T17:18:30.000Z:
В общем, я добавляю понемногу. Если какие-то конкретные термины хочется добавить побыстрее, то давайте список. А то у нас же ещё есть очередь незнакомых слов в корпусе.
Comment #6 originally posted by OpenCorpora on 2013-04-24T01:05:11.000Z:
Это вообще задача не очень приоритетная. Так что и конкретные никакие пораньше не нужно. Но может я могу чем-нибудь помочь? Могу пробежаться, чтобы было меньше опечаток, ну или добавить в текстовый файл ссылки сразу на wiktionary? :)
А я тем временем вам размечаю по чуть-чуть :)
Comment #7 originally posted by OpenCorpora on 2013-04-24T06:37:22.000Z:
Помочь всегда можно :) Ну, например, можно пересечь этот список с корпусом (дамп, я думаю, вы в курсе, где брать), тогда получится список более приоритетных слов.