Mahou icon indicating copy to clipboard operation
Mahou copied to clipboard

Словарь Автозамены: Изменения для большого en-rus словаря (v.0004)

Open Makishima opened this issue 4 years ago • 16 comments

BladeMight: Обновляемый словарь(3) AS_dict.zip огромный русский + большой английский: => AS_Dict_v.0004.zip

Старые версии AS_Dict_v.0003.zip AS_Dict.zip <= v.0002


->but
====>иге<====

есть на строках ~2954929 и ~13166

Makishima avatar Feb 02 '21 19:02 Makishima

Это не ко мне, AS_Dict_Superbig_ru+big_en.zip словарь(0) создан из Dictionaries-Origin и danakt/russian-words, тем кому надо сами редактируют. Я не ответственен за такие "дубликаты".

Кстати вот словарь(1) без некоторых "реальных" дубликатов: AS_Dict(super-big-ru+big-en).zip

Список всех дубликатов в словаре(1): AS_Dict-duplicates.zip

Как и чем создавался словарь(0/1): muxdict.zip (тут нет файлов словарей, только скрипты)

BladeMight avatar Feb 02 '21 21:02 BladeMight

Завел этот баг, потому что на мой взгляд, хоть Mahou использует внешний источник в качестве словаря, но в своей поставке должен адаптировать его для конечного пользователя, чтобы его можно было удобно/без проблем использовать.

На ум приходит сравнение с Ububntu, которая берет кодовую базу Debian, и допиливает ее, чтобы конечным пользователем было приятнее пользоваться системой.

Makishima avatar Feb 03 '21 06:02 Makishima

должен адаптировать его для конечного пользователя

Конечный пользователь сам должен адаптировать под себя. Т.к. разности и нужды(слова/языки) у всех разные.

BladeMight avatar Feb 03 '21 19:02 BladeMight

Отчасти тут можно согласиться :) Моя аргументация в том, что в стандартной поставке можно править явные косяки словаря

  1. убирать дубли
  2. комментировать неправильные конвертации, которые не нужны большинству, например, когда is -> шы, but -> иге, it -> ше и т.д.
  3. что-то еще, что явно не нужно по умолчанию из большого словаря :)

А уже остальную адаптацию под себя пользователь может делать через сниппеты :)

Makishima avatar Feb 04 '21 06:02 Makishima

комментировать неправильные конвертации, которые не нужны большинству, например, когда is -> шы, but -> иге, it -> ше и т.д.

Словарь большой, а их же всё-таки надо найти... И это явно займёт не "пару минут".

BladeMight avatar Feb 04 '21 06:02 BladeMight

Предполагал, что это еще один шаг сборки или при сборке версии, или отдельная задача, который будет работать над словарем перед, не вручную конечно же :)

То есть по issue собираются отзывы по словарю и постепенно такая задача расширяется, чтобы привести его +- к удобному виду для конечного пользователя :)

Makishima avatar Feb 04 '21 07:02 Makishima

issue собираются отзывы по словарю

ОК, создаём словарь для этого issue... Который будет доступен только здесь.

не вручную конечно же

Если не вручную, то как определить "качество", и нужно будет писать скрипт для "обработки", тоже будет не "пару минут" при таком большом словаре... Возможно даже дольше чем вручную...

BladeMight avatar Feb 04 '21 07:02 BladeMight

ОК, создаём словарь для этого issue... Который будет доступен только здесь.

Не совсем понял твою мысль. Я имел в виду, что не в одном issue собирать, а из них. То есть, если пользователь нашел в словаре что-то, условно, ненужное, то он заводит issue и по его итогам уже или правится словарь, или нет.

Если не вручную, то как определить "качество", и нужно будет писать скрипт для "обработки", тоже будет не "пару минут" при таком большом словаре... Возможно даже дольше чем вручную...

Никто же не просит сделать здесь и сейчас :) Как автор программы вполне можешь и закрыть таск, если считаешь, что он не вписывается в концепцию программы

Makishima avatar Feb 04 '21 07:02 Makishima

Я имел в виду, что не в одном issue собирать, а из них. То есть, если пользователь нашел в словаре что-то, условно, ненужное, то он заводит issue и по его итогам уже или правится словарь, или нет.

Но я ведь даже не "держу" этот огромный словарь в репозиторие. Т.е. я он не является частью Mahou, обновление/редактирование "только пользователем"."I don't maintain superbig dictionary", он появился от просьбы пользователя, и редактируется далее пользователем/-лями которые его используют, не мной

Как автор программы вполне можешь и закрыть таск, если считаешь, что он не вписывается в концепцию программы

Нет, это не то. Словарь - словарь, Mahou - Mahou.

Не совсем понял твою мысль.

Любой может сюда писать:

что-то еще, что явно не нужно по умолчанию из большого словаря :)

Я уберу это, и залью в "шапку" issue, отредактированный словарь.

BladeMight avatar Feb 04 '21 07:02 BladeMight

Ок, большой словарь отдельно. Может тогда этот топик переименовать в что-то подходящее и закрепить его, чтобы все видели? Типа "Изменения для большого en-rus словарь"

По существу - первым шагом убрать все дубликаты :)

Makishima avatar Feb 04 '21 08:02 Makishima

@Makishima Я посмотрел на словарь, danakt/russian-words, оказывается в нём очень много лишнего, т.е. "не слова" например:

вли
агл
адъ
акте
акц
аме

и похожие, - некоторые из них как ты написал "дубликаты" в английском словаре словарь очень большой в ручную нереально дооолго... А чтобы понять какие из них слова, а какие нет - нужно реально вручную проверять...

upd: Таки вручную немного отредактировал(обновлено в шапке), измененеия:

Удалённые
2889278: abut
2893624: aby
2907600: ah
2884478: at
885934: be
885994: belt
886680: bob
809092: but
809308: buy
847562: by
860872: bye
2674860: cat
3080943: chaplain
328074: den
329242: die
243520: dr
256964: dye
256966: dyer
2831588: eg
2841014: eh
2875466: eire
2794780: elf
2859042: end
2861170: entity
2815026: erect
2826546: eve
2872024: ext
72558: fen
72846: fens
2229966: gel
2230394: gels
2234614: gen
2234924: gent
2411504: he
2416948: heck
2417492: hen
2417740: hens
2414130: her
2414306: herb
2415348: here
2417902: hex
2990204: id
2991100: ids
2984252: if
3011278: in
3014896: inert
2991450: it
3006244: ive
1627024: jab
1071522: keg
1071734: kegs
1069992: kelt
1070564: kept
1070870: kerb
1071194: key
1071502: keys
600498: let
545202: lye
2771282: neat
2766380: net
2771522: next
2772402: no
2772496: not
3017938: of
807342: pele
807250: pelt
791686: pub
1016072: re
1028362: reify
1017604: rep
1020690: rev
1021142: revs
614506: tab
613782: the
615022: to
451276: uke
1170730: verb
1175574: vex
2954764: we
1363478: yen
72559: аут
72847: ауты
243521: вк
256965: вну
256967: внук
328075: вут
329243: вшу
451277: глу
545203: дну
600499: дуе
613783: еру
614507: ефи
615023: ещ
791687: зги
807251: зуде
807343: зуду
809093: иге
809309: игн
847563: ин
860873: ину
885935: иу
885995: иуде
886681: ищи
1016073: ку
1017605: куз
1020691: кум
1021143: кумы
1028363: кушан
1069993: луде
1070565: лузе
1070871: луки
1071195: лун
1071503: луны
1071523: луп
1071735: лупы
1170731: муки
1175575: муч
1363479: нут
1627025: офи
2229967: пуд
2230395: пуды
2234615: пут
2234925: путе
2411505: ру
2414131: рук
2414307: руки
2415349: руку
2416949: русл
2417493: рут
2417741: руты
2417903: руч
3080942: срфздфшт
2674861: сфе
2766381: туе
2771283: туфе
2771523: туче
2772403: тщ
2772497: тще
2794781: уда
2815027: укусе
2826547: уму
2831589: уп
2841015: ур
2859043: утв
2861171: утешен
2872025: уче
2875467: ушку
2884479: фе
2889279: фиге
2893625: фин
2907601: фр
2954765: цу
2984253: ша
2990205: шв
2991101: швы
2991451: ше
3006245: шму
3011279: шт
3014897: штуке
3017939: ща

Плюс еще более 600 1-2 символьных которые ничего не значат. 3+ символьных очень много, я даже не стал начинать...

BladeMight avatar Feb 04 '21 13:02 BladeMight

Спасибо! :) Это уже хорошее начало. Трех-символьные можно будет удалять, когда они начнут встречаться, как тот же

->but
====>иге<====

Makishima avatar Feb 04 '21 13:02 Makishima

Словарь c убранным ; -> ж AS_Dict_v.0003.zip

#->;
#====>ж<====

Makishima avatar Feb 05 '21 09:02 Makishima

AS_Dict_v.0004.zip

#->,
#====>б<====

Makishima avatar Feb 07 '21 13:02 Makishima

На всякий случай вот список всех присутствующих 1,2,3 символьных в текущем v.0004: 1-символьные.txt 2-символьные.txt 3-символьные.txt

BladeMight avatar Feb 07 '21 14:02 BladeMight

Спасибо. Не стал сразу все подобные вхождения исключать - вдруг там действительно нужные кому-то есть :) Пока что убираю только то, с чем сталкиваюсь при не очень корректной конвертации en -> rus

Makishima avatar Feb 09 '21 06:02 Makishima