Mahou
Mahou copied to clipboard
Словарь Автозамены: Изменения для большого en-rus словаря (v.0004)
BladeMight: Обновляемый словарь(3) AS_dict.zip огромный русский + большой английский: => AS_Dict_v.0004.zip
Старые версии AS_Dict_v.0003.zip AS_Dict.zip <= v.0002
->but
====>иге<====
есть на строках ~2954929 и ~13166
Это не ко мне, AS_Dict_Superbig_ru+big_en.zip словарь(0) создан из Dictionaries-Origin и danakt/russian-words, тем кому надо сами редактируют. Я не ответственен за такие "дубликаты".
Кстати вот словарь(1) без некоторых "реальных" дубликатов:
AS_Dict(super-big-ru+big-en).zip
Список всех дубликатов в словаре(1): AS_Dict-duplicates.zip
Как и чем создавался словарь(0/1): muxdict.zip (тут нет файлов словарей, только скрипты)
Завел этот баг, потому что на мой взгляд, хоть Mahou использует внешний источник в качестве словаря, но в своей поставке должен адаптировать его для конечного пользователя, чтобы его можно было удобно/без проблем использовать.
На ум приходит сравнение с Ububntu, которая берет кодовую базу Debian, и допиливает ее, чтобы конечным пользователем было приятнее пользоваться системой.
должен адаптировать его для конечного пользователя
Конечный пользователь сам должен адаптировать под себя. Т.к. разности и нужды(слова/языки) у всех разные.
Отчасти тут можно согласиться :) Моя аргументация в том, что в стандартной поставке можно править явные косяки словаря
- убирать дубли
- комментировать неправильные конвертации, которые не нужны большинству, например, когда is -> шы, but -> иге, it -> ше и т.д.
- что-то еще, что явно не нужно по умолчанию из большого словаря :)
А уже остальную адаптацию под себя пользователь может делать через сниппеты :)
комментировать неправильные конвертации, которые не нужны большинству, например, когда is -> шы, but -> иге, it -> ше и т.д.
Словарь большой, а их же всё-таки надо найти... И это явно займёт не "пару минут".
Предполагал, что это еще один шаг сборки или при сборке версии, или отдельная задача, который будет работать над словарем перед, не вручную конечно же :)
То есть по issue собираются отзывы по словарю и постепенно такая задача расширяется, чтобы привести его +- к удобному виду для конечного пользователя :)
issue собираются отзывы по словарю
ОК, создаём словарь для этого issue... Который будет доступен только здесь.
не вручную конечно же
Если не вручную, то как определить "качество", и нужно будет писать скрипт для "обработки", тоже будет не "пару минут" при таком большом словаре... Возможно даже дольше чем вручную...
ОК, создаём словарь для этого issue... Который будет доступен только здесь.
Не совсем понял твою мысль. Я имел в виду, что не в одном issue собирать, а из них. То есть, если пользователь нашел в словаре что-то, условно, ненужное, то он заводит issue и по его итогам уже или правится словарь, или нет.
Если не вручную, то как определить "качество", и нужно будет писать скрипт для "обработки", тоже будет не "пару минут" при таком большом словаре... Возможно даже дольше чем вручную...
Никто же не просит сделать здесь и сейчас :) Как автор программы вполне можешь и закрыть таск, если считаешь, что он не вписывается в концепцию программы
Я имел в виду, что не в одном issue собирать, а из них. То есть, если пользователь нашел в словаре что-то, условно, ненужное, то он заводит issue и по его итогам уже или правится словарь, или нет.
Но я ведь даже не "держу" этот огромный словарь в репозиторие. Т.е. я он не является частью Mahou, обновление/редактирование "только пользователем"."I don't maintain superbig dictionary", он появился от просьбы пользователя, и редактируется далее пользователем/-лями которые его используют, не мной
Как автор программы вполне можешь и закрыть таск, если считаешь, что он не вписывается в концепцию программы
Нет, это не то. Словарь - словарь, Mahou - Mahou.
Не совсем понял твою мысль.
Любой может сюда писать:
что-то еще, что явно не нужно по умолчанию из большого словаря :)
Я уберу это, и залью в "шапку" issue, отредактированный словарь.
Ок, большой словарь отдельно. Может тогда этот топик переименовать в что-то подходящее и закрепить его, чтобы все видели? Типа "Изменения для большого en-rus словарь"
По существу - первым шагом убрать все дубликаты :)
@Makishima Я посмотрел на словарь, danakt/russian-words, оказывается в нём очень много лишнего, т.е. "не слова" например:
вли
агл
адъ
акте
акц
аме
и похожие, - некоторые из них как ты написал "дубликаты" в английском словаре словарь очень большой в ручную нереально дооолго... А чтобы понять какие из них слова, а какие нет - нужно реально вручную проверять...
upd: Таки вручную немного отредактировал(обновлено в шапке), измененеия:
Удалённые
2889278: abut
2893624: aby
2907600: ah
2884478: at
885934: be
885994: belt
886680: bob
809092: but
809308: buy
847562: by
860872: bye
2674860: cat
3080943: chaplain
328074: den
329242: die
243520: dr
256964: dye
256966: dyer
2831588: eg
2841014: eh
2875466: eire
2794780: elf
2859042: end
2861170: entity
2815026: erect
2826546: eve
2872024: ext
72558: fen
72846: fens
2229966: gel
2230394: gels
2234614: gen
2234924: gent
2411504: he
2416948: heck
2417492: hen
2417740: hens
2414130: her
2414306: herb
2415348: here
2417902: hex
2990204: id
2991100: ids
2984252: if
3011278: in
3014896: inert
2991450: it
3006244: ive
1627024: jab
1071522: keg
1071734: kegs
1069992: kelt
1070564: kept
1070870: kerb
1071194: key
1071502: keys
600498: let
545202: lye
2771282: neat
2766380: net
2771522: next
2772402: no
2772496: not
3017938: of
807342: pele
807250: pelt
791686: pub
1016072: re
1028362: reify
1017604: rep
1020690: rev
1021142: revs
614506: tab
613782: the
615022: to
451276: uke
1170730: verb
1175574: vex
2954764: we
1363478: yen
72559: аут
72847: ауты
243521: вк
256965: вну
256967: внук
328075: вут
329243: вшу
451277: глу
545203: дну
600499: дуе
613783: еру
614507: ефи
615023: ещ
791687: зги
807251: зуде
807343: зуду
809093: иге
809309: игн
847563: ин
860873: ину
885935: иу
885995: иуде
886681: ищи
1016073: ку
1017605: куз
1020691: кум
1021143: кумы
1028363: кушан
1069993: луде
1070565: лузе
1070871: луки
1071195: лун
1071503: луны
1071523: луп
1071735: лупы
1170731: муки
1175575: муч
1363479: нут
1627025: офи
2229967: пуд
2230395: пуды
2234615: пут
2234925: путе
2411505: ру
2414131: рук
2414307: руки
2415349: руку
2416949: русл
2417493: рут
2417741: руты
2417903: руч
3080942: срфздфшт
2674861: сфе
2766381: туе
2771283: туфе
2771523: туче
2772403: тщ
2772497: тще
2794781: уда
2815027: укусе
2826547: уму
2831589: уп
2841015: ур
2859043: утв
2861171: утешен
2872025: уче
2875467: ушку
2884479: фе
2889279: фиге
2893625: фин
2907601: фр
2954765: цу
2984253: ша
2990205: шв
2991101: швы
2991451: ше
3006245: шму
3011279: шт
3014897: штуке
3017939: ща
Плюс еще более 600 1-2 символьных которые ничего не значат. 3+ символьных очень много, я даже не стал начинать...
Спасибо! :) Это уже хорошее начало. Трех-символьные можно будет удалять, когда они начнут встречаться, как тот же
->but
====>иге<====
На всякий случай вот список всех присутствующих 1,2,3 символьных в текущем v.0004: 1-символьные.txt 2-символьные.txt 3-символьные.txt
Спасибо. Не стал сразу все подобные вхождения исключать - вдруг там действительно нужные кому-то есть :) Пока что убираю только то, с чем сталкиваюсь при не очень корректной конвертации en -> rus