ECDICT
ECDICT copied to clipboard
论坛的进度好像比这个新,求更新一下数据库
太大了,放不上来了,400MB的 sqlite,csv有 200MB
能传一份到网盘吗 我要转成其它格式的
你要转换成什么格式啊?
sqlite的,想优化下结构还有索引方便做各种查询
我把最新的.csv打了个三十兆的包,正在上传github,太慢了。现在的sqlite表结构有哪些问题啊?
没问题 主要是我想搞个按星级,标签,还有形态的索引
上传完了,你可以更新了。
搜索 my 发现三个词条,这种应该分开吧?
数据库里都是unique的,怎么会有三个?分别在哪几行呢?哪个csv?1.0.15还是14?
我刚才在两个csv里都搜了下正则,"^my," 只有一个
@skywind3000 应该是v14, 三个分别是my/my-/My. 三个
再就是 看起来 好宽啊 词条/发音/释义之间
是的,my-是一个前缀,词根前缀,不是my,不能合并,再,手机上我自己使用“去音标版” 适合手机。
为啥 搜索 my 会出现这三个啊, 理论上应该只出现一个啊
这个应该是软件的原因 不是词典的原因
呃.... 不会吧
@skywind3000 strip keyword 这个选项, 作者的回复
有些词典会用 hunspell 把单词求了词根以后,比如把 apples 变成 apple 再查一遍,GoldenDict上也有相关选项,叫做 “构词法规则库” morphology
mdx 如果选了strip key 就会出现我截图的样子 goldendict 没试
不用strip
goldendict 不会出现这种 mdict 会 我不知道了...
goldendict 又不会去strip
@s97712 如果只是自己用筛选的话,我做过一个更方便的 Excel 表格: http://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=20322
最新版 stardict.py 中 SqlLite, MySQL 表结构增加了一个字段,sw(strip word),这是参考mdx的索引做的字段,可以将用户输入的“longtime” 匹配成 "longtime", "long time", "long-time" 几个词。
csv格式不变,所以如有db文件需要重新从csv导出一遍,不过数据太大,现在导这个csv已经需要python64位版本了,导完后可以继续用python 32位直接操作db文件。