ECDICT 论坛的进度好像比这个新，求更新一下数据库

Apr 20 '17 10:04 s97712

太大了，放不上来了，400MB的 sqlite，csv有 200MB

Apr 20 '17 11:04 skywind3000

能传一份到网盘吗我要转成其它格式的

Apr 20 '17 12:04 s97712

你要转换成什么格式啊？

Apr 20 '17 12:04 skywind3000

sqlite的，想优化下结构还有索引方便做各种查询

Apr 20 '17 13:04 s97712

我把最新的.csv打了个三十兆的包，正在上传github，太慢了。现在的sqlite表结构有哪些问题啊？

Apr 20 '17 13:04 skywind3000

没问题主要是我想搞个按星级，标签，还有形态的索引

Apr 20 '17 14:04 s97712

上传完了，你可以更新了。

Apr 20 '17 14:04 skywind3000

搜索 my 发现三个词条，这种应该分开吧？

Apr 21 '17 23:04 WanderMax

数据库里都是unique的，怎么会有三个？分别在哪几行呢？哪个csv？1.0.15还是14？

Apr 21 '17 23:04 skywind3000

我刚才在两个csv里都搜了下正则，"^my," 只有一个

Apr 22 '17 00:04 skywind3000

screenshot_2017-04-22-07-34-21 @skywind3000 应该是v14, 三个分别是my/my-/My. 三个

再就是看起来好宽啊词条/发音/释义之间

Apr 22 '17 01:04 WanderMax

是的，my-是一个前缀，词根前缀，不是my，不能合并，再，手机上我自己使用“去音标版” 适合手机。

Apr 22 '17 06:04 skywind3000

为啥搜索 my 会出现这三个啊, 理论上应该只出现一个啊

Apr 22 '17 06:04 WanderMax

这个应该是软件的原因不是词典的原因

Apr 22 '17 07:04 s97712

呃.... 不会吧

Apr 22 '17 07:04 WanderMax

@skywind3000 strip keyword 这个选项, 作者的回复

Apr 22 '17 07:04 WanderMax

有些词典会用 hunspell 把单词求了词根以后，比如把 apples 变成 apple 再查一遍，GoldenDict上也有相关选项，叫做 “构词法规则库” morphology

Apr 22 '17 07:04 skywind3000

mdx 如果选了strip key 就会出现我截图的样子 goldendict 没试

Apr 22 '17 07:04 WanderMax

不用strip

Apr 22 '17 07:04 skywind3000

goldendict 不会出现这种 mdict 会我不知道了...

Apr 22 '17 07:04 WanderMax

goldendict 又不会去strip

Apr 22 '17 07:04 skywind3000

@s97712 如果只是自己用筛选的话，我做过一个更方便的 Excel 表格： http://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=20322

Apr 22 '17 08:04 skywind3000

最新版 stardict.py 中 SqlLite, MySQL 表结构增加了一个字段，sw（strip word），这是参考mdx的索引做的字段，可以将用户输入的“longtime” 匹配成 "longtime", "long time", "long-time" 几个词。

csv格式不变，所以如有db文件需要重新从csv导出一遍，不过数据太大，现在导这个csv已经需要python64位版本了，导完后可以继续用python 32位直接操作db文件。

Apr 26 '17 04:04 skywind3000

ECDICT ECDICT copied to clipboard

论坛的进度好像比这个新，求更新一下数据库

ECDICT
ECDICT copied to clipboard