ECDICT icon indicating copy to clipboard operation
ECDICT copied to clipboard

论坛的进度好像比这个新,求更新一下数据库

Open s97712 opened this issue 8 years ago • 23 comments

s97712 avatar Apr 20 '17 10:04 s97712

太大了,放不上来了,400MB的 sqlite,csv有 200MB

skywind3000 avatar Apr 20 '17 11:04 skywind3000

能传一份到网盘吗 我要转成其它格式的

s97712 avatar Apr 20 '17 12:04 s97712

你要转换成什么格式啊?

skywind3000 avatar Apr 20 '17 12:04 skywind3000

sqlite的,想优化下结构还有索引方便做各种查询

s97712 avatar Apr 20 '17 13:04 s97712

我把最新的.csv打了个三十兆的包,正在上传github,太慢了。现在的sqlite表结构有哪些问题啊?

skywind3000 avatar Apr 20 '17 13:04 skywind3000

没问题 主要是我想搞个按星级,标签,还有形态的索引

s97712 avatar Apr 20 '17 14:04 s97712

上传完了,你可以更新了。

skywind3000 avatar Apr 20 '17 14:04 skywind3000

搜索 my 发现三个词条,这种应该分开吧?

WanderMax avatar Apr 21 '17 23:04 WanderMax

数据库里都是unique的,怎么会有三个?分别在哪几行呢?哪个csv?1.0.15还是14?

skywind3000 avatar Apr 21 '17 23:04 skywind3000

我刚才在两个csv里都搜了下正则,"^my," 只有一个

skywind3000 avatar Apr 22 '17 00:04 skywind3000

screenshot_2017-04-22-07-34-21 @skywind3000 应该是v14, 三个分别是my/my-/My. 三个

再就是 看起来 好宽啊 词条/发音/释义之间

WanderMax avatar Apr 22 '17 01:04 WanderMax

是的,my-是一个前缀,词根前缀,不是my,不能合并,再,手机上我自己使用“去音标版” 适合手机。

skywind3000 avatar Apr 22 '17 06:04 skywind3000

为啥 搜索 my 会出现这三个啊, 理论上应该只出现一个啊

WanderMax avatar Apr 22 '17 06:04 WanderMax

这个应该是软件的原因 不是词典的原因

s97712 avatar Apr 22 '17 07:04 s97712

呃.... 不会吧

WanderMax avatar Apr 22 '17 07:04 WanderMax

@skywind3000 strip keyword 这个选项, 作者的回复

WanderMax avatar Apr 22 '17 07:04 WanderMax

有些词典会用 hunspell 把单词求了词根以后,比如把 apples 变成 apple 再查一遍,GoldenDict上也有相关选项,叫做 “构词法规则库” morphology

skywind3000 avatar Apr 22 '17 07:04 skywind3000

mdx 如果选了strip key 就会出现我截图的样子 goldendict 没试

WanderMax avatar Apr 22 '17 07:04 WanderMax

不用strip

skywind3000 avatar Apr 22 '17 07:04 skywind3000

goldendict 不会出现这种 mdict 会 我不知道了...

WanderMax avatar Apr 22 '17 07:04 WanderMax

goldendict 又不会去strip

skywind3000 avatar Apr 22 '17 07:04 skywind3000

@s97712 如果只是自己用筛选的话,我做过一个更方便的 Excel 表格: http://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=20322

skywind3000 avatar Apr 22 '17 08:04 skywind3000

最新版 stardict.py 中 SqlLite, MySQL 表结构增加了一个字段,sw(strip word),这是参考mdx的索引做的字段,可以将用户输入的“longtime” 匹配成 "longtime", "long time", "long-time" 几个词。

csv格式不变,所以如有db文件需要重新从csv导出一遍,不过数据太大,现在导这个csv已经需要python64位版本了,导完后可以继续用python 32位直接操作db文件。

skywind3000 avatar Apr 26 '17 04:04 skywind3000