ECDICT-ultimate icon indicating copy to clipboard operation
ECDICT-ultimate copied to clipboard

收录了错误的单词

Open redstoneleo opened this issue 7 years ago • 13 comments

没有senario这个单词 https://en.oxforddictionaries.com/search?filter=dictionary&query=senario https://cn.bing.com/dict/search?q=senario&go=搜索&qs=ds&form=Z9LH5 但是查到的结果却显示

1senario2``2\r\n[网络] 会议 \r\n

这种错误单词混进来很影响词典质量啊,希望去掉

另外,“[网络]”这种标识文档说是“机器翻译”出来的,这种标识会让人误以为改词是“网络”相关专业术语,所以建议把标识改成“机翻”

redstoneleo avatar Jun 15 '18 05:06 redstoneleo

这个词是出现过的,应该是个笔误,而且还出现过很多,我再搜索语料库时把这个词列进来了,找不到解释就google翻译。

skywind3000 avatar Jun 15 '18 09:06 skywind3000

不过我只用过一段时间的 google 翻译不确定词,后面就没用了,所以这些词应该不多。具体还有哪些,已经不可靠,但是主流词频数据库里的词,各大词典的词头索引部分的词,后来释义又经过我多次校对覆盖,应该没这些问题。

skywind3000 avatar Jun 15 '18 09:06 skywind3000

“网络”改成“机翻”,大哥不考虑吗?

redstoneleo avatar Jun 15 '18 09:06 redstoneleo

因为网络还有很多是真的来自网络的,不是机翻的。已经混起来了。

skywind3000 avatar Jun 15 '18 11:06 skywind3000

比如你查:right of abode 后面的网络释义部分是来自必应的 [网络] 释义

skywind3000 avatar Jun 15 '18 11:06 skywind3000

以fenced这个词为例,本词典的结果如下

'1fenced2``2\r\n3[fenst]2``2\r\n围墙 \r\n2``4原型: fenced 是 fence 的过去式和过去分词2\r\n2``4(25443/34703)\r\n'

质量不行。 我对比过几个主流的在线词典的释义质量和用户体验,最终发现金山词霸的比较好(百度翻译的释义也来自金山词霸)。 http://www.iciba.com/fenced 大哥有做金山词霸的本地词库打算吗?

我以为本词库是必应词典的本地词库,但是查了下差别很大,质量上还是比不上在线词典 https://cn.bing.com/dict/search?q=fenced&qs=n&form=Z9LH5&sp=-1&pq=fenced&sc=7-6&sk=&cvid=D5EF13FD909D4D788F359A916593CF96

redstoneleo avatar Jun 15 '18 14:06 redstoneleo

我擦,你尽找些过去式过去分词的来搜索,你搜它的原型嘛,fence 看看全不全。

历史原因,有一部分过去分词或者过去式释义不够好,仅仅一部分。你可以搜索 lemma.en.txt 数据库,把所有 lemma 的衍生词提取出来,并且判断他们不是另一个 lemma,然后用金山词霸释义覆盖之,可以解决你的需求,到时候也发一份更新给我,谢谢。

skywind3000 avatar Jun 15 '18 15:06 skywind3000

操作的时候可以转成 sqlite 数据库,方便修订和更新,发布了再转回 csv

skywind3000 avatar Jun 15 '18 15:06 skywind3000

或者你发现某个单词其实是另外一个单词的衍生词时(exchange字段),直接显示该原型词汇,就和必应干的一样,然后下面加一行(fenced 是 fence 的过去式和过去分词)

skywind3000 avatar Jun 15 '18 15:06 skywind3000

我做这个词典前后几年,也对比了很多,金山词霸一些词比必应好,但是必应再一些生僻词以及词组方面的释义强过金山词霸很多,你对比下:right of abode 的释义就知道了。

skywind3000 avatar Jun 15 '18 15:06 skywind3000

你发现某个单词其实是另外一个单词的衍生词时(exchange字段),直接显示该原型词汇

我以前想过这种做法,但问题是有些动词的过去分词作为形容词用,这时候如果转回动词原型就会丢掉形容词的词义,所以作罢。

关于自己做字典这个事情,我对此完全属于外行,要做也是很久以后的事情了,目前只是在利用大哥你的词典打算做个类似于金山词霸这种软件而已,偶尔发现有些词的释义质量一般~

redstoneleo avatar Jun 16 '18 04:06 redstoneleo

是不是考虑一下把那种仅有[网络]一行释义的单词去掉啊。这种条目如果是单词很多都是bing里出来的typo。

gitterliu avatar Jul 30 '18 02:07 gitterliu

@gitterliu 确实,如你所说的情况还是比较普遍的

redstoneleo avatar Jul 30 '18 06:07 redstoneleo