exhentai-manga-manager icon indicating copy to clipboard operation
exhentai-manga-manager copied to clipboard

一些问题和建议

Open Sandiagal opened this issue 1 year ago • 3 comments

你做得好啊,又多一个管理本地本子库的软件。简单测试下来发现一些数据匹配的问题,在此进行反馈。

从sqlit导入元数据

元数据导入方面发现了一个惊喜的创新,即使用了EX整体元数据库备份(api_dump.sqlite)。但是实际使用时,数据匹配还存在改进空间。比如识别汉化组、设置语种优先级等。

能查到数据,但是匹配错误

本地存的文件名。我特意删除了部分字符

[08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) [M-No-Tmashi×萌谷漢化組]

查到的数据

gid title title_jpn
1015702 (C91) [08BASE (Tohyama eight)] Graf kouhou shashin satsueikai (Kantai Collection -KanColle-) (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-)
1015727 (C91) [08BASE (Tohyama eight)] Graf Kouhou Shashin Satsueikai (Kantai Collection -KanColle-) (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-)
1016513 (C91) [08BASE (Tohyama eight)] Graf Kouhou Shashin Satsueikai (Kantai Collection -KanColle-) [Chinese] [齊柏林大腿PRPR個人漢化] (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) [中国翻訳]
1020116 (C91) [08BASE (Tohyama eight)] Graf kouhou shashin satsueikai (Kantai Collection -KanColle-) [Chinese] [齊柏林大腿PRPR個人漢化] (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) [中国翻訳]
1021305 (C91) [08BASE (Tohyama eight)] Graf Kouhou Shashin Satsueikai 伯爵廣告照片攝影會 (Kantai Collection -KanColle-) [Chinese] [M-No-Tmashi×萌谷漢化組]

匹配结果是1015727,还跳过了作为过时版本的1015702,倒是不错。但是从汉化组名称讲,应该匹配1021305。

查不到数据

本地存的文件名

[08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-) [M-No-Tmashi×萌谷漢化組]

查到的数据

gid title title_jpn
1021238 (C90) [08BASE (Tohyama eight)] Yokosuka CabaClu Chinjufu (Kantai Collection -KanColle-) (C90) [08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-)
1024663 (C90) [08BASE (Tohyama eight)] Yokosuka CabaClu Chinjufu (Kantai Collection -KanColle-) [Chinese] [M-No-Tmashi×萌谷漢化組] (C90) [08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-) [中国翻訳]
1047459 (C90) [08BASE (Tohyama eight)] Yokosuka CabaClu Chinjufu (Kantai Collection -KanColle-) (C90) [08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-)

按照相同的逻辑,应该查到1021238或者1047459,结果没查到。

从ex获取元数据

很多家都做了相关的功能,但是不同开发面向的需求过于个性化,很难找到让我满意的软件。ex配置有防爬限制,1h内超过200请求会封ip。我还没用你的进行大量测试,不知道有没有相关优化。你的软件安装在os本地,方便换代理,倒是一大亮点了。

匹配效果都是老生常谈的问题了。LANraragi有不少自定义选项。可以先图片搜索,找不到再文本搜索。还能限定语种。不知道你的算法如何,可能还需要改进。

问题现象

看接口调用,应该是用的图片搜索

本地存的文件名

[BETEMIUS (バシウス)] 不幸なのです (艦隊これくしょん -艦これ-) [CE家族社]

我用封面在网站上进行相似性搜索,存在有效结果

https://e-hentai.org/?f_shash=2e334cae7f30ea91f71c0b693dab42b5f6f89994;a14eef4fad263df77b3156e73135ca19ce11768c;900dd47116c8e3411305ad9033a2d41b87e20a25;2bc5085ea708bcb958c84f074316e590a157518d;970bf5993326626d028f876f47cc78a29aaa7036;a60062ecd4f3e6de4d1e30e30c8b0f710c7f6c99;49fab16aedbaa0d49366416b757a4957fd971d1a&fs_from=01.jpg&fs_similar=on

只搜索封面,没有结果

https://e-hentai.org/?f_shash=2e334cae7f30ea91f71c0b693dab42b5f6f89994&fs_from=01.jpg&fs_covers=on

你的接口,没有结果。hash也不一样,用的是哪个图片啊?fs_exp参数是啥意思?

https://e-hentai.org/?f_shash=B3439E44FEE5FC6FE2B61EA6BF7148DB781B0A64&fs_similar=1&fs_exp=on

如果选择从ex获取,只会报错。没有日志,我也看不出哪的问题

get tag failed

根据规则重命名和移动漫画文件

看你有这个todo。正好我做过一些微小的工作。虽然架构不一样,但核心算法就是正则匹配那一套,如果能帮上忙就好了。

https://github.com/Sandiagal/DoujinFix

小结

由于自研了文件名修改的工具,本地存的文件名和ex库中的都不一样,所以对匹配算法有较高的需求。你的软件在本地sqlite和网络配置上比LANraragi更好用,但仍然存在匹配效果不好的问题。其余配套的不足就不提了,都是小问题。所以我还会继续关注更新消息,期待相关的优化效果。

Sandiagal avatar Sep 18 '22 04:09 Sandiagal

@Sandiagal 多谢建议 基本上比对都是用的图片的hash,只在详情页做了文件名匹配元数据这个功能,我觉得文件名这种很容易被更改的属性不适合用来做匹配功能 api_dump的匹配用的是漫画封面的sha1和thumb的url的hash部分比对。 从ex获取元数据是用主进程获取的网页,在devtool是没有记录的,log在数据文件夹下的log.txt,多次查询导致IP被ban的情况是有的,而且我也没什么好办法,目前只提供了一个请求时间间隔的设置,如果要快,只能勤换IP。除了api_dump的匹配,其他情况用的是正文部分的图片的hash,准确的说是第8张,这点主要是考虑到多语种的漫画封面的重合度较高而进行的优化。fs_exp参数是搜索被删除的图库。 这条Todo放置挺久了,不过主要是我还没想清楚做出来的具体用途是什么,等我想起来了再说了

SchneeHertz avatar Sep 18 '22 14:09 SchneeHertz

那sqlit的匹配方式呢?我想处理下数据,把对应关系放进去。再导入就方便多了。

Sandiagal avatar Sep 19 '22 10:09 Sandiagal

@Sandiagal 用封面的sha1和thumb的url的hash部分比对

SchneeHertz avatar Sep 19 '22 12:09 SchneeHertz