exhentai-manga-manager
exhentai-manga-manager copied to clipboard
一些问题和建议
你做得好啊,又多一个管理本地本子库的软件。简单测试下来发现一些数据匹配的问题,在此进行反馈。
从sqlit导入元数据
元数据导入方面发现了一个惊喜的创新,即使用了EX整体元数据库备份(api_dump.sqlite)。但是实际使用时,数据匹配还存在改进空间。比如识别汉化组、设置语种优先级等。
能查到数据,但是匹配错误
本地存的文件名。我特意删除了部分字符
[08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) [M-No-Tmashi×萌谷漢化組]
查到的数据
gid | title | title_jpn |
---|---|---|
1015702 | (C91) [08BASE (Tohyama eight)] Graf kouhou shashin satsueikai (Kantai Collection -KanColle-) | (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) |
1015727 | (C91) [08BASE (Tohyama eight)] Graf Kouhou Shashin Satsueikai (Kantai Collection -KanColle-) | (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) |
1016513 | (C91) [08BASE (Tohyama eight)] Graf Kouhou Shashin Satsueikai (Kantai Collection -KanColle-) [Chinese] [齊柏林大腿PRPR個人漢化] | (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) [中国翻訳] |
1020116 | (C91) [08BASE (Tohyama eight)] Graf kouhou shashin satsueikai (Kantai Collection -KanColle-) [Chinese] [齊柏林大腿PRPR個人漢化] | (C91) [08BASE (東山エイト)] グラーフ広報写真撮影会 (艦隊これくしょん -艦これ-) [中国翻訳] |
1021305 | (C91) [08BASE (Tohyama eight)] Graf Kouhou Shashin Satsueikai | 伯爵廣告照片攝影會 (Kantai Collection -KanColle-) [Chinese] [M-No-Tmashi×萌谷漢化組] |
匹配结果是1015727,还跳过了作为过时版本的1015702,倒是不错。但是从汉化组名称讲,应该匹配1021305。
查不到数据
本地存的文件名
[08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-) [M-No-Tmashi×萌谷漢化組]
查到的数据
gid | title | title_jpn |
---|---|---|
1021238 | (C90) [08BASE (Tohyama eight)] Yokosuka CabaClu Chinjufu (Kantai Collection -KanColle-) | (C90) [08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-) |
1024663 | (C90) [08BASE (Tohyama eight)] Yokosuka CabaClu Chinjufu (Kantai Collection -KanColle-) [Chinese] [M-No-Tmashi×萌谷漢化組] | (C90) [08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-) [中国翻訳] |
1047459 | (C90) [08BASE (Tohyama eight)] Yokosuka CabaClu Chinjufu (Kantai Collection -KanColle-) | (C90) [08BASE (東山エイト)] 横須賀キャバクラ鎮守府 (艦隊これくしょん -艦これ-) |
按照相同的逻辑,应该查到1021238或者1047459,结果没查到。
从ex获取元数据
很多家都做了相关的功能,但是不同开发面向的需求过于个性化,很难找到让我满意的软件。ex配置有防爬限制,1h内超过200请求会封ip。我还没用你的进行大量测试,不知道有没有相关优化。你的软件安装在os本地,方便换代理,倒是一大亮点了。
匹配效果都是老生常谈的问题了。LANraragi有不少自定义选项。可以先图片搜索,找不到再文本搜索。还能限定语种。不知道你的算法如何,可能还需要改进。
问题现象
看接口调用,应该是用的图片搜索
本地存的文件名
[BETEMIUS (バシウス)] 不幸なのです (艦隊これくしょん -艦これ-) [CE家族社]
我用封面在网站上进行相似性搜索,存在有效结果
https://e-hentai.org/?f_shash=2e334cae7f30ea91f71c0b693dab42b5f6f89994;a14eef4fad263df77b3156e73135ca19ce11768c;900dd47116c8e3411305ad9033a2d41b87e20a25;2bc5085ea708bcb958c84f074316e590a157518d;970bf5993326626d028f876f47cc78a29aaa7036;a60062ecd4f3e6de4d1e30e30c8b0f710c7f6c99;49fab16aedbaa0d49366416b757a4957fd971d1a&fs_from=01.jpg&fs_similar=on
只搜索封面,没有结果
https://e-hentai.org/?f_shash=2e334cae7f30ea91f71c0b693dab42b5f6f89994&fs_from=01.jpg&fs_covers=on
你的接口,没有结果。hash也不一样,用的是哪个图片啊?fs_exp参数是啥意思?
https://e-hentai.org/?f_shash=B3439E44FEE5FC6FE2B61EA6BF7148DB781B0A64&fs_similar=1&fs_exp=on
如果选择从ex获取,只会报错。没有日志,我也看不出哪的问题
get tag failed
根据规则重命名和移动漫画文件
看你有这个todo。正好我做过一些微小的工作。虽然架构不一样,但核心算法就是正则匹配那一套,如果能帮上忙就好了。
https://github.com/Sandiagal/DoujinFix
小结
由于自研了文件名修改的工具,本地存的文件名和ex库中的都不一样,所以对匹配算法有较高的需求。你的软件在本地sqlite和网络配置上比LANraragi更好用,但仍然存在匹配效果不好的问题。其余配套的不足就不提了,都是小问题。所以我还会继续关注更新消息,期待相关的优化效果。
@Sandiagal 多谢建议 基本上比对都是用的图片的hash,只在详情页做了文件名匹配元数据这个功能,我觉得文件名这种很容易被更改的属性不适合用来做匹配功能 api_dump的匹配用的是漫画封面的sha1和thumb的url的hash部分比对。 从ex获取元数据是用主进程获取的网页,在devtool是没有记录的,log在数据文件夹下的log.txt,多次查询导致IP被ban的情况是有的,而且我也没什么好办法,目前只提供了一个请求时间间隔的设置,如果要快,只能勤换IP。除了api_dump的匹配,其他情况用的是正文部分的图片的hash,准确的说是第8张,这点主要是考虑到多语种的漫画封面的重合度较高而进行的优化。fs_exp参数是搜索被删除的图库。 这条Todo放置挺久了,不过主要是我还没想清楚做出来的具体用途是什么,等我想起来了再说了
那sqlit的匹配方式呢?我想处理下数据,把对应关系放进去。再导入就方便多了。
@Sandiagal 用封面的sha1和thumb的url的hash部分比对