BILL Xu
BILL Xu
> update: > 刚刚似乎无法使用了,是不是网站又更新规则了? > **报错跟书籍无关,跟ip无关,网页可以浏览书籍。** > **已检查cookie,PHPSESSID没有更新。** > 提示以下信息: > > > 2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 > > 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 >...
统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源
> > 统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源 > > 你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。 嗯我发现问题了,这个好解决,稍等我做一个新的commit。目前主要问题主要是大家这个报错的问题我没法复现,我也有过重试次数过多退出的情况但是重启脚本还是可以下载。
> 我下载的图片一个才4、5kb,为啥这么小啊?看不清的 我现在也是,我先看看有没有什么紧急办法
原因是网站上获取到的图片有可能是png格式的图片。但是本工具在保存时仍然以jpg为扩展名。 commit 427e20c 已经解决,但是需要你重新下载,比较费时。推荐你使用批量png转jpg图片的工具把图片格式都转换好,保持原文件名不变,重新运行脚本,就可以完成pdf的制作。
发现问题,下册书阅读地址多一个`v=2`参数
> 果然是天坑…… 已经在搞了,然而我想弃了,这全要加一层循环
并不可以,相应的页码、目录也要重新获取。在获得`BookInfo`的过程中,目前的代码只可以获得第一本书的info,而在`"https://lib-nuanxin.wqxuetang.com/v1/book/initbook?bid={}"`中才可以同时获取到上下册的相应信息,而且代码中的`self.name`,`self.catatree`等全部要变为列表的形式,代码重构量有些大。 你可以试试看其他人的脚本可不可以下载上下册。可以分享给我们看一下