wqxuetang_downloader icon indicating copy to clipboard operation
wqxuetang_downloader copied to clipboard

文泉学堂报错说明

Open xmdt opened this issue 5 years ago • 57 comments

update: 下面的问题没有出现了,新的问题见3楼4楼回复。 —————————————————————— https://lib-nuanxin.wqxuetang.com/#/Book/3202557 获取最后一页的时候报错。 Traceback (most recent call last): File "main.py", line 66, in parseMultBid(books) File "main.py", line 25, in parseMultBid book.start([]); File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 165, in start downloadPage = self.downloadImage( url, path ); File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 237, in downloadImage self.img_converter(data, path) File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 244, in img_converter origin_img = Image.open(img) File "C:\Users\sky\AppData\Local\Programs\Python\Python38\lib\site-packages\PIL\Image.py", line 2861, in open raise UnidentifiedImageError( PIL.UnidentifiedImageError: cannot identify image file <_io.BytesIO object at 0x0000027E45AED400>

xmdt avatar Feb 07 '20 19:02 xmdt

试了下其他bookid的书,会报同样的错误。看来是文泉学堂那边修改了? update~ 好像是看书的功能挂了。。。浏览器翻墙状态下也看不了。。。

xmdt avatar Feb 07 '20 19:02 xmdt

从昨天开始 这个点就没办法爬了 到官网上面也没有办法查看 等到明天白天就会好了

HoeYeungHo avatar Feb 07 '20 19:02 HoeYeungHo

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py

------------------ 原始邮件 ------------------ 发件人: "xmdt"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "Subscribed"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

Reopened #67.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

lovejun277 avatar Feb 09 '20 03:02 lovejun277

update: 刚刚似乎无法使用了,是不是网站又更新规则了? 报错跟书籍无关,跟ip无关,网页可以浏览书籍。 已检查cookie,PHPSESSID没有更新。 提示以下信息:

2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 2020-02-09 11:48:17,914 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第3次 2020-02-09 11:48:38,333 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第4次

xmdt avatar Feb 09 '20 03:02 xmdt

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py ------------------ 原始邮件 ------------------ 发件人: "xmdt"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "Subscribed"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

我也是如此。

xmdt avatar Feb 09 '20 03:02 xmdt

什么情况 ~大神出来走两步~

------------------ 原始邮件 ------------------ 发件人: "xmdt"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:50 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "世上疼我的去了"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "Subscribed"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

我也是如此。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

lovejun277 avatar Feb 09 '20 03:02 lovejun277

3207309,3208473,3208241,3208458,3208247,3207887,3207140,3207278 任务中。。。 3206903,3205244,3208320,3207694,3207991,3203618    哪位大神给我帮个忙

------------------ 原始邮件 ------------------ 发件人: "世上疼我的去了"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:51 收件人: "kajweb/wqxuetang_downloader"<[email protected]>;"kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "Comment"<[email protected]>; 主题: 回复: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

什么情况 ~大神出来走两步~

------------------ 原始邮件 ------------------ 发件人: "xmdt"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:50 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "世上疼我的去了"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "Subscribed"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

我也是如此。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

lovejun277 avatar Feb 09 '20 03:02 lovejun277

PHPSESSID同样没有变化,报错 我刚才去网页端看了,增加了每页增加了滑块

lastpass8 avatar Feb 09 '20 04:02 lastpass8

PHPSESSID同样没有变化,报错

重启浏览器,PHPSESSID确实更新了。。。 不过我把新的PHPSESSID值写入cookies.txt文件后,重新跑程序还是不行诶~

xmdt avatar Feb 09 '20 04:02 xmdt

PHPSESSID同样没有变化,报错

重启浏览器,PHPSESSID确实更新了。。。 不过我把新的PHPSESSID值写入cookies.txt文件后,重新跑程序还是不行诶~

每滑动几页就有一个滑块验证,应该是这个东西。

lastpass8 avatar Feb 09 '20 04:02 lastpass8

每滑动几页就有一个滑块验证,应该是这个东西。

嗯嗯,我们把问题定位到这个滑块验证模块了~

xmdt avatar Feb 09 '20 04:02 xmdt

每滑动几页就有一个滑块验证。

zky001 avatar Feb 09 '20 04:02 zky001

之前就有了 但是没有报错~还可以下载~

------------------ 原始邮件 ------------------ 发件人: "Markgolzh"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午12:15 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "世上疼我的去了"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

每滑动几页就有一个滑块验证。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

lovejun277 avatar Feb 09 '20 04:02 lovejun277

这么多人遇到同样的问题,看来应该是网站把规则改了

jackydi avatar Feb 09 '20 04:02 jackydi

大神快出来~清华大学的气质严重违背了你的初衷~

------------------ 原始邮件 ------------------ 发件人: "jackydi"<[email protected]>; 发送时间: 2020年2月9日(星期天) 中午12:26 收件人: "kajweb/wqxuetang_downloader"<[email protected]>; 抄送: "世上疼我的去了"<[email protected]>; "Comment"<[email protected]>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

这么多人遇到同样的问题,看来应该是网站把规则改了

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

lovejun277 avatar Feb 09 '20 04:02 lovejun277

每滑动几页就有一个滑块验证,应该是这个东西。

嗯嗯,我们把问题定位到这个滑块验证模块了~

据说selenium能解决问题

Samachi avatar Feb 09 '20 05:02 Samachi

同样的问题,网页看没问题,下载出错。但滑动很多页没见到滑块验证啊~

qiuyu2020 avatar Feb 09 '20 06:02 qiuyu2020

update: 刚刚似乎无法使用了,是不是网站又更新规则了? 报错跟书籍无关,跟ip无关,网页可以浏览书籍。 已检查cookie,PHPSESSID没有更新。 提示以下信息:

2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 2020-02-09 11:48:17,914 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第3次 2020-02-09 11:48:38,333 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第4次

你从第一页就开始下载不了了啊,然而我现在下载了20多页还是没有问题啊

BillXuce avatar Feb 09 '20 08:02 BillXuce

统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源

BillXuce avatar Feb 09 '20 08:02 BillXuce

统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源

你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。

lastpass8 avatar Feb 09 '20 08:02 lastpass8

统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源

你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。

嗯我发现问题了,这个好解决,稍等我做一个新的commit。目前主要问题主要是大家这个报错的问题我没法复现,我也有过重试次数过多退出的情况但是重启脚本还是可以下载。

BillXuce avatar Feb 09 '20 08:02 BillXuce

我下载的图片一个才4、5kb,为啥这么小啊?看不清的

purzelon avatar Feb 09 '20 08:02 purzelon

我下载的图片一个才4、5kb,为啥这么小啊?看不清的

我现在也是,我先看看有没有什么紧急办法

BillXuce avatar Feb 09 '20 08:02 BillXuce

@BillXuce 下了26页后就一直失败了

pcbcos avatar Feb 09 '20 09:02 pcbcos

我下载的图片一个才4、5kb,为啥这么小啊?看不清的

我现在也是,我先看看有没有什么紧急办法

貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。

Samachi avatar Feb 09 '20 10:02 Samachi

貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。

好像文泉学堂没有手机模式。用手机打开都是电脑页面的

kajweb avatar Feb 09 '20 13:02 kajweb

目前我电脑尚未出现滑块,请求中好像比之前多出 https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……(印象中)

kajweb avatar Feb 09 '20 13:02 kajweb

我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~刷了十几页,滑块好像也没有了。。。 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)

xmdt avatar Feb 09 '20 13:02 xmdt

我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~ 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)

之前也是会先出缩略图的,文泉刚开始也是先加载缩略图再加载清晰图。 可能是之前人少,有足够的资源预加载清晰图,所以没有留意到缩略图。

kajweb avatar Feb 09 '20 13:02 kajweb

我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~ 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)

之前也是会先出缩略图的,文泉刚开始也是先加载缩略图再加载清晰图。 可能是之前人少,有足够的资源预加载清晰图,所以没有留意到缩略图。

嗯,加载一个1s的延时估计就差不多够用了

xmdt avatar Feb 09 '20 13:02 xmdt