tutorials-from-runoob
tutorials-from-runoob copied to clipboard
我解决了页面中存在部分链接失效的问题,请求合并
原作者的遍历规则是从runoob首页读取二级链接,然后在二级链接中的侧边栏找到三级链接,然后依次下载。
- 由于在某些三级链接下面,仍然存在更多级别的链接,所以部分地址存在失效
- 并且runoob网站的HTML代码排布也有变动了,原来的API访问不了了
- 另外原作者的流式阅读设计,有时候拼合的页面太多了打开起来会很卡
我Fork了本仓库,解决了这些问题,地址为:https://github.com/znsoooo/tutorials-from-runoob
我做了一些改进,主要为:
- 添加的PDF文件占用了仓库较大的空间,我reset到了提交PDF文件之前的版本
- 采用递归遍历的方法,访问网页文件中的所有属于本站的HTML文件,所以也不存在死链
- 通过
index.html作为网页入口,网页内的所有链接在浏览器内可以点击跳转 - 移除对
lxml库的依赖,使用Python原生库即可完成所有网站网页的下载
如果作者愿意合并的话——
- 目前最后的几次提交都是修改
requirements.txt,这个文件里面只用到了lxml库,所以我不是很理解,并且产生了大量分支 - 所以希望可以reset到 18f20162 的位置,因为这后面似乎都是没有什么用处的修改
- 当然如果更好的话,我希望可以reset到 3324bb22 的位置,因为这使得仓库中没有PDF文件,克隆下载代码会更加迅速,并且我合并的话也不会产生多余分支
- 注意我说的是reset,而不是revert
另外如果你是希望下载最新教程的网友,可以到这里下载我的Release版本,下载 rar 文件即可,教程入口是 ~/index.html :
收到,谢谢。
@znsoooo 谢谢,因为是之前在学习时做的开源项目,由于之后有其他事情和项目,这个项目基本没回复, 任何改动都是欢迎的哈, 也感谢你的改进和优化
收到,谢谢。