tutorials-from-runoob

tutorials-from-runoob copied to clipboard

Reame
Issues

我解决了页面中存在部分链接失效的问题，请求合并

Open znsoooo opened this issue 2 years ago • 3 comments

原作者的遍历规则是从runoob首页读取二级链接，然后在二级链接中的侧边栏找到三级链接，然后依次下载。

由于在某些三级链接下面，仍然存在更多级别的链接，所以部分地址存在失效
并且runoob网站的HTML代码排布也有变动了，原来的API访问不了了
另外原作者的流式阅读设计，有时候拼合的页面太多了打开起来会很卡

我Fork了本仓库，解决了这些问题，地址为：https://github.com/znsoooo/tutorials-from-runoob

我做了一些改进，主要为：

添加的PDF文件占用了仓库较大的空间，我reset到了提交PDF文件之前的版本
采用递归遍历的方法，访问网页文件中的所有属于本站的HTML文件，所以也不存在死链
通过 index.html 作为网页入口，网页内的所有链接在浏览器内可以点击跳转
移除对 lxml 库的依赖，使用Python原生库即可完成所有网站网页的下载

如果作者愿意合并的话——

目前最后的几次提交都是修改 requirements.txt ，这个文件里面只用到了 lxml 库，所以我不是很理解，并且产生了大量分支
所以希望可以reset到 18f20162 的位置，因为这后面似乎都是没有什么用处的修改
当然如果更好的话，我希望可以reset到 3324bb22 的位置，因为这使得仓库中没有PDF文件，克隆下载代码会更加迅速，并且我合并的话也不会产生多余分支
注意我说的是reset，而不是revert

另外如果你是希望下载最新教程的网友，可以到这里下载我的Release版本，下载 rar 文件即可，教程入口是 ~/index.html ：

https://github.com/znsoooo/tutorials-from-runoob/releases

May 05 '23 16:05 znsoooo

收到，谢谢。

May 05 '23 16:05 MiaomiaoFanny

@znsoooo 谢谢，因为是之前在学习时做的开源项目，由于之后有其他事情和项目，这个项目基本没回复，任何改动都是欢迎的哈，也感谢你的改进和优化

Jan 14 '24 13:01 lryong

收到，谢谢。

Jan 14 '24 13:01 MiaomiaoFanny