tutorials-from-runoob icon indicating copy to clipboard operation
tutorials-from-runoob copied to clipboard

我解决了页面中存在部分链接失效的问题,请求合并

Open znsoooo opened this issue 2 years ago • 3 comments

原作者的遍历规则是从runoob首页读取二级链接,然后在二级链接中的侧边栏找到三级链接,然后依次下载。

  • 由于在某些三级链接下面,仍然存在更多级别的链接,所以部分地址存在失效
  • 并且runoob网站的HTML代码排布也有变动了,原来的API访问不了了
  • 另外原作者的流式阅读设计,有时候拼合的页面太多了打开起来会很卡

我Fork了本仓库,解决了这些问题,地址为:https://github.com/znsoooo/tutorials-from-runoob

我做了一些改进,主要为:

  • 添加的PDF文件占用了仓库较大的空间,我reset到了提交PDF文件之前的版本
  • 采用递归遍历的方法,访问网页文件中的所有属于本站的HTML文件,所以也不存在死链
  • 通过 index.html 作为网页入口,网页内的所有链接在浏览器内可以点击跳转
  • 移除对 lxml 库的依赖,使用Python原生库即可完成所有网站网页的下载

如果作者愿意合并的话——

  • 目前最后的几次提交都是修改 requirements.txt ,这个文件里面只用到了 lxml 库,所以我不是很理解,并且产生了大量分支
  • 所以希望可以reset到 18f20162 的位置,因为这后面似乎都是没有什么用处的修改
  • 当然如果更好的话,我希望可以reset到 3324bb22 的位置,因为这使得仓库中没有PDF文件,克隆下载代码会更加迅速,并且我合并的话也不会产生多余分支
  • 注意我说的是reset,而不是revert

另外如果你是希望下载最新教程的网友,可以到这里下载我的Release版本,下载 rar 文件即可,教程入口是 ~/index.html

https://github.com/znsoooo/tutorials-from-runoob/releases

znsoooo avatar May 05 '23 16:05 znsoooo

收到,谢谢。

MiaomiaoFanny avatar May 05 '23 16:05 MiaomiaoFanny

@znsoooo 谢谢,因为是之前在学习时做的开源项目,由于之后有其他事情和项目,这个项目基本没回复, 任何改动都是欢迎的哈, 也感谢你的改进和优化

lryong avatar Jan 14 '24 13:01 lryong

收到,谢谢。

MiaomiaoFanny avatar Jan 14 '24 13:01 MiaomiaoFanny