一蓑烟雨任平生
一蓑烟雨任平生
> 很久没搞这一块了,刚去看了一下网页版,网页结构跟之前的一样。 > > 其实用Selenium的方式跟直接使用接口的效果是一样的。 知识星球网页版是前后端分离架构,列表接口获取的talk信息就是详情页面的全文信息。只不过打开详情页面会调用comments接口来获取评论列表,除此之外,详情页没有任何用途。 > > 使用Selenium抓取的话,模拟滚动,下滑列表页,监听列表页底的“加载中...”元素,然后拦截api接口信息并保存。 如果要获取详情页的评论列表,直接使用js注入的方式请求comments接口,不需要模拟点击打开详情并关闭,没有这个必要。 > > 这是我的思路,仅供参考。 并非如此,APi v2版本上线时已经应用了 请求签名,不处理签名就会封号,其次talk信息是摘要信息,不是全文,很多文章都会在全文尾部追加附件,目前的爬虫代码只是索引了摘要内容
> 我用wireshark测试了这个websocket,我把所有东西都复制过来了,但是除了扩展顺序不同,其他都无法通过测试 直接用websocket模块建立连接就可以了,不用这么麻烦,协议头都是通用的 那个key是随机生成的
建议阅读cf的文档