关于微博爬虫对于“网页链接”的爬取
- 问:请说明需要什么新功能。
答:目前使用该代码进行微博爬虫操作时,正文部分只能摘取到文本内容,但是在下面的”网页链接“超链接中,不能有效获取其中网址,希望得到补充,谢谢
- 问:请说明添加该功能的意义。(非必填)
答:
感谢建议。目前没有这个打算,微博中可能包含多个链接,甚至正文内容也可能是链接,不好取舍。目前一种做法是提取包含网页代码的微博,不作其它处理,这个需要修改代码。
好的谢谢,我在您的修改代码,尝试加入爬取网页链接过后出现了可以进入并读取网页获取用户信息,但爬取到微博正文为0的问题,删除我修改的部分后也是相同的问题,想请问您有相同问题吗
我最近不方便调试代码,如果无法修复问题,您也可以修改使用免cookie版的。
好的,谢谢您,祝工作顺利
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.
Closing as stale, please reopen if you'd like to work on this further.