weiboSpider icon indicating copy to clipboard operation
weiboSpider copied to clipboard

新浪微博爬虫,用python爬取新浪微博数据

Results 124 weiboSpider issues
Sort by recently updated
recently updated
newest added

感谢您申报bug,为了表示感谢,如果bug确实存在,您将出现在本项目的贡献者列表里;如果您不但发现了bug,还提供了很好的解决方案,我们会邀请您以pull request的方式成为本项目的代码贡献者(Contributor);如果您多次提供很好的pull request,我们将邀请您成为本项目的协助者(Collaborator)。当然,是否提供解决方按都是自愿的。不管是否是真正的bug、是否提供解决方案,我们都感谢您对本项目的帮助。 - 问:请您指明哪个版本出了bug(github版/PyPi版/全部)? 答:GitHub最新代码 - 问:您使用的是否是最新的程序(是/否)? 答:是 - 问:爬取任意用户都会复现此bug吗(是/否)? 答:是 - 问:若只有爬特定微博时才出bug,能否提供出错微博的weibo_id或url(非必填)? 答:微博uid 5044429589 - 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的**user_id**及您配置的**since_date**,方便我们定位出错微博(非必填)? 答:user_id 5044429589 "since_date": "2016-01-01", - 问:如果方便,请您描述bug详情,如果代码报错,最好附上错误提示。 答:导出的excel如图: ![excel](https://user-images.githubusercontent.com/23287853/163302036-cb6ccfbe-399b-4d00-b048-f27e4baa6cc0.png)

bug

感谢您申报bug,为了表示感谢,如果bug确实存在,您将出现在本项目的贡献者列表里;如果您不但发现了bug,还提供了很好的解决方案,我们会邀请您以pull request的方式成为本项目的代码贡献者(Contributor);如果您多次提供很好的pull request,我们将邀请您成为本项目的协助者(Collaborator)。当然,是否提供解决方按都是自愿的。不管是否是真正的bug、是否提供解决方案,我们都感谢您对本项目的帮助。 - 问:请您指明哪个版本出了bug(github版/PyPi版/全部)? 答:github - 问:您使用的是否是最新的程序(是/否)? 答:是 - 问:爬取任意用户都会复现此bug吗(是/否)? 答: - 问:若只有爬特定微博时才出bug,能否提供出错微博的weibo_id或url(非必填)? 答: - 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的**user_id**及您配置的**since_date**,方便我们定位出错微博(非必填)? 答: - 问:如果方便,请您描述bug详情,如果代码报错,最好附上错误提示。 答: FAQ 里 7. 如何获取自己的微博? 修改page_parser.py中__init__方法,将self.url修改为: self.url = "https://weibo.cn/%s/profile?page=%d" %...

bug

请问cookie应该复制哪些进config.json中,我复制cookie:后的全部,程序提示 cookie错误或已过期,请按照README中方法重新获取。这个问题可能非常愚蠢,但是希望得到您的回复。

为了更好的解决问题,请认真回答下面的问题。等到问题解决,请及时关闭本issue。 - 问:请您指明哪个版本运行出错(github版/PyPi版/全部)? 答:github版 - 问:您使用的是否是最新的程序(是/否)? 答:是 - 问:爬取任意用户都会运行出错吗(是/否)? 答:是 - 问:若只有爬特定微博时才出错,能否提供出错微博的weibo_id或url(非必填)? 答: - 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的**user_id**及您配置的**since_date**,方便我们定位出错微博(非必填)? 答: - 问:如果方便,请您描述出错详情,最好附上错误提示。 答: 'NoneType' object has no attribute 'xpath' Traceback (most recent call last):...

failed

大佬我又来了!!这回有个新的想法 1 返回状态码及邮件提醒 之前因为各种原因比如网络,比如硬盘,程序会中断,但是只有等到下次再打开终端的时候才能发现程序有没有完成,所以就是想 能不能提供一种状态码,写入对应的log文档,再通过别的程序发送到邮箱,我现在测试的结果是用ssmtp来写脚本,运行完程序就发送邮件。但是不知道运行结果,所以只能算是提醒,所以想能不能这么做。 ``` 分支1 流程1 程序正常运行,运行完成后返回代码 0 表示无错误 爬虫正常运行成功 流程2 将 代码0 写入 log.txt 文档 流程3 通过其它软件 将 爬虫结果发送到指定邮箱 通知已经完成 分支2 流程1 程序出现错误,反对代码 1 (主要是现在的程序一旦错误,返回的都是错误的具体信息,而非一个代码值,所以不太好作为状态码,发送,所以想直接将所有非正常情况都视作失败,提醒程序员重新运行爬虫 流程2 将代码2...

to do

- 问:请说明需要什么新功能。 答:希望可以新增文章爬取功能,可以单独存放到独立文件夹或者将文章在对应微博处展开(一般发表文章后会生成一条概览的微博,如果按照对应微博的顺序展开可能更加有时序性) - 问:请说明添加该功能的意义。(非必填) 答:很多科普或者财经博主分享的内容是以文章的形式分享,希望能够将其保存下来。谢谢。 PS:可以挂个赞赏,请您喝杯咖啡

feature
to do

1. 区分了转发微博和原创微博的信息提取。 微博内容: 由 被转发微博的内容 修复为 “转发” + 被转发内容 + "转发理由" 微博转评赞: 由 被转发微博数据 修复为 转发博数据 2. 修复了微博被“已赞”时出现`guid[0] out of range`错误

添加时间的采集 已测试通过

'NoneType' object has no attribute 'xpath' Traceback (most recent call last): File "D:\PythonProjects\django4.4\crawler\spider.py", line 178, in get_weibo_info weibos, self.weibo_id_list, to_continue = PageParser( File "D:\PythonProjects\django4.4\crawler\parser\page_parser.py", line 45, in __init__ info =...

failed