weiboSpider issues

抓取的微博头条文章url都是空

4

感谢您申报bug，为了表示感谢，如果bug确实存在，您将出现在本项目的贡献者列表里；如果您不但发现了bug，还提供了很好的解决方案，我们会邀请您以pull request的方式成为本项目的代码贡献者（Contributor）；如果您多次提供很好的pull request，我们将邀请您成为本项目的协助者（Collaborator）。当然，是否提供解决方按都是自愿的。不管是否是真正的bug、是否提供解决方案，我们都感谢您对本项目的帮助。 - 问：请您指明哪个版本出了bug（github版/PyPi版/全部）？答：GitHub最新代码 - 问：您使用的是否是最新的程序（是/否）？答：是 - 问：爬取任意用户都会复现此bug吗（是/否）？答：是 - 问：若只有爬特定微博时才出bug，能否提供出错微博的weibo_id或url（非必填）？答：微博uid 5044429589 - 问：若您已提供出错微博的weibo_id或url，可忽略此内容，否则能否提供出错账号的**user_id**及您配置的**since_date**，方便我们定位出错微博（非必填）？答：user_id 5044429589 "since_date": "2016-01-01", - 问：如果方便，请您描述bug详情，如果代码报错，最好附上错误提示。答：导出的excel如图： ![excel](https://user-images.githubusercontent.com/23287853/163302036-cb6ccfbe-399b-4d00-b048-f27e4baa6cc0.png)

sushengbuhuo

bug

FAQ 获取自己微博写错啦

1

感谢您申报bug，为了表示感谢，如果bug确实存在，您将出现在本项目的贡献者列表里；如果您不但发现了bug，还提供了很好的解决方案，我们会邀请您以pull request的方式成为本项目的代码贡献者（Contributor）；如果您多次提供很好的pull request，我们将邀请您成为本项目的协助者（Collaborator）。当然，是否提供解决方按都是自愿的。不管是否是真正的bug、是否提供解决方案，我们都感谢您对本项目的帮助。 - 问：请您指明哪个版本出了bug（github版/PyPi版/全部）？答：github - 问：您使用的是否是最新的程序（是/否）？答：是 - 问：爬取任意用户都会复现此bug吗（是/否）？答： - 问：若只有爬特定微博时才出bug，能否提供出错微博的weibo_id或url（非必填）？答： - 问：若您已提供出错微博的weibo_id或url，可忽略此内容，否则能否提供出错账号的**user_id**及您配置的**since_date**，方便我们定位出错微博（非必填）？答： - 问：如果方便，请您描述bug详情，如果代码报错，最好附上错误提示。答： FAQ 里 7. 如何获取自己的微博？修改page_parser.py中__init__方法，将self.url修改为： self.url = "https://weibo.cn/%s/profile?page=%d" %...

LuqianSun

bug

cookie复制问题

2

请问cookie应该复制哪些进config.json中，我复制cookie：后的全部，程序提示 cookie错误或已过期,请按照README中方法重新获取。这个问题可能非常愚蠢，但是希望得到您的回复。

qqqqmmmm

同样是设置爬取范围，但是爬了不到2%就结束了

1

为了更好的解决问题，请认真回答下面的问题。等到问题解决，请及时关闭本issue。 - 问：请您指明哪个版本运行出错（github版/PyPi版/全部）？答：github版 - 问：您使用的是否是最新的程序（是/否）？答：是 - 问：爬取任意用户都会运行出错吗（是/否）？答：是 - 问：若只有爬特定微博时才出错，能否提供出错微博的weibo_id或url（非必填）？答： - 问：若您已提供出错微博的weibo_id或url，可忽略此内容，否则能否提供出错账号的**user_id**及您配置的**since_date**，方便我们定位出错微博（非必填）？答： - 问：如果方便，请您描述出错详情，最好附上错误提示。答： 'NoneType' object has no attribute 'xpath' Traceback (most recent call last):...

AhrendsSchmidt

failed

refactor: 获取原创微博长内容修改为接口调用

3

junbaor

思考：自动化工作流程之邮件提醒，多线程工作！

5

大佬我又来了！！这回有个新的想法 1 返回状态码及邮件提醒之前因为各种原因比如网络，比如硬盘，程序会中断，但是只有等到下次再打开终端的时候才能发现程序有没有完成，所以就是想能不能提供一种状态码，写入对应的log文档，再通过别的程序发送到邮箱，我现在测试的结果是用ssmtp来写脚本，运行完程序就发送邮件。但是不知道运行结果，所以只能算是提醒，所以想能不能这么做。 ``` 分支1 流程1 程序正常运行，运行完成后返回代码 0 表示无错误爬虫正常运行成功流程2 将代码0 写入 log.txt 文档流程3 通过其它软件将爬虫结果发送到指定邮箱通知已经完成分支2 流程1 程序出现错误，反对代码 1 （主要是现在的程序一旦错误，返回的都是错误的具体信息，而非一个代码值，所以不太好作为状态码，发送，所以想直接将所有非正常情况都视作失败，提醒程序员重新运行爬虫流程2 将代码2...

Evifly

to do

文章爬取功能

3

- 问：请说明需要什么新功能。答：希望可以新增文章爬取功能，可以单独存放到独立文件夹或者将文章在对应微博处展开（一般发表文章后会生成一条概览的微博，如果按照对应微博的顺序展开可能更加有时序性） - 问：请说明添加该功能的意义。（非必填）答：很多科普或者财经博主分享的内容是以文章的形式分享，希望能够将其保存下来。谢谢。 PS：可以挂个赞赏，请您喝杯咖啡

CottonChou

feature

to do

修复：区分转发和原创信息

1

1. 区分了转发微博和原创微博的信息提取。微博内容：　由　被转发微博的内容　修复为　“转发” + 被转发内容 + "转发理由" 微博转评赞：　由　被转发微博数据　修复为　转发博数据 2. 修复了微博被“已赞”时出现`guid[0] out of range`错误

fredhdx

添加时间的采集

2

添加时间的采集已测试通过

kba977

程序出错

1

'NoneType' object has no attribute 'xpath' Traceback (most recent call last): File "D:\PythonProjects\django4.4\crawler\spider.py", line 178, in get_weibo_info weibos, self.weibo_id_list, to_continue = PageParser( File "D:\PythonProjects\django4.4\crawler\parser\page_parser.py", line 45, in __init__ info =...

zcs0001

failed

weiboSpider
weiboSpider copied to clipboard

Metadata

抓取的微博头条文章url都是空

FAQ 获取自己微博写错啦

cookie复制问题

同样是设置爬取范围，但是爬了不到2%就结束了

refactor: 获取原创微博长内容修改为接口调用

思考：自动化工作流程之邮件提醒，多线程工作！

文章爬取功能

修复：区分转发和原创信息

添加时间的采集

程序出错

← Metadata

Owner

Metadata

weiboSpider weiboSpider copied to clipboard

Metadata

← Metadata

Owner

Metadata

weiboSpider
weiboSpider copied to clipboard