WechatSogou icon indicating copy to clipboard operation
WechatSogou copied to clipboard

最近公众号爬取的文章为空 article没有返回内容

Open inspirationhyl opened this issue 5 years ago • 21 comments

最近使用方法ws_api.get_gzh_article_by_history('南航青年志愿者') 获取任意公众号最近群发文章,返回结果皆为空。以“南航志愿者”为例,执行该方法后返回的内容为: {'gzh': {'wechat_name': '南航青年志愿者', 'wechat_id': 'nanhangqinggong', 'introduction': '南航大志愿活动的领跑者,为你 提供校内外的志愿资源和精彩消息。', 'authentication': '南京航空航天大学', 'headimage': 'http://wx.qlogo.cn/mmhead/Q3auHgzwzM4xV5PgPjK5XoPaaQoxnWJATnqibic3lN6efQvGzI0iaj7uQ/0'}, 'article': []}

inspirationhyl avatar Aug 07 '19 00:08 inspirationhyl

有的时候还会报错: Traceback (most recent call last): File "", line 1, in File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\wechatsogou\api.py", line 446, in get_gzh_article_by_history identify_image_callback=identify_image_callback_weixin) File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\wechatsogou\api.py", line 116, in __get_by_unlock resp = self.__get(url, session, headers=self.__set_cookie(referer=referer)) File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\wechatsogou\api.py", line 65, in __get resp = session.get(url, headers=h, **self.requests_kwargs) File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\sessions.py", line 546, in get return self.request('GET', url, **kwargs) File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\sessions.py", line 519, in request prep = self.prepare_request(req) File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\sessions.py", line 462, in prepare_request hooks=merge_hooks(request.hooks, self.hooks), File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\models.py", line 313, in prepare self.prepare_url(url, params) File "C:\Users\ada\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\models.py", line 387, in prepare_url raise MissingSchema(error) requests.exceptions.MissingSchema: Invalid URL '': No schema supplied. Perhaps you meant http://?

inspirationhyl avatar Aug 07 '19 00:08 inspirationhyl

应该是因为搜狗增加了反爬取机制,原来的最近文章URL被隐藏

征集令

inspirationhyl avatar Aug 07 '19 02:08 inspirationhyl

<a target="_blank" uigs="account_article_0" href="/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS-G7nWD3OUwP1082seqsC6HruDU1FvFnplqXa8Fplpd9WrUUt_p7PW89MXZ6dPPrLZBxu64_w8KqlWnLFD-98fqjjpaPFsPenEZ2N2s6dJvcGNcHmZCiFyqUk0DG_jEcKeNyJOWnJHWbILDabLZQsijSZvIPsRc6zE_ARy9r0WQvSpWs5vgoGX7DJUAlC_hYgAcbYgdQAbQZnKKq8DBaND6q3X8EKMKOIA..&amp;type=1&amp;query=%E4%BE%A0%E5%AE%A2%E5%B2%9B">征集令</a>

inspirationhyl avatar Aug 07 '19 02:08 inspirationhyl

大佬,这个可以绕过去吗

Warlock1994 avatar Aug 07 '19 06:08 Warlock1994

大佬,这个可以绕过去吗

绕不过去 搜狗停用了这个服务了。最多只能看到最近一篇article了。

inspirationhyl avatar Aug 09 '19 02:08 inspirationhyl

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

Warlock1994 avatar Aug 09 '19 03:08 Warlock1994

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

ldxbaby756 avatar Aug 10 '19 02:08 ldxbaby756

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

公众号平台,搜索文章?

anexplore avatar Aug 13 '19 00:08 anexplore

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

公众号平台,搜索文章?

直接去爬传送门或者清博数据就行

Warlock1994 avatar Aug 13 '19 00:08 Warlock1994

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

直接去爬传送门或者清博数据就行,把文章地址获取到,后面都不用改

Warlock1994 avatar Aug 13 '19 00:08 Warlock1994

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

直接去爬传送门或者清博数据就行,把文章地址获取到,后面都不用改

大佬牛逼,传送门或者清博数据有反爬措施吗,会封ip吗

Alic-yuan avatar Aug 13 '19 01:08 Alic-yuan

不知道,我反正没封

Warlock1994 avatar Aug 13 '19 01:08 Warlock1994

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

直接去爬传送门或者清博数据就行,把文章地址获取到,后面都不用改

懂了,发现现在解决方案1就是爬公众平台,缺点是会有被封的风险, 2就是爬这种数据网站了,缺点是有的公众号他没有收录,或者数据更新没有那么及时。

ldxbaby756 avatar Aug 13 '19 02:08 ldxbaby756

当然还有从移动端去入手,个人感觉这个成本较大

ldxbaby756 avatar Aug 13 '19 02:08 ldxbaby756

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

直接去爬传送门或者清博数据就行,把文章地址获取到,后面都不用改

懂了,发现现在解决方案1就是爬公众平台,缺点是会有被封的风险, 2就是爬这种数据网站了,缺点是有的公众号他没有收录,或者数据更新没有那么及时。

对的

Alic-yuan avatar Aug 13 '19 02:08 Alic-yuan

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

直接去爬传送门或者清博数据就行,把文章地址获取到,后面都不用改

懂了,发现现在解决方案1就是爬公众平台,缺点是会有被封的风险, 2就是爬这种数据网站了,缺点是有的公众号他没有收录,或者数据更新没有那么及时。

对的,但是我感觉收录的还可以把,1的风险太大了

Warlock1994 avatar Aug 13 '19 02:08 Warlock1994

这个获取的文章链接是临时的还是永久的?

Alic-yuan avatar Aug 13 '19 02:08 Alic-yuan

这个获取的文章链接是临时的还是永久的?

临时的吧,我看也是有时间戳的

Warlock1994 avatar Aug 13 '19 02:08 Warlock1994

有获得永久链接的思路吗

Alic-yuan avatar Aug 13 '19 03:08 Alic-yuan

为什么老给我发啊 我不是管理员啊发自我的iPhone------------------ 原始邮件 ------------------发件人: Warlock [email protected]发送时间: 2019年8月13日 08:34收件人: Chyroc/WechatSogou [email protected]抄送: Subscribed [email protected]主题: 回复:[Chyroc/WechatSogou] 最近公众号爬取的文章为空 article没有返回内容 (#284)

请问大佬换了什么思路,能否分享一下

我反正换思路了,换了个地方抓取文章地址了,现在连验证码都不用了,反而方便了很多

公众号平台,搜索文章?

直接去爬传送门或者清博数据就行

—You are receiving this because you are subscribed to this thread.Reply to this email directly, view it on GitHub, or mute the thread. [ { "@context": "http://schema.org", "@type": "EmailMessage", "potentialAction": { "@type": "ViewAction", "target": "https://github.com/Chyroc/WechatSogou/issues/284?email_source=notifications\u0026email_token=AMVFLY5QM7BFFVIIJHDMQHDQEH6Q7A5CNFSM4IJ3KC22YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD4EGO3A#issuecomment-520644460", "url": "https://github.com/Chyroc/WechatSogou/issues/284?email_source=notifications\u0026email_token=AMVFLY5QM7BFFVIIJHDMQHDQEH6Q7A5CNFSM4IJ3KC22YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD4EGO3A#issuecomment-520644460", "name": "View Issue" }, "description": "View this Issue on GitHub", "publisher": { "@type": "Organization", "name": "GitHub", "url": "https://github.com" } } ]

JeanRn avatar Aug 13 '19 09:08 JeanRn

传送门或者清博数据 的微信文章从哪儿来的呢?

simadi avatar Oct 31 '19 08:10 simadi