weixin_sogou
weixin_sogou copied to clipboard
发现几个问题
我用的是pyspider,对于通过搜狗爬取公众号发现2个问题 1是发现搜狗上的数据并不准确 有些时候会出现旧文章排在前面的情况 2是爬了几天,每小时爬一次,发现被搜狗给封IP了 不知道你在频率方面是怎样限制而不会被搜狗封的
我们情况和你差不多…现在也很不稳定… On Mon, Aug 24, 2015 at 6:06 AM Someant [email protected] wrote:
我用的是pyspider,对于通过搜狗爬取公众号发现2个问题 1是发现搜狗上的数据并不准确 有些时候会出现旧文章排在前面的情况 2是爬了几天,每小时爬一次,发现被搜狗给封IP了 不知道你在频率方面是怎样限制而不会被搜狗封的
— Reply to this email directly or view it on GitHub https://github.com/iberryful/weixin_sogou/issues/5.
weixin_sogou.py 我用这个代码在本地试运行了下,发现没有反应,请问是什么原因?
update: 是jupyter notebook没有正常运行的原因。
运行后,报错:
---------------------------------------------------------------------------
IndexError Traceback (most recent call last)
<ipython-input-8-bf21e0d63c54> in <module>()
162 cookies = update_cookies()
163 t0 = time.time()
--> 164 print(get_account_info(open_id,cookies=cookies))
165 #print(weixin_search("简书",cookies))
166 t1 = time.time()
<ipython-input-8-bf21e0d63c54> in get_account_info(open_id, link, cookies)
66 return None
67 soup = BeautifulSoup(html)
---> 68 info_box = soup.select('#weixinname')[0].parent
69 account_info = {}
70 account_info['account'] = info_box.select('h4 span')[0].text.split(':')[1].strip()
IndexError: list index out of range
@dumpling001 现在估计也被封了吧,这么久了,另外用sougou爬微信文章得到的链接会有时效性,也很容易被封,还需要用到不少代理