weixin_sogou 发现几个问题

我用的是pyspider，对于通过搜狗爬取公众号发现2个问题 1是发现搜狗上的数据并不准确有些时候会出现旧文章排在前面的情况 2是爬了几天，每小时爬一次，发现被搜狗给封IP了不知道你在频率方面是怎样限制而不会被搜狗封的

Aug 24 '15 10:08 Someant

我们情况和你差不多…现在也很不稳定… On Mon, Aug 24, 2015 at 6:06 AM Someant [email protected] wrote:

我用的是pyspider，对于通过搜狗爬取公众号发现2个问题 1是发现搜狗上的数据并不准确有些时候会出现旧文章排在前面的情况 2是爬了几天，每小时爬一次，发现被搜狗给封IP了不知道你在频率方面是怎样限制而不会被搜狗封的

— Reply to this email directly or view it on GitHub https://github.com/iberryful/weixin_sogou/issues/5.

Aug 24 '15 11:08 taoalpha

weixin_sogou.py 我用这个代码在本地试运行了下，发现没有反应，请问是什么原因？

update: 是jupyter notebook没有正常运行的原因。

运行后，报错：

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-8-bf21e0d63c54> in <module>()
    162     cookies = update_cookies()
    163     t0 = time.time()
--> 164     print(get_account_info(open_id,cookies=cookies))
    165     #print(weixin_search("简书",cookies))
    166     t1 = time.time()

<ipython-input-8-bf21e0d63c54> in get_account_info(open_id, link, cookies)
     66         return None
     67     soup = BeautifulSoup(html)
---> 68     info_box = soup.select('#weixinname')[0].parent
     69     account_info = {}
     70     account_info['account'] = info_box.select('h4 span')[0].text.split('：')[1].strip()

IndexError: list index out of range

Mar 03 '17 02:03 dumpling001

@dumpling001 现在估计也被封了吧，这么久了，另外用sougou爬微信文章得到的链接会有时效性，也很容易被封，还需要用到不少代理

Mar 03 '17 06:03 Someant

weixin_sogou weixin_sogou copied to clipboard

发现几个问题

weixin_sogou
weixin_sogou copied to clipboard