weixin_sogou icon indicating copy to clipboard operation
weixin_sogou copied to clipboard

发现几个问题

Open Someant opened this issue 9 years ago • 3 comments

我用的是pyspider,对于通过搜狗爬取公众号发现2个问题 1是发现搜狗上的数据并不准确 有些时候会出现旧文章排在前面的情况 2是爬了几天,每小时爬一次,发现被搜狗给封IP了 不知道你在频率方面是怎样限制而不会被搜狗封的

Someant avatar Aug 24 '15 10:08 Someant

我们情况和你差不多…现在也很不稳定… On Mon, Aug 24, 2015 at 6:06 AM Someant [email protected] wrote:

我用的是pyspider,对于通过搜狗爬取公众号发现2个问题 1是发现搜狗上的数据并不准确 有些时候会出现旧文章排在前面的情况 2是爬了几天,每小时爬一次,发现被搜狗给封IP了 不知道你在频率方面是怎样限制而不会被搜狗封的

— Reply to this email directly or view it on GitHub https://github.com/iberryful/weixin_sogou/issues/5.

taoalpha avatar Aug 24 '15 11:08 taoalpha

weixin_sogou.py 我用这个代码在本地试运行了下,发现没有反应,请问是什么原因?

update: 是jupyter notebook没有正常运行的原因。

运行后,报错:

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-8-bf21e0d63c54> in <module>()
    162     cookies = update_cookies()
    163     t0 = time.time()
--> 164     print(get_account_info(open_id,cookies=cookies))
    165     #print(weixin_search("简书",cookies))
    166     t1 = time.time()

<ipython-input-8-bf21e0d63c54> in get_account_info(open_id, link, cookies)
     66         return None
     67     soup = BeautifulSoup(html)
---> 68     info_box = soup.select('#weixinname')[0].parent
     69     account_info = {}
     70     account_info['account'] = info_box.select('h4 span')[0].text.split(':')[1].strip()

IndexError: list index out of range

dumpling001 avatar Mar 03 '17 02:03 dumpling001

@dumpling001 现在估计也被封了吧,这么久了,另外用sougou爬微信文章得到的链接会有时效性,也很容易被封,还需要用到不少代理

Someant avatar Mar 03 '17 06:03 Someant