wechat_articles_spider icon indicating copy to clipboard operation
wechat_articles_spider copied to clipboard

微信公众号文章的爬虫

Results 8 wechat_articles_spider issues
Sort by recently updated
recently updated
newest added

首先感谢分享! 在运行代码的时候发现utils.py第189行timestamp2date(dt)报错,缺少一个格式化输入。阅读源码后认为这段代码可以删去,或者给定一个日期格式化,否则会在爬取第一轮(10次)的时候报错中断,删去这行代码后代码运行正常。 此外,给出的demo test_GetUrls.py中,84-88行中的url并没有定义(不过可能就是这样写防小白的?) 第27行item=line赋值可以删去,第24行改为` for i, line in enumerate(lst, 0):` 同时,第56行需要判断flag是否为1,而这时会报错flag没有定义。应在前面定义flag函数,如在24行加入`flag = 0` 根据get_history_urls返回的数据格式,应在24行lst遍历前,加入一个遍历,如: `def demo(lst_list): fj = "" item_lst = [] flag = 0 for lst in lst_list:...

对于获取微信文章链接,提供一种思路,就是通过wx小助手 将最新文章的推送转发出来

我改了下test_WechatUrls.py,用自己注册的公众号的token和cookies,想抓大概20多个公众号8月份至今的所有文章url,之前试过直接每个号抓50个,第一遍好像能抓完,结果没保存下来,后来再抓就报cookie或token错误了,过了一天我改成每个号只抓5个的话也差最后3个公众号抓不到报错,不过我发现有些好设置抓5个,但返回了7-10个文章,还有我用create_time转datetime发现和点开url网页页面上的时间不一致。 主要是有没有啥办法能不被反爬ban掉,可以抓的慢一点,不太方便再搞更多的公众号了。

个人微信号登陆后获取的key,隔段时间更新,这个key应该在哪里获得

**wechat_articles_spider/wechatarticles/ArticlesUrls.py**中的注释如下: ```python def get_urls(self, nickname=None, biz=None, begin=0, count=5): """ 获取公众号的每页的文章信息 Parameters ---------- nickname : str 需要爬取公众号名称 biz : str 需要爬取公众号的biz, 优先 begin: str or int 起始爬取的页数 count: str or int...

我上个月还是可以抓到的这个接口的,但是之后一次微信强制更新,fiddle就抓不到这个了。 ![image](https://github.com/wnma3mz/wechat_articles_spider/assets/76757657/fdc62b20-47ef-496c-9ba2-51126248443d)