feapder icon indicating copy to clipboard operation
feapder copied to clipboard

🚀🚀🚀feapder is an easy to use, powerful crawler framework | feapder是一款上手简单,功能强大的Python爬虫框架。内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。且支持断点续爬...

Results 132 feapder issues
Sort by recently updated
recently updated
newest added

请问在哪里可以关闭

**需知** 升级feapder,保证feapder是最新版,若BUG仍然存在,则详细描述问题 > pip install --upgrade feapder **问题** 1.照著官方文件範例,為什麼會自動啟動selenium? 2.啟動後會出現此錯誤 3.批次訓練理應來說應該是時間到了會自動執行,為何官方範例上執行成功後程式會結束且會出現時間未到的字眼? **截图** ![image](https://github.com/Boris-code/feapder/assets/53620614/e2b505f4-2289-490f-9f4e-4caff73a5eec) **代码** ```python ```

feapder 1.8.9 **问题** 需求是对不同的网址采用不同的解析方式,但指定了parser_name和callback无效,相应位置打断点也不会进 **截图** 目录结构 ![image](https://github.com/Boris-code/feapder/assets/73523505/986c47df-fb79-4d9c-8341-63770a54a424) **代码** 第一种尝试 ```python if 'weixin.qq.com' in i.xpath('./div[1]/a/@href')[0]: yield feapder.Request(url=i.xpath('./div[1]/a/@href')[0], parser_name='WechatOfficialAccount', name='CompanyDynamics', time_l=i.xpath('./div[2]/div[2]/span/text()')[0],download_midware=self.download_midware) ``` 第二种尝试(引入类) ```python if 'weixin.qq.com' in i.xpath('./div[1]/a/@href')[0]: yield feapder.Request(url=i.xpath('./div[1]/a/@href')[0], parser_name=WechatOfficialAccount, name='CompanyDynamics',...

**需知** 升级feapder,保证feapder是最新版,若BUG仍然存在,则详细描述问题 > pip install --upgrade feapder **问题** 升级 feapder v1.8.8 后在 `setting.py` 中配置代理后使用报错 **截图** ![1](https://github.com/Boris-code/feapder/assets/49554285/40a4a2e7-4fdc-4b32-a8b6-71b7c9072277) **代码** ```python # # 设置代理 PROXY_EXTRACT_API = 'http://api.proxy.ipidea.io/getProxyIp?num=10&xxxxx' # 代理提取API ,返回的代理分割符为\r\n PROXY_ENABLE = True...

我没有使用 feapder.BatchSpider 之类的爬虫进行操作,只是写了个脚本来处理文件,手动创建 UpdateItem 对象,然后 PIPELINE.update_items 入库,单进程的情况下没有一点问题,挂了一晚上 6w 多数据也都正常入库 但是当我多开几个进程的时候,不到 5 分钟就报错了,我修改了 MySQL 连接数最大值也没用,报错内容如下: MainThread|2023-07-04 14:01:09,577|mysqldb.py|__init__|line:76|ERROR| 连接失败: ip: localhost port: 3306 db: xxxxxx user_name: xxxxxx user_pass: xxxxxx exception: (2003, "Can't...

**需知** 升级feapder,保证feapder是最新版,若BUG仍然存在,则详细描述问题 > pip install --upgrade feapder **问题** 对网站进行爬虫的时候,代理池一次获取20个代理,网站针对IP有访问频率的限制,所以我们的策略是在request_exeption里面去掉正在使用的代理,我们以为重试的时候会使用新的代理IP,但在实际使用的时候发现重试的代理IP还是失败的时候提高的代理。这样的话失败重试就没有意义了。所以想能够设置个自定以配置,能够决定在请求失败的时候重新从代理池里面拿IP。 **截图** **代码** ```python ```

修改库依赖; 第245行,换了实例化的方法; 第189,190行注释掉了,因为用undetected_chromedriver时这两个参数会导致Chrome闪退; 但是不知道咋结合源代码,根据use_stealth_js的布尔值进行判断用哪个来实例化;

**问题** feapder版本1.8.5,playright 1.31.1 使用playright渲染时,开配置开启use_stealth_js=True时,会报错,内容为:"RuntimeError: cannot schedule new futures after interpreter shutdown" **代码** ```python import time from playwright.sync_api import Page import feapder from feapder.utils.webdriver import PlaywrightDriver class TestPlaywright(feapder.AirSpider): __custom_setting__ = dict(...

**已经升级最新版本** **运行环境** Python 3.11.2 Playwrigh for Python 1.32.1 Pycharm 2023.1 **问题** ERROR | logging:exception:line:1524 | global flags not at the start of the expression at position 2 **截图** ![img-2023 04...

使用selenium或者PlayWright 都指定了thread_count 但是无法打开多个浏览器