feapder issues

**需知** 升级feapder，保证feapder是最新版，若BUG仍然存在，则详细描述问题 > pip install --upgrade feapder **问题** 1.照著官方文件範例,為什麼會自動啟動selenium? 2.啟動後會出現此錯誤 3.批次訓練理應來說應該是時間到了會自動執行,為何官方範例上執行成功後程式會結束且會出現時間未到的字眼? **截图** ![image](https://github.com/Boris-code/feapder/assets/53620614/e2b505f4-2289-490f-9f4e-4caff73a5eec) **代码** ```python ```

bruce601080102

指定parser_name和callback不生效

1

feapder 1.8.9 **问题** 需求是对不同的网址采用不同的解析方式,但指定了parser_name和callback无效,相应位置打断点也不会进 **截图** 目录结构 ![image](https://github.com/Boris-code/feapder/assets/73523505/986c47df-fb79-4d9c-8341-63770a54a424) **代码** 第一种尝试 ```python if 'weixin.qq.com' in i.xpath('./div[1]/a/@href')[0]: yield feapder.Request(url=i.xpath('./div[1]/a/@href')[0], parser_name='WechatOfficialAccount', name='CompanyDynamics', time_l=i.xpath('./div[2]/div[2]/span/text()')[0],download_midware=self.download_midware) ``` 第二种尝试(引入类) ```python if 'weixin.qq.com' in i.xpath('./div[1]/a/@href')[0]: yield feapder.Request(url=i.xpath('./div[1]/a/@href')[0], parser_name=WechatOfficialAccount, name='CompanyDynamics',...

s2485523800

feapder v1.8.8 使用代理IP报错？

2

**需知** 升级feapder，保证feapder是最新版，若BUG仍然存在，则详细描述问题 > pip install --upgrade feapder **问题** 升级 feapder v1.8.8 后在 `setting.py` 中配置代理后使用报错 **截图** ![1](https://github.com/Boris-code/feapder/assets/49554285/40a4a2e7-4fdc-4b32-a8b6-71b7c9072277) **代码** ```python # # 设置代理 PROXY_EXTRACT_API = 'http://api.proxy.ipidea.io/getProxyIp?num=10&xxxxx' # 代理提取API ，返回的代理分割符为\r\n PROXY_ENABLE = True...

suyinLoong

单机多进程模式下，MySQL 连接报错：通常每个套接字地址(协议/网络地址/端口)只允许使用一次

1

我没有使用 feapder.BatchSpider 之类的爬虫进行操作，只是写了个脚本来处理文件，手动创建 UpdateItem 对象，然后 PIPELINE.update_items 入库，单进程的情况下没有一点问题，挂了一晚上 6w 多数据也都正常入库但是当我多开几个进程的时候，不到 5 分钟就报错了，我修改了 MySQL 连接数最大值也没用，报错内容如下： MainThread|2023-07-04 14:01:09,577|mysqldb.py|__init__|line:76|ERROR| 连接失败： ip: localhost port: 3306 db: xxxxxx user_name: xxxxxx user_pass: xxxxxx exception: (2003, "Can't...

YufengSoft

因为代理实效导致的重试还是使用实效的那个IP

5

**需知** 升级feapder，保证feapder是最新版，若BUG仍然存在，则详细描述问题 > pip install --upgrade feapder **问题** 对网站进行爬虫的时候，代理池一次获取20个代理，网站针对IP有访问频率的限制，所以我们的策略是在request_exeption里面去掉正在使用的代理，我们以为重试的时候会使用新的代理IP，但在实际使用的时候发现重试的代理IP还是失败的时候提高的代理。这样的话失败重试就没有意义了。所以想能够设置个自定以配置，能够决定在请求失败的时候重新从代理池里面拿IP。 **截图** **代码** ```python ```

ubadly

selenium可过Cloudflare检测

1

修改库依赖；第245行，换了实例化的方法；第189，190行注释掉了，因为用undetected_chromedriver时这两个参数会导致Chrome闪退；但是不知道咋结合源代码，根据use_stealth_js的布尔值进行判断用哪个来实例化；

ShellMonster

playwright 1.31.1的版本，开配置开启use_stealth_js=True时，会报错

2

**问题** feapder版本1.8.5，playright 1.31.1 使用playright渲染时，开配置开启use_stealth_js=True时，会报错，内容为："RuntimeError: cannot schedule new futures after interpreter shutdown" **代码** ```python import time from playwright.sync_api import Page import feapder from feapder.utils.webdriver import PlaywrightDriver class TestPlaywright(feapder.AirSpider): __custom_setting__ = dict(...

demo1024

ERROR | logging:exception:line:1524 | global flags not at the start of the expression at position 2

2

**已经升级最新版本** **运行环境** Python 3.11.2 Playwrigh for Python 1.32.1 Pycharm 2023.1 **问题** ERROR | logging:exception:line:1524 | global flags not at the start of the expression at position 2 **截图** ![img-2023 04...

LinMu746

使用selenium或者PlayWright 都指定了thread_count 但是无法打开多个浏览器

rottengeek

feapder
feapder copied to clipboard

Metadata

PLAYWRIGHT 默认开启无痕

關於BatchSpider

指定parser_name和callback不生效

feapder v1.8.8 使用代理IP报错？

单机多进程模式下，MySQL 连接报错：通常每个套接字地址(协议/网络地址/端口)只允许使用一次

因为代理实效导致的重试还是使用实效的那个IP

selenium可过Cloudflare检测

playwright 1.31.1的版本，开配置开启use_stealth_js=True时，会报错

ERROR | logging:exception:line:1524 | global flags not at the start of the expression at position 2

使用selenium或者PlayWright 都指定了thread_count 但是无法打开多个浏览器

← Metadata

Owner

Metadata

feapder feapder copied to clipboard

Metadata

← Metadata

Owner

Metadata

feapder
feapder copied to clipboard