crawlab
crawlab copied to clipboard
【需求汇总】请大家在这个 Issue 中提优化反馈
关于爬虫的上传部署,不知道能不能增加git等方式的代码上传,这样每次重启能自动拉取最新代码去跑
请参考这个文档 https://docs.crawlab.cn/zh/CI/Git.html
爬虫详情的scrapy配置,能不能支持读取多种配置文件。我看了下源码,目前只读取了default配置。default一般为本地配置,放服务器上面老是解析报错。
访问scrapy配置页面总是有这种错误,但是爬虫可以正常运行。
git里面不能切换分支,选择其他分支后,仍然自动切换到master。这种问题怎么解决呢
git使用ssh拉取代码,出现以下错误 first path segment in URL cannot contain colon
@selerisjava 可以在新开的issue里详细描述一下
从git下拉代码能只指定一个目录吗?有很多爬虫代码不多,几十个爬虫就有几十个git库,配置起来有点烦
从git下拉代码能只指定一个目录吗?有很多爬虫代码不多,几十个爬虫就有几十个git库,配置起来有点烦
不好意思,暂时不支持,您可以考虑配合 CLI 工具来上传爬虫代码
报错,打开链接显示 {"status":"ok","message":"unauthorized","data":null,"error":"unauthorized"}
爬虫代码是通过cli方式上传的 服务器运行scrapy crawl spider_name正常
初始化node失败 是什么原因啊? 配置那改ip也不行。
始化node失败 是什么原因啊? 配置那改ip也不行。
怎么配置的?看起来像配置问题
不清楚呢,重新弄了 现在可以了。
Failed to launch the browser process
Failed to launch the browser process
估计是没有安装相应的库导致的,可以搜索一下“ubuntu puppeteer docker"
scrapy项目上传,爬虫解压的逻辑 正常在本地打包项目,如果进入项目中进行压缩感觉有些反人类的操作 在后台创建文件的目录树:
└── test2
├── md5.txt
├── scrapy.cfg
└── test2
├── __init__.py
├── __pycache__
│ ├── __init__.cpython-38.pyc
│ └── settings.cpython-38.pyc
├── items.py
├── middlewares.py
├── pipelines.py
├── settings.py
└── spiders
上传文件自动解压的目录树:
└── test_spider
├── md5.txt
└── test_spider
├── scrapy.cfg
└── test_spider
├── __init__.py
├── __pycache__
├── items.py
├── middlewares.py
├── pipelines.py
├── settings.py
└── spiders
多创建了一层文件夹
scrapy项目上传,爬虫解压的逻辑 正常在本地打包项目,如果进入项目中进行压缩感觉有些反人类的操作 在后台创建文件的目录树:
└── test2 ├── md5.txt ├── scrapy.cfg └── test2 ├── __init__.py ├── __pycache__ │ ├── __init__.cpython-38.pyc │ └── settings.cpython-38.pyc ├── items.py ├── middlewares.py ├── pipelines.py ├── settings.py └── spiders
上传文件自动解压的目录树: └── test_spider ├── md5.txt └── test_spider ├── scrapy.cfg └── test_spider ├── __init__.py ├── __pycache__ ├── items.py ├── middlewares.py ├── pipelines.py ├── settings.py └── spiders
多创建了一层文件夹
请关注这个 issue https://github.com/crawlab-team/crawlab/issues/836
优化建议
1.网页错误提示建议全部取消,仅保留能够给予使用者实质性帮助的提示。
目前使用下来,除了登陆时的密码错误提示,其他提示对使用者毫无意义。
增加干扰率,降低使用体验,降低安全感。。。
2.打开网页时cpu占用率太高。
当前最需要时效的交互应该时日志显示页面,除了此页面外,其他页面底层交互频率可以适当减少。
3.任务假活状态有待优化
4.宿主机多个硬盘检测
5.模版yml中建议添加限制日志大小
6.任务详情建议增加一栏爬虫进程PID号显示
建议添加日志下载功能
请问一下开发大佬,在使用selenium时候如何配置驱动的路径executable_path呢?
建议增加请求等待的Loading 效果
页面打开CPU 占用率很高,经常会发生卡死界面,需要优化
获取请求返回的数据 经常也会出现报错
- 同一个爬虫,创建多个参数不同爬虫任务,期望这些爬虫任务可以简单分组。
請問docker image可以支援ARM CPU版本嗎
修改用户密码后,已使用这个账号登录的用户不需要重新登录,仍然可以继续正常操作。建议对修改密码后的账号重新验证
我需要将自己封装的一个包添加到crawlab依赖里面。 比如items会被若干个不同scrapy project用到,所以抽象成为一个ours_common库里面,且具体project里面会import到
任务假活状态有待优化 +1
请问自动提取功能新版有集成吗?爬取大量类似网站需要这个
同一个Spider中配置多个任务(通过参数区分),在多 runner 情形下,经常会报文件缺失错误。设置为1个runner则不报错。
爬虫任务起来后,看任务日志一直卡着,比它后启动的爬虫都可以正常爬取,这是什么原因?
另外:多机部署,一台master + 一台worker 是否可以?