crawlab icon indicating copy to clipboard operation
crawlab copied to clipboard

【需求汇总】请大家在这个 Issue 中提优化反馈

Open tikazyq opened this issue 4 years ago • 40 comments

tikazyq avatar Jun 05 '20 02:06 tikazyq

关于爬虫的上传部署,不知道能不能增加git等方式的代码上传,这样每次重启能自动拉取最新代码去跑

请参考这个文档 https://docs.crawlab.cn/zh/CI/Git.html

tikazyq avatar Jun 23 '20 14:06 tikazyq

爬虫详情的scrapy配置,能不能支持读取多种配置文件。我看了下源码,目前只读取了default配置。default一般为本地配置,放服务器上面老是解析报错。

orchidshype avatar Jun 30 '20 02:06 orchidshype

image image 访问scrapy配置页面总是有这种错误,但是爬虫可以正常运行。

orchidshype avatar Jun 30 '20 02:06 orchidshype

git里面不能切换分支,选择其他分支后,仍然自动切换到master。这种问题怎么解决呢

orchidshype avatar Jun 30 '20 08:06 orchidshype

git使用ssh拉取代码,出现以下错误 first path segment in URL cannot contain colon

orchidshype avatar Jun 30 '20 08:06 orchidshype

@selerisjava 可以在新开的issue里详细描述一下

tikazyq avatar Jun 30 '20 09:06 tikazyq

从git下拉代码能只指定一个目录吗?有很多爬虫代码不多,几十个爬虫就有几十个git库,配置起来有点烦

larryliao avatar Jul 09 '20 10:07 larryliao

从git下拉代码能只指定一个目录吗?有很多爬虫代码不多,几十个爬虫就有几十个git库,配置起来有点烦

不好意思,暂时不支持,您可以考虑配合 CLI 工具来上传爬虫代码

tikazyq avatar Jul 09 '20 13:07 tikazyq

image

报错,打开链接显示 {"status":"ok","message":"unauthorized","data":null,"error":"unauthorized"}

爬虫代码是通过cli方式上传的 服务器运行scrapy crawl spider_name正常

mingzhongshui avatar Aug 07 '20 07:08 mingzhongshui

image 初始化node失败 是什么原因啊? 配置那改ip也不行。

diaozhegenyan avatar Aug 08 '20 23:08 diaozhegenyan

始化node失败 是什么原因啊? 配置那改ip也不行。

怎么配置的?看起来像配置问题

tikazyq avatar Aug 10 '20 01:08 tikazyq

不清楚呢,重新弄了 现在可以了。

diaozhegenyan avatar Aug 11 '20 18:08 diaozhegenyan

Failed to launch the browser process image

zhuangdx avatar Aug 25 '20 07:08 zhuangdx

Failed to launch the browser process image

估计是没有安装相应的库导致的,可以搜索一下“ubuntu puppeteer docker"

tikazyq avatar Aug 25 '20 07:08 tikazyq

scrapy项目上传,爬虫解压的逻辑 正常在本地打包项目,如果进入项目中进行压缩感觉有些反人类的操作 在后台创建文件的目录树:

└── test2
    ├── md5.txt
    ├── scrapy.cfg
    └── test2
        ├── __init__.py
        ├── __pycache__
        │   ├── __init__.cpython-38.pyc
        │   └── settings.cpython-38.pyc
        ├── items.py
        ├── middlewares.py
        ├── pipelines.py
        ├── settings.py
        └── spiders
上传文件自动解压的目录树:
└── test_spider
    ├──  md5.txt
    └──  test_spider
        ├──  scrapy.cfg
        └── test_spider
            ├── __init__.py
            ├── __pycache__
            ├── items.py
            ├── middlewares.py
            ├── pipelines.py
            ├── settings.py
            └── spiders

多创建了一层文件夹

stone0018 avatar Sep 02 '20 07:09 stone0018

scrapy项目上传,爬虫解压的逻辑 正常在本地打包项目,如果进入项目中进行压缩感觉有些反人类的操作 在后台创建文件的目录树:

└── test2
    ├── md5.txt
    ├── scrapy.cfg
    └── test2
        ├── __init__.py
        ├── __pycache__
        │   ├── __init__.cpython-38.pyc
        │   └── settings.cpython-38.pyc
        ├── items.py
        ├── middlewares.py
        ├── pipelines.py
        ├── settings.py
        └── spiders
上传文件自动解压的目录树:
└── test_spider
    ├──  md5.txt
    └──  test_spider
        ├──  scrapy.cfg
        └── test_spider
            ├── __init__.py
            ├── __pycache__
            ├── items.py
            ├── middlewares.py
            ├── pipelines.py
            ├── settings.py
            └── spiders

多创建了一层文件夹

请关注这个 issue https://github.com/crawlab-team/crawlab/issues/836

tikazyq avatar Sep 02 '20 08:09 tikazyq

优化建议 1.网页错误提示建议全部取消,仅保留能够给予使用者实质性帮助的提示。
目前使用下来,除了登陆时的密码错误提示,其他提示对使用者毫无意义。 增加干扰率,降低使用体验,降低安全感。。。 2.打开网页时cpu占用率太高。 当前最需要时效的交互应该时日志显示页面,除了此页面外,其他页面底层交互频率可以适当减少。 3.任务假活状态有待优化 4.宿主机多个硬盘检测 5.模版yml中建议添加限制日志大小 6.任务详情建议增加一栏爬虫进程PID号显示

Tang-1 avatar Sep 03 '20 03:09 Tang-1

建议添加日志下载功能

LBatsoft avatar Sep 10 '20 02:09 LBatsoft

请问一下开发大佬,在使用selenium时候如何配置驱动的路径executable_path呢?

vegaviazhang avatar Oct 08 '20 11:10 vegaviazhang

建议增加请求等待的Loading 效果

CL545740896 avatar Oct 21 '20 03:10 CL545740896

页面打开CPU 占用率很高,经常会发生卡死界面,需要优化

CL545740896 avatar Oct 21 '20 03:10 CL545740896

获取请求返回的数据 经常也会出现报错

CL545740896 avatar Oct 21 '20 03:10 CL545740896

  1. 同一个爬虫,创建多个参数不同爬虫任务,期望这些爬虫任务可以简单分组。

eheh-org avatar Oct 22 '20 06:10 eheh-org

請問docker image可以支援ARM CPU版本嗎

KevinLiou avatar Nov 18 '20 04:11 KevinLiou

修改用户密码后,已使用这个账号登录的用户不需要重新登录,仍然可以继续正常操作。建议对修改密码后的账号重新验证

tsonglew avatar Dec 11 '20 02:12 tsonglew

我需要将自己封装的一个包添加到crawlab依赖里面。 比如items会被若干个不同scrapy project用到,所以抽象成为一个ours_common库里面,且具体project里面会import到

BuGoNee avatar Mar 10 '21 10:03 BuGoNee

任务假活状态有待优化 +1

nieweiming avatar Jul 08 '21 10:07 nieweiming

请问自动提取功能新版有集成吗?爬取大量类似网站需要这个

0utman1 avatar Aug 15 '21 08:08 0utman1

同一个Spider中配置多个任务(通过参数区分),在多 runner 情形下,经常会报文件缺失错误。设置为1个runner则不报错。 image image image image

kuangcaibao avatar Aug 24 '21 03:08 kuangcaibao

爬虫任务起来后,看任务日志一直卡着,比它后启动的爬虫都可以正常爬取,这是什么原因? 另外:多机部署,一台master + 一台worker 是否可以? image

motingjun avatar Aug 28 '21 08:08 motingjun