crawlab icon indicating copy to clipboard operation
crawlab copied to clipboard

请问大佬每次新建一个爬虫,都需要配置一次git吗?

Open Lu-dashuai opened this issue 2 years ago • 4 comments

当很多爬虫脚本 python3 test/xxx.py python3 test/xxx1.py python3 test/xxx1.py 要新建三次爬虫,只是目录不同,但是在一个项目中,是不是要配置三次git提交,拉下来是三套代码,是否可优化选择已经配置过的git文件,选择项目后,就可以在同一个目录下的文件进行运行, 谢谢大佬作答

Lu-dashuai avatar Jun 26 '22 09:06 Lu-dashuai

which version?

tikazyq avatar Jun 26 '22 14:06 tikazyq

v0.6.0 已经改过了吗

Lu-dashuai avatar Jun 26 '22 14:06 Lu-dashuai

which version? v0.6.0 能否将 git项目 绑定在 Project 上 而不是绑定在 Spiders 上

Lu-dashuai avatar Jun 26 '22 16:06 Lu-dashuai

我采用的方法是:直接把项目路径挂载到容器,在crawlab上新建爬虫任务的时候不上传到git,命令路径直接用挂载上去的路径,跟进一步的话直接把环境挂载进去,docker和宿主机共用一份代码,也不需要每次改动代码都要再次上传

IT-IvDragon avatar Jul 07 '22 04:07 IT-IvDragon

很好的方法,具体怎么做的呢?

pgshow avatar Nov 27 '22 08:11 pgshow

好主意

jasonz1360 avatar Mar 22 '24 01:03 jasonz1360

很好的方法,具体怎么做的呢?

找到个解决办法,挂载共用目录,这样git只需要sync一次,还省力

举例方法:

volumes:

  • "/opt/.crawlab/master:/root/.crawlab" # 持久化 crawlab 元数据
  • "/opt/crawlab/master:/data" # 持久化 crawlab 数据
  • "/var/crawlab/log:/var/log/crawlab" # 持久化 crawlab 任务日志
  • "/opt/finbase-crawlab:/root/***:rw" # 持久化 crawlab 代码

- <宿主机目录>:<容器目录>

然后在爬虫的命令里加上root/***开头

jasonz1360 avatar Mar 22 '24 02:03 jasonz1360