galaxy
galaxy copied to clipboard
Galaxy is a cluster management system.
背景:galaxy上的任务的日志收集 需求:根据job名字,获得其中每个任务的日志路径(部署路径+podid+pidid task id + 日志路径)
命名时候,在里面加上用户填写的job name,这样方便问题追查
例如, ./galaxy pods -j 查看的时候,看不见FileServer的CPU和内存的使用情况,都是0。 另外, 之前设置软限用的是memory.soft_limit_in_bytes , 正确的方法是设置memory.excess_mode=1
一些非常的作业失败之后,没有及时报警,发现之后,现场已经丢失,无法进行排查,希望加上失败报警的机制及现场保存的机制
#287
有的机器硬件有故障,是不可能部署成功的,这时候不应该再分配任务给这个机器
机器有故障,部署不成功,但是因为机器故障,所以资源空闲,调度了很多个任务副本到机器上,通过端口号保证一个机器上只部署一个实例无效
现有的任务类型调度都是按照优先占满整机资源调度的,batch类型任务,本身优先低一些,可以考虑占用些资源碎片。