szxw

Results 9 issues of szxw

同时会向stderr打印如下日志 resolve address [这里是机器名:端口号] failed: Host not found (authoritative) 然后持续打印如下内容 libsofa_pbrpc ERROR src/sofa/pbrpc/simple_rpc_channel_impl.cc:137] CallMethod(): resolve address failed: {这里是机器名:端口号}

命名时候,在里面加上用户填写的job name,这样方便问题追查

有的机器硬件有故障,是不可能部署成功的,这时候不应该再分配任务给这个机器

机器有故障,部署不成功,但是因为机器故障,所以资源空闲,调度了很多个任务副本到机器上,通过端口号保证一个机器上只部署一个实例无效

现有的任务类型调度都是按照优先占满整机资源调度的,batch类型任务,本身优先低一些,可以考虑占用些资源碎片。

而且下载完后,没有检测是否下载成功,trace上标记为用户失败,实际上是galaxy导致的部署失败

导致任务部署的时候,会占住一个步长,而且也是资源浪费