Jung-ChanYoung
Jung-ChanYoung
# 이슈 설명 * 현재 Docker허브 url이 유효한지 파악하지 않는다. 따라서 끝나지 않는 학습이나 학습이 아닌 정보에 대해서 판단하는 로직이 없다. * 이 과정에서 gpu manager 가 아무런 작업을 하지...
# 이슈 설명 * 각자 생각한 성능 측정 기술에 대해 고려한다 * 성능 측정 툴 * 성능 측정 분야(압축, 캐시) * 성능 측정 시나리오
# 이슈 설명 - 관리자의 정책(Manager) - 일반 사용자의 정책(User) - 어드민 계정의 정책(Admin)
# 이슈 설명 - GPU 매니저가 여러 개의 학습이 돌아갈 경우 CPU, GPU 자원을 독점하지 않도록 정책이 필요하다. === * 설정된 TFLOPS 값을 받아서 처리할 것인가?(로컬 하드웨어 스펙과 서버와의 동기화...
# 이슈 설명 - 현재는 무조건 지정된 이미지만 동작한다 - 입력받은 url으로 구동한다 - 에러가 발생했을 시 서버의 상태를 fail으로 변경한다 - private repo에도 입력 받을 수 있도록 키(아이디 패스워드...
# 이슈 설명 - 현재 Job 은 /status 로 관리하고 있다. 그러나 보안 관련 문제가 있기 때문에 해당 정책을 지정하고 구현해야 한다