cb-spider
cb-spider copied to clipboard
[GCP:GPU] Unable to Provision VMs with GPU Accelerators
from) https://github.com/cloud-barista/cb-spider/issues/1124
[현황]
- 현재 최신 Spider 버전(v0.8.9)은 GCP의 경우 GPU-VM(GPU를 포함하는 VM) 배포시 다음 오류가 발생합니다.
{"message":"googleapi: Error 400: Instances with guest accelerators do not support live migration., badRequest"}
[사유]
- VM은 Maintenance 옵션으로 기본 배포되며, 이 경우 live migration이 가능하도록 배포되는데
- GPU-VM은 live migration이 불가하여 GPU-VM 배포 시에는 VM을 Maintenance Off 설정으로 배포해야 함
[방안]
- 현재
live migration
이 적극 사용되지 않으니 다음처럼 임시 코드 블록을 추가하여- https://github.com/cloud-barista/cb-spider/commit/841ec6c60c71f7793233f5eb36f12754c42ae240
- VM
live migration
기능을 차단 시킨 버전(v0.8.10)을 사용할 수 있도록 빠르게 배포하였습니다.
- 그 사이,
-
드라이버팀에서 정식 버전으로 Patch 부탁드립니다.
- 임시 Patch 참고: https://github.com/cloud-barista/cb-spider/commit/841ec6c60c71f7793233f5eb36f12754c42ae240
- 현재는 모든 VM 배포시 Maintenance를 Off시킨 상태이어서, GPU-VM일 경우에만 Off 설정으로 반영 및 시험이 필요합니다.
- 참고: StartVM() 내부에서 GPU-VM 요청인 걸 판단할 수 있으면 Best인데, 대안으로 다음과 같은 방법도 고려해봐 주시기 바랍니다.
- (1) 기존처럼 별도 설정 없는 Maintenance 설정으로 GPU-VM 배포 시도,
- (2) GPU-VM의 경우 '~not support live migration' 에러가 발생
- (3) '~not support live migration' 오류일 경우에만, Maintenance Off 설정으로 GPU-VM을 재배포 시도
- 다른 오류 발생시: error 반환 및 종료
@seokho-son
[GCP GPU-VM 활용 방법]
- CB-Spider v0.8.10 이상을 사용합니다.
- 다음 VM Spec 중 하나를 선택합니다.
- 이미지는 기존 public image를 선택 가능합니다.
- AI 프레임워크 등이 설치된 이미지도 제공하는 것 같긴 한데,
- 직접 테스트는 해보지 않았습니다.
[시험 환경 및 현황]
- Version: CB-Spider v0.8.10
- Region: us-central1 / us-central1-a (Ohio)
- Image:
https://www.googleapis.com/compute/v1/projects/ubuntu-os-cloud/global/images/ubuntu-2204-jammy-v20240319
- Spec:
a2-highgpu-1g
- GPU 부착 확인: VM 로그인 후 다음 실행
lspci |grep NVIDIA 00:04.0 3D controller: NVIDIA Corporation GA100 [A100 SXM4 40GB] (rev a1)
- 이후 NVIDIA Driver, SDK 등 설치 후 사용 가능할 것으로 보입니다.
- GCP 가이드 참고: GPU 드라이버 설치