cb-spider icon indicating copy to clipboard operation
cb-spider copied to clipboard

[GCP:GPU] Unable to Provision VMs with GPU Accelerators

Open powerkimhub opened this issue 11 months ago • 0 comments

from) https://github.com/cloud-barista/cb-spider/issues/1124


[현황]

  • 현재 최신 Spider 버전(v0.8.9)은 GCP의 경우 GPU-VM(GPU를 포함하는 VM) 배포시 다음 오류가 발생합니다.
    {"message":"googleapi: Error 400: Instances with guest accelerators do not support live migration., badRequest"}
    

[사유]

  • VM은 Maintenance 옵션으로 기본 배포되며, 이 경우 live migration이 가능하도록 배포되는데
  • GPU-VM은 live migration이 불가하여 GPU-VM 배포 시에는 VM을 Maintenance Off 설정으로 배포해야 함

[방안]

  • 현재 live migration이 적극 사용되지 않으니 다음처럼 임시 코드 블록을 추가하여
    • https://github.com/cloud-barista/cb-spider/commit/841ec6c60c71f7793233f5eb36f12754c42ae240
  • VM live migration 기능을 차단 시킨 버전(v0.8.10)을 사용할 수 있도록 빠르게 배포하였습니다.

  • 그 사이,
  • 드라이버팀에서 정식 버전으로 Patch 부탁드립니다.

    • 임시 Patch 참고: https://github.com/cloud-barista/cb-spider/commit/841ec6c60c71f7793233f5eb36f12754c42ae240
    • 현재는 모든 VM 배포시 Maintenance를 Off시킨 상태이어서, GPU-VM일 경우에만 Off 설정으로 반영 및 시험이 필요합니다.
  • 참고: StartVM() 내부에서 GPU-VM 요청인 걸 판단할 수 있으면 Best인데, 대안으로 다음과 같은 방법도 고려해봐 주시기 바랍니다.
    • (1) 기존처럼 별도 설정 없는 Maintenance 설정으로 GPU-VM 배포 시도,
    • (2) GPU-VM의 경우 '~not support live migration' 에러가 발생
    • (3) '~not support live migration' 오류일 경우에만, Maintenance Off 설정으로 GPU-VM을 재배포 시도
      • 다른 오류 발생시: error 반환 및 종료


@seokho-son


[GCP GPU-VM 활용 방법]

  • CB-Spider v0.8.10 이상을 사용합니다.
  • 다음 VM Spec 중 하나를 선택합니다. image

[시험 환경 및 현황]

  • Version: CB-Spider v0.8.10
  • Region: us-central1 / us-central1-a (Ohio)
  • Image: https://www.googleapis.com/compute/v1/projects/ubuntu-os-cloud/global/images/ubuntu-2204-jammy-v20240319
  • Spec: a2-highgpu-1g
  • GPU 부착 확인: VM 로그인 후 다음 실행
    lspci |grep NVIDIA
    00:04.0 3D controller: NVIDIA Corporation GA100 [A100 SXM4 40GB] (rev a1)
    
  • 이후 NVIDIA Driver, SDK 등 설치 후 사용 가능할 것으로 보입니다.

powerkimhub avatar Mar 22 '24 07:03 powerkimhub