AI 기반 애플리케이션 및 서비스를 배포하는 것은 기업들에게 많은 도전 과제를 제시합니다:
- 성능: 성능은 사용자 경험과 경쟁 우위를 직접적으로 결정하며, 배포 비용에 영향을 미쳐 전체 투자 수익률(ROI)에 영향을 미칩니다.
- 확장성: 배포된 AI 애플리케이션이 변화하는 수요를 효과적으로 충족하기 위해 확장성을 확보하는 것이 중요합니다. 이는 성수기 동안 원활한 운영을 위해 자원을 동적으로 확장하고, 조용한 시간에는 비용 최적화를 위해 자원을 축소하는 것을 의미합니다.
- 복잡성: 여러 AI 모델의 성능을 최적화하고 이를 기존 워크플로우에 원활하게 통합하며, 기본 인프라를 관리하는 등의 작업이 복잡성을 가중시킵니다.
이러한 문제를 해결하기 위해서는 성능을 최적화하고, 확장성을 효과적으로 관리하며, 배포의 복잡성을 해결하는 전체적인 접근 방식이 필요합니다. 이를 통해 조직은 AI의 잠재력을 최대한 발휘하면서 운영 효율성과 비용 효율성을 유지할 수 있습니다.
Google Cloud와 NVIDIA는 이러한 도전 과제를 해결하고 AI 추론 배포를 단순화하기 위해 협력하여, NVIDIA AI 플랫폼의 성능과 클라우드에서 서버리스 컴퓨팅의 편리함을 결합했습니다.
Google Cloud의 완전 관리형 서버리스 컨테이너 런타임인 Cloud Run은 이제 NVIDIA L4 텐서 코어 GPU에 대한 지원을 추가하여 프리뷰 상태로 제공됩니다. 이를 통해 인프라 관리에 대한 걱정 없이 온디맨드 실시간 AI 애플리케이션을 대규모로 실행할 수 있습니다. NVIDIA NIM 마이크로서비스의 강력한 기능과 결합하면, Cloud Run은 AI 모델의 최적화와 생산 환경에서의 제공을 크게 단순화하면서 애플리케이션 성능을 극대화할 수 있습니다.
실시간 AI 애플리케이션 배포

Cloud Run은 인프라 관리를 추상화하고 요청에 따라 리소스를 동적으로 할당하여 컨테이너화된 애플리케이션을 배포하고 실행할 수 있게 해줍니다. Cloud Run은 들어오는 트래픽에 따라 애플리케이션을 자동으로 확장하므로, 피크 부하를 처리하기 위해 과도한 컴퓨팅 자원을 프로비저닝할 필요가 없습니다. 빠른 인스턴스 시작과 0으로의 확장 기능 덕분에 수요가 적은 기간 동안 유휴 리소스를 유지할 필요도 없습니다.
Cloud Run의 NVIDIA L4 텐서 코어 GPU 지원은 이전의 CPU 전용 제품에서 큰 도약을 의미합니다.
NVIDIA L4 GPU는 추천 시스템, 음성 기반 AI 비서, 생성 AI, 비주얼 검색, 컨택 센터 자동화 등 다양한 AI 애플리케이션에 대해 대규모 추론을 최적화하여 최고의 개인화된 경험을 제공합니다. L4 GPU는 CPU 솔루션에 비해 최대 120배 높은 AI 비디오 성능과 이전 세대에 비해 2.7배 더 높은 생성 AI 추론 성능을 제공합니다.
Google Cloud는 G2 VM과 함께 NVIDIA L4 GPU를 처음 제공한 클라우드 서비스로, Google Compute Engine(GCE), Google Kubernetes Engine(GKE), Vertex AI 등 Google Cloud 서비스 전반에서 지원됩니다.
Let’s Enhance, Wombo, Writer, Descript, AppLovin과 같은 기업들은 NVIDIA L4 GPU의 강력한 성능을 활용해 생성 AI 기반 애플리케이션을 현실화하고 고객들에게 즐거운 경험을 선사하고 있습니다.
Cloud Run에서 NVIDIA L4 지원을 추가함으로써 Gemma-2B/7B, Llama3-8B, Mistral-8x7B와 같은 경량 생성 AI 모델을 사용하는 실시간 추론 애플리케이션을 배포할 수 있습니다. 이는 Cloud Run의 서버리스 플랫폼의 확장성, 초 단위 과금, 저지연, 빠른 콜드 스타트 시간과 결합됩니다.
성능 최적화된 서버리스 AI 추론
배포되는 AI 모델의 성능을 최적화하는 것은 필수적입니다. 이는 필요한 리소스에 직접적인 영향을 미치며, AI 애플리케이션 배포 비용에도 영향을 미칩니다.
이 문제를 해결하기 위해 NVIDIA NIM이 도입되었습니다. NIM은 AI 모델의 배포를 단순화하고 가속화하기 위해 설계된 클라우드 네이티브 마이크로서비스 집합입니다. NIM은 사전 최적화된 컨테이너화된 모델을 제공하여 개발 시간을 단축하고 자원 효율성을 극대화합니다.
Cloud Run에서 NVIDIA NIM을 사용하면, NVIDIA L4 GPU의 잠재력을 최대한 활용하고 최상의 처리량과 지연 시간을 제공하는 최적화된 추론 엔진을 사용하여 고성능 AI 애플리케이션을 배포할 수 있습니다. 이는 추론 성능 최적화에 대한 전문 지식 없이도 가능합니다.
NVIDIA AI Enterprise의 일부로 Google Cloud Marketplace에서 제공되는 NIM은 OpenAI API 호환 프로그래밍 모델 및 사용자 정의 확장을 통해 유연한 통합을 제공합니다. 또한 safetensors를 사용하고, CVE를 지속적으로 모니터링하고 패치하며, 정기적으로 내부 침투 테스트를 수행하여 엔터프라이즈급 보안을 우선시합니다. 이를 통해 AI 애플리케이션이 견고하고 안전하며, 개발에서 프로덕션으로의 원활한 전환을 지원합니다.
Cloud Run 외에도 NVIDIA NIM은 Google Kubernetes Engine(GKE)이나 Google Compute Engine(GCE) 등 Google Cloud 서비스 전반에 걸쳐 배포할 수 있어, AI 애플리케이션을 구축하고 배포할 때 필요한 추상화 수준을 선택할 수 있습니다.
NVIDIA L4를 사용하여 Google Cloud Run에 Llama3-8B-Instruct NIM 마이크로서비스 배포
다음은 NVIDIA L4 GPU를 사용하여 Cloud Run에서 Llama3-8B-Instruct 모델을 배포하는 방법입니다. Cloud Run은 현재 인스턴스당 하나의 NVIDIA L4 GPU를 연결하는 것을 지원합니다. 사전 준비로 워크스테이션에 Google Cloud SDK를 설치해야 합니다.
- 리포지토리를 클론합니다:
$ git clone https://github.com/NVIDIA/nim-deploy
$ cd nim-deploy/cloud-service-providers/google-cloud/cloudrun
- 실행에 필요한 환경 변수를 설정합니다:
$ cat env
export SERVICE_ACCOUNT_ID=<서비스 계정 ID>
export PROJECTID=<프로젝트 ID>
export PROJECTUSER=<사용자 이름>
export PROJECTNUM=<프로젝트 번호>
export REGION=<지역>
export GCSBUCKET=<GCS 버킷>
export SERVICE_NAME=llama-3-8b-instruct
- 배포에 필요한 NIM 마이크로서비스 이름으로 Dockerfile을 수정합니다. 원하는 모델 URL을 NGC의 FROM 구문에 입력합니다:
FROM nvcr.io/nim/meta/llama3-8b-instruct:1.0.0
- 컨테이너를 빌드합니다:
$ source ./env && ./build_nim.sh
- run.sh 스크립트를 실행하여 컨테이너를 배포합니다:
$ source ./env && ./run.sh
NVIDIA AI 플랫폼(NVIDIA NIM 및 NVIDIA L4 GPU 포함)과 Google Cloud Run의 강력한 조합
NVIDIA AI 플랫폼(NVIDIA NIM 및 NVIDIA L4 GPU 포함)과 Google Cloud Run의 강력한 조합은 AI 애플리케이션 배포의 성능, 확장성, 복잡성과 같은 주요 과제를 해결합니다. 이 시너지는 배포를 가속화하고 애플리케이션 성능을 향상시켜, 조직이 AI를 최대한 활용하면서 운영 효율성과 비용을 최적화할 수 있도록 도와줍니다.
NVIDIA API 카탈로그를 통해 NVIDIA NIM 마이크로서비스를 체험하고 프로토타입을 제작할 수 있으며, 이후 NVIDIA 개발자 프로그램의 일환으로 Google Cloud Run에서 개발, 연구 및 테스트를 계속할 수 있습니다.
엔터프라이즈급 보안, 지원 및 API 안정성을 원한다면 무료 90일 NVIDIA AI Enterprise 라이센스를 통해 NIM에 접근할 수 있습니다. 또한 NVIDIA LaunchPad에서 NIM을 사용해 실습해볼 수도 있습니다.
Cloud Run의 NVIDIA L4 GPU 지원은 현재 프리뷰 상태로 제공되며, us-central1 Google Cloud 리전에서 사용할 수 있습니다. 이 기능에 대한 자세한 정보를 확인하고 데모를 확인하려면 출시 이벤트 라이브 스트림을 시청하고 지금 액세스를 신청하세요!