출처: https://blogs.vmware.com/cloud-foundation/2025/06/17/generative-ai-with-vmware-private-ai-foundation-with-nvidia-on-vcf-9-0/
AI는 기업을 변화시키고 있습니다
인공지능(AI)은 산업 전반의 디지털 혁신을 주도하는 핵심 요소로 자리 잡았습니다. 특히, 생성적 AI(Generative AI, Gen AI)의 등장으로 AI의 진화는 비약적으로 발전했습니다.
가트너는 “Gen AI가 증기 기관, 전기, 인터넷의 발명만큼이나 큰 영향을 미치는 범용 기술이 될 것”이라고 전망합니다. 가트너는 Gen AI 사용이 향후 3년 동안 크게 증가할 것으로 예측합니다*.
- 2028년까지 조직의 95%가 Gen AI를 일상 업무에 통합할 것으로 예상되는데, 이는 2025년의 15%보다 증가한 수치입니다.
- 2028년까지 다중 모달리티가 기본 역량이 될 것입니다.
- 생성적 애플리케이션의 미래는 도메인 특화, 에이전트화, 멀티모달화됩니다.”
NVIDIA와 함께하는 VMware Private AI Foundation – AI의 복잡성 해결
기업은 AI 구현 시 심각한 어려움에 직면하며, 특히 개인정보 보호가 가장 중요한 문제입니다. 이러한 문제는 지적 재산권, 데이터 및 모델 접근 권한 보호와 관련이 있습니다. 퍼블릭 또는 클라우드 플랫폼에서 AI 모델을 학습하는 과정에서 의도치 않게 민감한 독점 데이터가 포함될 수 있으며, 이는 개인정보 보호 규정 및 지적 재산권 법률과 상충됩니다.
개인정보 보호 외에도, 특정 사용 사례, 업계 요구 사항 및 조직 목표를 충족하기 위해서는 적절한 대규모 언어 모델(LLM)을 선택하는 것이 매우 중요합니다. AI 환경은 복잡하고 빠르게 진화하며, 새로운 공급업체, 소프트웨어 및 구성 요소가 끊임없이 등장하고 있습니다. 이러한 복잡성은 비용을 증가시키고 성능 문제를 야기합니다.
AI와 Generative AI(Gen AI)는 상당한 인프라를 필요로 하며, 미세 조정, 사용자 지정, 배포 및 쿼리와 같은 작업은 리소스에 부담을 줄 수 있습니다. 적절한 인프라 없이는 이러한 운영을 확장하는 것이 어려워집니다. 또한, 다양한 산업과 국가에서 다양한 규정 준수 및 법적 요건을 충족해야 합니다. Gen AI 솔루션은 이러한 표준을 준수하기 위해 액세스 제어, 적절한 워크로드 배치, 감사 준비 상태를 보장해야 합니다. 이러한 과제를 해결하기 위해 Broadcom과 NVIDIA는 VMware Private AI Foundation with NVIDIA라는 공동 AI 플랫폼을 제공합니다 . Broadcom과 NVIDIA는 양사의 혁신 기술을 결합하여 AI의 잠재력을 최대한 활용하고 총소유비용(TCO)을 절감하면서 생산성을 극대화하는 것을 목표로 합니다.
이 플랫폼을 통해 기업은 대규모 언어 모델(LLM)을 미세 조정하고, 검색 증강 생성(RAG) 워크플로를 배포하고, 데이터 센터 내에서 추론 워크로드를 실행하여 개인정보 보호, 선택권, 비용, 성능 및 규정 준수와 관련된 문제를 해결할 수 있습니다.
NVIDIA 기반 VMware Private AI Foundation은 Model Store를 통한 안전한 모델 제공, Model Runtime을 통한 모델 배포 및 확장성 등의 기능을 제공하여 기업의 AI 배포를 간소화합니다. 또한, AI 워크로드를 에어갭 환경에 배포할 수 있도록 지원하고, NVIDIA NIM™을 통해 사용하기 쉬운 마이크로서비스를 제공하며, NVIDIA Blueprints를 통해 특정 사용 사례에 맞게 사전 학습된 참조 AI 워크플로를 제공합니다.
플랫폼의 아키텍처
플랫폼 아키텍처의 세부 사항을 살펴보겠습니다.
업계 최고의 프라이빗 클라우드 플랫폼인 VMware Cloud Foundation (VCF)을 기반으로 구축 및 운영되는 VMware Private AI Foundation with NVIDIA는 Private AI 패키지, NVIDIA AI Enterprise , NVIDIA NIM(NVIDIA AI Enterprise에 포함), NVIDIA LLM을 포함하고 있으며, Hugging Face 및 기타 타사 모델과 같은 다른 커뮤니티 모델에 대한 액세스를 제공합니다. VMware의 풀스택 프라이빗 클라우드 인프라 솔루션인 VCF는 AI 워크로드를 구축하고 운영하기 위한 안전하고 포괄적이며 확장 가능한 플랫폼을 제공하여 조직에 변화하는 비즈니스 요구 사항을 충족할 수 있는 민첩성, 유연성 및 확장성을 제공합니다. Private AI 패키지는 벡터 데이터베이스, 딥 러닝 VM, 데이터 인덱싱 및 검색 서비스, AI 에이전트 빌더 서비스 등의 강력한 기능을 제공하여 개인 정보 보호 및 보안을 강화하고, 인프라 관리를 간소화하며, 모델 배포를 간소화합니다.
혁신의 힘 발휘: 지금까지의 여정과 기업이 NVIDIA와 함께 VMware Private AI Foundation을 선택하는 이유
NVIDIA와 협력한 VMware Private AI Foundation은 큰 성공을 거두었으며, 기업이 인공 지능의 모든 이점을 극대화하는 동시에 데이터 개인 정보 보호 및 보안 목표를 달성할 수 있도록 지원했습니다.
그 효과에 기여한 구체적인 요인을 살펴보겠습니다.
- 리소스 공유: AI 워크로드는 GPU 그 이상으로 확장됩니다. NVIDIA와의 협력을 통해 이 플랫폼은 가상화되고 공유되는 GPU(vGPU)를 지원합니다. 인프라 팀은 할당된 vGPU를 적절한 용량에 매핑하고 필요한 네트워크, 데이터 I/O 및 CPU를 관리할 수 있습니다.
- 속도와 민첩성: AI 구축은 복잡하고 시간이 많이 소요되는 프로세스일 수 있습니다. VMware 소프트웨어는 AI 애플리케이션의 GPU, 메모리, 네트워크 및 스토리지 용량 예약을 자동화하고 네트워크 및 보안 정책 구축을 간소화합니다. 이를 통해 구축 시간을 단축하고 민첩성을 확보하여 AI 인프라 리소스를 통합하고 공유하여 비용 효율성을 유지하는 동시에 새로운 모델과 서비스로 신속하게 전환할 수 있습니다.
- 일관된 운영: 이 플랫폼은 AI 및 비AI 워크로드 모두에 동일한 도구와 프로세스를 사용하므로 AI를 위한 별도의 관리 및 운영 스택이 필요하지 않습니다. 이는 TCO 절감에 기여합니다.
- TCO 절감: 리소스 공유, 통합 아키텍처, 속도 및 민첩성, 그리고 일관된 운영의 결합으로 TCO가 크게 절감됩니다. 도구와 프로세스 감소와 AI 인프라의 지능적인 공유를 통해 비용이 절감됩니다. Broadcom의 코어당 가격 책정 모델은 대부분의 클라우드 제공업체와 달리 토큰 기반 과금 모델을 배제하여 비용을 효과적으로 절감하고 안정화합니다. 이 플랫폼은 성능 저하 없이 퍼블릭 클라우드 대비 총소유비용(TCO)을 최대 90%, 베어 메탈 솔루션 대비 TCO를 최대 29% 절감합니다. 최근 발표된 벤치마크 연구에서는 MLPerf Inference v5.0 표준을 사용하여 베어 메탈과 비교한 결과, 베어 메탈과 유사한 성능을 보였습니다. 따라서 가상화 솔루션에 AI 워크로드를 배치하면 관리 용이성 및 엔터프라이즈급 보안과 같은 가상화의 이점을 누리면서 성능을 유지할 수 있습니다.
VCF 9.0으로 AI를 활용하세요 – 흥미로운 새로운 기능
오늘, NVIDIA와 함께 VCF 9.0과 동시에 출시되는 VMware Private AI Foundation의 새로운 일반 출시 릴리스를 발표하게 되어 기쁩니다.
Mark Chuang 과 Himanshu Singh 이 이 릴리스에 대해 논의하는 theCUBE 비디오를 시청하세요 .
더 자세한 내용을 알고 싶으신가요? 7월 9일 오전 10시(PDT)에 열리는 VCF 웨비나 시리즈에 등록하고 참석하세요. Justin Murray 와 Shobhit Bhutani가 데모를 포함한 모든 세부 정보를 공유합니다.
이번 릴리스의 새로운 기능에 대해 알아보겠습니다.
- AI 모델의 개인 정보 보호 및 보안 활성화
NVIDIA의 AI 서비스 아키텍처 접근 방식을 적용한 VMware Private AI Foundation은 기업 데이터의 개인 정보 보호 및 제어, 그리고 통합 보안 및 관리를 지원합니다. Broadcom과 NVIDIA의 파트너십을 통해 기업은 VCF 및 NVIDIA AI Enterprise에 통합된 보안 기능을 갖춘 프라이빗하고 안전한 AI 모델을 구축하고 배포할 수 있습니다. 이 분야의 새로운 기능은 다음과 같습니다.
a. 에어갭 지원: 이번 릴리스를 통해 VMware Private AI Foundation with NVIDIA는 이제 에어갭 환경에 구축되어 고객의 비즈니스 요구를 충족하는 동시에 중요 워크로드에 대한 데이터 기밀성 및 격리를 보장합니다. 가장 민감한 자산에 대한 에어갭 지원은 사이버 위험 노출을 최소화하고, 환경 규정을 준수하며, 수익과 평판을 보호합니다.
이 기능은 VCF 자동화를 통해 활성화됩니다. 딥 러닝 VM과 같은 AI 인프라 요소는 온프레미스 저장소에서 소프트웨어 코드와 컨테이너를 추출하며, 인터넷에 자동으로 연결되지 않습니다. 이러한 저장소에는 NGC 카탈로그에서 다운로드한 컨테이너와 소프트웨어 라이브러리가 포함됩니다. IT 관리자만 필요에 따라 저장소를 새로 고칠 수 있습니다. 이러한 저장소 세트는 인터넷에서 격리된 엔터프라이즈 데이터와 함께 에어갭 지원을 가능하게 합니다.
b. 멀티테넌시: 이번 새로운 릴리스를 통해 클라우드 서비스 제공업체와 기업은 이제 테넌트를 위한 프라이빗하고 독립적인 AI 환경을 구축할 수 있습니다.
특정 비즈니스 요구에 맞춰 단일 또는 여러 조직을 구축함으로써 이러한 기능을 구현할 수 있습니다. 각 조직은 전담되고 격리된 환경에서 운영되어 보안과 자율성을 보장하는 동시에 비용을 최적화합니다. 관리자는 네트워크 설정을 구성하고, 각 테넌트에 대한 기본 트랜짓 게이트웨이 및 VPC를 설정하고, 리소스를 관리하고, 할당량을 설정하고, 권한을 제어하고, 암호화 및 백업과 같은 관리형 서비스를 제공할 수 있습니다. 또한, 테넌트 전반의 리소스 사용량과 지출을 모니터링하여 최적의 성능과 비용 관리를 보장할 수 있습니다.
2. 인프라 관리 간소화
AI 모델은 새로운 공급업체, SaaS 구성 요소, 최첨단 AI 소프트웨어가 지속적으로 출시되고 배포됨에 따라 빠르게 진화하기 때문에 설계 비용이 높고 복잡합니다. 이처럼 복잡한 환경에서 VMware Private AI Foundation with NVIDIA는 AI 환경의 인프라 관리를 간소화하고 비용을 최적화하는 데 도움이 되는 특수 설계 기능을 제공합니다. Broadcom과 NVIDIA의 광범위한 공동 전문 지식과 이 분야 업계 선도 기업과의 강력한 파트너십을 활용하여 기업은 간소화된 구축 경험을 보장받을 수 있습니다. 이 범주에 속하는 기능들을 살펴보겠습니다.
a. GPU 및 vGPU 모니터링 개선
이전 릴리스에서는 호스트, 클러스터 및 가상 머신(VM) 수준에서 여러 GPU 모니터링 기능과 대시보드를 선보였습니다. 오늘, GPU 수준에서 사용률을 모니터링하고 개선할 수 있는 강력한 기능을 추가로 제공하여 이러한 기능을 확장합니다. 이러한 업데이트는 GPU의 과도한 프로비저닝 또는 저사용을 효과적으로 관리하고, TCO를 최적화하고, 문제 해결 속도를 높이고, 더 높은 성능을 구현하는 데 도움이 됩니다. 더 자세히 살펴보겠습니다.
GPU 관리 개선
- GPU 속도 저하 온도 – 이 기능은 사전 정의된 온도 임계값을 초과하면 GPU의 클럭 속도를 동적으로 줄여 GPU의 잠재적인 열 손상을 완화하고 성능을 조절합니다.
- GPU 종료 온도 – 이 기능은 열로 인한 손상을 방지하기 위해 GPU가 종료되는 최대 사전 설정 온도(감속 온도보다 높은 온도)를 종료합니다.
vGPU 모니터링 개선
- vGPU 메모리 예약 – vGPU 프로필에 대한 GPU 메모리 할당을 예약합니다.
- vGPU 메모리 사용량 – vGPU 프로필에서 사용하는 GPU 메모리를 모니터링합니다.
- vGPU 컴퓨팅 사용량 – vGPU 수준에서 컴퓨팅 사용량을 모니터링합니다.
- vGPU 인코딩 활용도 – 비디오 및 비전 ML 워크로드에 대한 vGPU 인코딩 프로세스 중 GPU 활용도를 관찰합니다.
- vGPU 디코드 활용도 – 비디오 및 비전 ML 워크로드에 대한 vGPU 디코딩 프로세스 동안 GPU 활용도를 추적합니다.
b. vGPU 프로필 가시성
이 기능을 사용하면 관리자는 vCenter의 직관적인 UI 화면에서 DirectPath 프로필을 통해 GPU 사용량 전체에 걸쳐 모든 vGPU를 볼 수 있으므로 vGPU를 수동으로 추적할 필요가 없고, 관리 시간이 줄어들고 효율성이 향상됩니다.
3. 모델 배포 간소화
Broadcom은 이번 릴리스를 통해 데이터 과학자와 MLOps 전문가를 위한 모델 배포를 간소화하고 가속화하도록 설계된 몇 가지 획기적인 기능을 도입했습니다. 이 범주에는 다음 기능이 포함됩니다.
a. 모델 런타임
모델 런타임 서비스를 사용하면 데이터 과학자가 애플리케이션의 모델 엔드포인트를 생성하고 관리할 수 있습니다. 주요 이점은 다음과 같습니다.
- 모델 사용 간소화 – 이러한 모델 엔드포인트는 모델 인스턴스의 복잡성을 추상화합니다. 예측을 수행해야 하는 사용자나 시스템은 모델의 내부 작동 방식을 알 필요가 없으며, 엔드포인트에 올바른 입력을 보내고 출력을 받기만 하면 됩니다.
- 확장성 – 모델 엔드포인트는 확장 가능한 배포를 지원합니다. 각 요청에 대해 로컬에서 모델을 실행하는 대신(리소스 사용량이 높을 수 있음), 여러 요청을 동시에 처리할 수 있는 서버에 배포할 수 있습니다.
b. API 게이트웨이
조직은 대규모 언어 모델(LLM)을 애플리케이션에 통합할 때 여러 가지 어려움에 직면합니다. 안전한 액세스 제어가 없으면 엔드포인트가 무단 사용에 노출되어 보안 위험이 커질 수 있습니다. LLM이 발전함에 따라 빈번한 API 변경은 통합을 방해할 수 있습니다. 사용량이 증가함에 따라 확장성 문제가 발생하는데, 지능형 로드 밸런싱 없이는 인프라가 동시 사용자나 트래픽 급증을 처리하는 데 어려움을 겪습니다. 또한, LLM 제공업체마다 API가 다르면 통합 작업이 복잡해지고, 개발 속도가 느려지며 플랫폼 간 표준화가 저해됩니다.
API Gateway는 대규모 언어 모델(LLM) 엔드포인트에 액세스하기 위한 안전하고 안정적이며 확장 가능한 인터페이스를 제공하여 원활한 통합과 일관된 성능을 구현합니다. 강력한 인증 및 권한 부여를 통해 신뢰할 수 있는 사용자와 애플리케이션만 모델에 액세스할 수 있도록 보장합니다. OpenAI API와의 기본 호환성을 통해 애플리케이션 간 표준화를 간소화합니다. API Gateway는 기본 모델 변경 사항을 추상화하여 일관된 API와 운영 유연성을 제공합니다. 또한 부하 분산 및 리소스 확장을 지원하여 여러 모델 인스턴스 또는 추론 서버를 투명하게 실행하고 클라이언트에 영향을 주지 않으면서 높은 가용성과 성능을 보장합니다.
c. 에이전트 빌더 서비스
AI 에이전트는 AI 기술을 사용하여 디지털 또는 물리적 환경에서 인지, 의사 결정, 행동 수행 및 목표 달성을 수행하는 자율 또는 반자율 소프트웨어 개체입니다. AI 에이전트는 Gen AI 애플리케이션에 점점 더 통합되어 그 기능을 향상시키고 다양한 창의적이고 기능적인 작업을 가능하게 합니다. 에이전트 빌더 서비스를 통해 GenAI 애플리케이션 개발자는 모델 저장소, 모델 런타임, 데이터 인덱싱 및 검색 서비스를 사용하여 AI 에이전트를 생성할 수 있습니다.
d. 데이터 인덱싱 및 검색 서비스
이 서비스를 통해 기업은 비공개 데이터 소스(예: PDF, CSV, PPT, Microsoft Office 문서, 내부 웹 또는 위키 페이지)를 청크화하고 인덱싱하며 데이터를 벡터화할 수 있습니다. 이렇게 벡터화된 데이터는 지식 기반을 통해 제공됩니다. 데이터가 변경되면 이러한 지식 기반은 일정에 따라 또는 필요에 따라 업데이트되어 Gen AI 애플리케이션이 최신 데이터에 액세스할 수 있도록 보장합니다. 이 기능을 통해 배포 시간이 단축되고, 데이터 준비가 간소화되며, 데이터 과학자와 ML 운영팀의 Gen AI 출력 품질이 향상됩니다.
이 릴리스에 대해 자세히 알아보려면 유튜브 비디오를 시청하세요.