AI 하이퍼컴퓨터는 Google Cloud의 모든 AI 워크로드 기반의 통합형 슈퍼컴퓨팅 시스템입니다. AI 배포를 간소화하고 시스템 수준의 효율성을 개선하며 비용을 최적화하도록 설계된 하드웨어, 소프트웨어, 소비 모델로 구성되어 있습니다.
개요
개방형 프레임워크, 라이브러리, 컴파일러와 통합된 업계 최고의 소프트웨어를 통해 하드웨어의 성능을 최대한 활용하여 AI 개발, 통합, 관리를 더욱 효율적으로 수행하세요.
유연한 소비 옵션을 통해 고객은 약정 사용 할인이 적용된 고정 비용 또는 동적 주문형 모델을 선택하여 비즈니스 니즈를 충족할 수 있습니다. 동적 워크로드 스케줄러와 스팟 VM을 사용하면 과도한 할당 없이 필요한 용량을 확보할 수 있습니다. 또한 Google Cloud의 비용 최적화 도구는 리소스 사용을 자동화하여 엔지니어의 수동 작업을 줄여 줍니다.
일반적인 용도
추론은 빠르게 다양해지고 복잡해지고 있으며, 세 가지 주요 영역에서 발전하고 있습니다.
PUMA는 통합 AI 인프라(AI 하이퍼컴퓨터)를 위해 Google Cloud와 파트너십을 맺고 Gemini를 사용자 프롬프트에 사용함과 동시에 동적 워크로드 스케줄러를 사용하여 GPU의 추론을 동적으로 확장함으로써 비용과 생성 시간을 획기적으로 줄였습니다.
영향:
추론은 빠르게 다양해지고 복잡해지고 있으며, 세 가지 주요 영역에서 발전하고 있습니다.
PUMA는 통합 AI 인프라(AI 하이퍼컴퓨터)를 위해 Google Cloud와 파트너십을 맺고 Gemini를 사용자 프롬프트에 사용함과 동시에 동적 워크로드 스케줄러를 사용하여 GPU의 추론을 동적으로 확장함으로써 비용과 생성 시간을 획기적으로 줄였습니다.
영향:
학습 워크로드는 긴밀하게 결합된 클러스터의 수천 개 노드에서 고도로 동기화된 작업으로 실행되어야 합니다. 단일 노드의 성능 저하만으로도 전체 작업이 중단될 수 있으며, 이는 출시 지연으로 이어질 수 있습니다. 다음 작업을 수행해야 합니다.
고객이 Google Cloud에서 학습 워크로드를 매우 쉽게 배포하고 확장할 수 있도록 지원하고자 합니다.
AI 클러스터를 만들려면 다음 튜토리얼 중 하나를 시작하세요.
Moloco는 AI 하이퍼컴퓨터의 완전 통합 스택을 활용하여 TPU 및 GPU와 같은 고급 하드웨어에서 자동으로 확장할 수 있었고, 그 결과 Moloco 엔지니어의 업무 부담을 덜 수 있었습니다. 또한 Google의 업계 최고의 데이터 플랫폼과의 통합을 통해 AI 워크로드에 대한 일관된 엔드 투 엔드 시스템을 구축할 수 있었습니다.
첫 번째 딥러닝 모델을 출시한 후 Moloco는 2년 반 만에 5배 성장하고 수익을 달성하는 등 급격한 성장과 수익성을 경험했습니다.
학습 워크로드는 긴밀하게 결합된 클러스터의 수천 개 노드에서 고도로 동기화된 작업으로 실행되어야 합니다. 단일 노드의 성능 저하만으로도 전체 작업이 중단될 수 있으며, 이는 출시 지연으로 이어질 수 있습니다. 다음 작업을 수행해야 합니다.
고객이 Google Cloud에서 학습 워크로드를 매우 쉽게 배포하고 확장할 수 있도록 지원하고자 합니다.
AI 클러스터를 만들려면 다음 튜토리얼 중 하나를 시작하세요.
Moloco는 AI 하이퍼컴퓨터의 완전 통합 스택을 활용하여 TPU 및 GPU와 같은 고급 하드웨어에서 자동으로 확장할 수 있었고, 그 결과 Moloco 엔지니어의 업무 부담을 덜 수 있었습니다. 또한 Google의 업계 최고의 데이터 플랫폼과의 통합을 통해 AI 워크로드에 대한 일관된 엔드 투 엔드 시스템을 구축할 수 있었습니다.
첫 번째 딥러닝 모델을 출시한 후 Moloco는 2년 반 만에 5배 성장하고 수익을 달성하는 등 급격한 성장과 수익성을 경험했습니다.
Google Cloud는 일반적인 운영체제, 프레임워크, 라이브러리, 드라이버가 포함된 이미지를 제공합니다. AI 하이퍼컴퓨터는 이러한 사전 구성된 이미지를 최적화하여 AI 워크로드를 지원합니다.
"Google Cloud와 협력하여 생성형 AI를 통합함으로써 챗봇 내에 맞춤형 여행 컨시어지를 만들 수 있게 되었습니다. 저희는 고객이 여행 계획을 세우는 것을 넘어서 취향을 반영한 특별한 여행을 경험할 수 있도록 돕고 싶습니다." 마틴 브로드벡, Priceline CTO
Google Cloud는 일반적인 운영체제, 프레임워크, 라이브러리, 드라이버가 포함된 이미지를 제공합니다. AI 하이퍼컴퓨터는 이러한 사전 구성된 이미지를 최적화하여 AI 워크로드를 지원합니다.
"Google Cloud와 협력하여 생성형 AI를 통합함으로써 챗봇 내에 맞춤형 여행 컨시어지를 만들 수 있게 되었습니다. 저희는 고객이 여행 계획을 세우는 것을 넘어서 취향을 반영한 특별한 여행을 경험할 수 있도록 돕고 싶습니다." 마틴 브로드벡, Priceline CTO
FAQ
개별 서비스는 특정 기능을 제공하지만 AI 하이퍼컴퓨터는 하드웨어, 소프트웨어, 소비 모델이 최적으로 함께 작동하도록 설계된 통합 시스템을 제공합니다. 이러한 통합은 서로 다른 서비스를 결합하여 달성하기 어려운 성능, 비용, TTM(time to market) 측면에서 시스템 수준의 효율성을 제공합니다. 복잡성을 간소화하고 AI 인프라에 대한 전체적인 접근 방식을 제공합니다.
예, AI 하이퍼컴퓨터는 유연성을 염두에 두고 설계되었습니다. Cross-Cloud Interconnect와 같은 기술은 온프레미스 데이터 센터와 다른 클라우드에 대한 고대역폭 연결을 제공하여 하이브리드 및 멀티 클라우드 AI 전략을 지원합니다. Google Cloud는 개방형 표준을 기반으로 운영되며 널리 사용되는 서드 파티 소프트웨어를 통합하여 여러 환경에 걸쳐 솔루션을 빌드하고 원하는 대로 서비스를 변경할 수 있도록 지원합니다.
보안은 AI 하이퍼컴퓨터의 핵심 측면입니다. Google Cloud의 다층 보안 모델을 활용합니다. 특정 기능으로는 Titan 보안 마이크로컨트롤러(신뢰할 수 있는 상태에서 시스템 부팅 보장), RDMA 방화벽(학습 중 TPU/GPU 간 제로 트러스트 네트워킹 지원), AI 안전을 위한 Model Armor와 같은 솔루션과의 통합 등이 있습니다. 이러한 기능은 안전한 AI 프레임워크와 같은 강력한 인프라 보안 정책 및 원칙으로 보완됩니다.
아니요. AI 하이퍼컴퓨터는 모든 규모의 워크로드에 사용할 수 있습니다. 작은 규모의 워크로드도 효율성 및 간소화된 배포와 같은 통합 시스템의 모든 이점을 실현할 수 있습니다. AI 하이퍼컴퓨터는 소규모 개념 증명 및 실험부터 대규모 프로덕션 배포에 이르기까지 비즈니스 규모에 따라 고객을 지원합니다.
대부분의 고객에게는 모든 도구, 템플릿, 모델이 내장되어 있는 Vertex AI와 같은 관리형 AI 플랫폼이 AI를 시작하는 가장 쉬운 방법입니다. 또한 Vertex AI는 사용자를 위해 최적화된 방식으로 내부적으로 AI 하이퍼컴퓨터를 기반으로 작동합니다. Vertex AI는 가장 간단한 경험을 제공하므로 가장 쉽게 시작할 수 있는 방법입니다. 인프라의 모든 구성요소를 구성하고 최적화하려는 경우 AI 하이퍼컴퓨터의 구성요소를 인프라로 액세스하여 필요에 맞게 구성할 수 있습니다.
예, Github에서 레시피 라이브러리를 빌드하고 있습니다. Cluster Toolkit을 사용하여 사전 빌드된 클러스터 청사진을 만들 수도 있습니다.
AI 최적화 하드웨어
스토리지
네트워킹
컴퓨팅: Google Cloud TPU(Trillium), NVIDIA GPU(Blackwell), CPU(Axion)에 액세스합니다. 이를 통해 처리량, 지연 시간 또는 TCO에 대한 특정 워크로드 요구사항에 따라 최적화할 수 있습니다.
선도적인 소프트웨어 및 개방형 프레임워크
소비 모델: