구글, 머신러닝용 슈퍼컴 VM 발표…최대 26엑사플롭 AI 성능
구글 클라우드가 대규모 AI 모델 학습 속도를 높일 수 있는 새로운 슈퍼컴퓨터 VM 시리즈를 발표했다.
새로 출시되는 A3 슈퍼컴퓨터 VM은 대규모 언어 모델의 막대한 컴퓨팅 자원 요구량을 처리하는 데 중점을 두고 있다. 구글은 발표문을 통해 “A3 GPU VM은 오늘날의 머신러닝 워크로드를 위한 최고 성능의 학습을 제공하도록 만들어졌으며, 최신 CPU와 개선된 호스트 메모리, 차세대 엔비디아 GPU, 대대적인 네트워크 업그레이드를 통해 완성됐다”라고 설명했다.
A3 인스턴스는 이달 초 출시된 엔비디아 최신 H100 GPU 8개와 인텔 4세대 제온 스케일러블 프로세서, 2TB 메모리를 사용하며, 8개의 GPU는 엔비디아의 NVSwitch와 NVKink를 통해 3.6TBs 대역폭으로 연결된다.
구글은 이런 고사양 구성을 통해 슈퍼컴퓨터 전체가 최대 26엑사플롭의 누적 성능을 제공한다고 주장한다. 한때 가장 빠른 슈퍼컴퓨터였던 프론티어의 성능이 1엑사플롭 정도였다는 점에서 놀라운 성능이 아닐 수 없다.
구글에 따르면, A3는 GPU 대 GPU 데이터 인터페이스를 프로덕션 수준에 처음 배치한 시스템으로, 구글은 이를 IPU(Infrastructure Processing Unit)이라고 부른다. IPU는 CPU를 거치지 않고 GPU 간을 200Gbps 대역폭으로 직접 연결해 데이터를 공유한다. 이를 통해 이전 세대 A2 VM과 비교해 A3 VM은 네트워크 대역폭이 10배 이상 증가했다.
A3 워크로드는 구글의 주피터 데이터센터 네트워킹 패브릭에서 구동되는데, 구글은 “고도로 상호연결된 GPU를 1만 개까지 확대할 수 있으며, 재구성할 수 있는 광 링크로 필요한 토폴로지에 맞춰 대역폭 전체를 이용할 수 있다”고 설명했다.
구글은 A3 인스턴스를 두 가지 방식으로 제공할 예정이다. 고객이 직접 구동할 수도 있고, 구글이 대부분 작업을 수행하는 매니지드 서비스 방식으로 이용할 수도 있다. 직접 구동할 경우, A3 VM은 구글 쿠버네티스 엔진(GKE)과 구글 컴퓨트 엔진(GCE) 상에서 실행된다. 매니지드 서비스의 경우, VM은 구글의 매니지드 머신러닝 플랫폼인 버텍스(Vertex)에서 실행된다.
A3 VM은 현재 프리뷰 단계로, 얼리 액세스 프로그램에 가입해야 이용할 수 있다.
위 포스팅이 문제될 시 삭제하겠습니다.
댓글 없음:
참고: 블로그의 회원만 댓글을 작성할 수 있습니다.