구글, 순차 처리 탈피한 확산 기반 AI 모델 디퓨전젬마 공개

구글의 신규 실험 모델 디퓨전젬마가 기존 자기회귀 모델 대비 최대 4배 빠른 추론 속도를 앞세워 로컬 워크플로 효율화에 도전장을 내밀었다.

Google privacy
Credit: Google / JR Raphael

극도로 강력한 대규모 언어 모델(LLM)도 워크로드를 키보드 자판을 두드리듯 왼쪽에서 오른쪽으로 한 토큰씩 순차 처리하는 방식에서 벗어나지 못하고 있다. 워크로드를 단순히 좌→우 순차 방식으로 처리하는 것이다. 그러나 로컬 실행·단일 사용자 환경에서는 이런 순차 처리가 GPU(GPU)와 텐서 처리 장치(TPU)를 충분히 활용하지 못하는 결과를 낳는다.

구글은 디퓨전젬마(DiffusionGemma)로 이 병목을 돌파할 수 있다고 보고 있다. 새로운 실험적 오픈 모델은 토큰 단위 순차 처리 대신 확산 기법으로 텍스트 블록 전체를 동시에 생성하며 “이례적으로 빠른” 속도를 구현한다. 구글은 이 기법이 순차 처리 방식의 자기회귀 모델 대비 추론 속도를 4배 높인다고 밝혔다.

비용 절감 효과도 기대된다. 기술 애널리스트 카미 레비는 기존 토큰당 과금 수익화 모델이 “최적 효율에 미치지 못하는 AI 솔루션 사용에 패널티를 부과한다”고 지적했다.

레비는 디퓨전젬마가 “운영 예산을 잠식하지 않으면서 확장된 컴퓨팅 용량을 가능하게 하는, 과제 특화형 효율 솔루션의 새로운 세대를 예고할 수 있다”고 덧붙였다.

좌→우 순차 처리와의 대비

디퓨전젬마는 구글의 젬마 4(Gemma 4) 패밀리와 제미나이 디퓨전(제미나이 Diffusion) 연구를 기반으로 구축된 260억 파라미터 규모의 혼합 전문가(MoE) 모델로, 텍스트 출력 생성 극대화를 목표로 설계됐다.

모델이 하드웨어를 활용하는 방식을 근본적으로 바꿔, 프로세서가 각 사이클마다 더 큰 작업 덩어리를 처리하고 256토큰 분량의 전체 문단을 순차적으로 초안 작성할 수 있게 한다. 구글에 따르면 GPU에서 최대 4배 빠른 텍스트 생성이 가능하다. 추론 시에는 38억 개의 파라미터만 활성화되며, 양자화 적용 시 엔비디아 RTX 5090 같은 고급 사용자용 GPU의 18GB VRAM 내에서도 구동된다.

구글 리서치 과학자 브렌던 오도노휴와 세바스티안 플레너하그는 블로그 게시물에서 모델 추론을 “단일 순차 타자기에서 텍스트 블록 전체를 동시에 찍어내는 대형 인쇄기로 업그레이드하는 것”이라고 설명했다.

AI 이미지 생성기는 순수한 무작위 ‘시각적 노이즈’에서 시작해 반복적으로 정제해 최종 이미지를 완성하는데(이른바 ‘디퓨전’), 디퓨전젬마는 동일한 과정을 텍스트에 적용한다. 토큰을 순서대로 생성하지 않고, 대신 “임의의 플레이스홀더 토큰으로 이뤄진 캔버스”에서 시작해 여러 차례 패스를 거치며 가장 관련성 높다고 판단되는 문맥 토큰을 파악하고, 이를 기반으로 나머지를 정제해나간다.

모델은 신뢰도 점수를 활용해 다음 패스에서 토큰을 재평가하는 자체 교정 기능도 갖췄다. 오도노휴와 플레너하그는 “모델이 자체 출력물을 반복적으로 정제하며 전체 텍스트 블록을 한꺼번에 평가해 실시간으로 오류를 수정한다”라고 설명했다.

두 연구자는 디퓨전젬마가 양방향 어텐션도 갖추고 있다고 밝혔다. “각 포워드 패스에서 256개의 토큰을 병렬 생성함으로써 모든 토큰이 다른 모든 토큰에 어텐션을 적용할 수 있다.” 수학적 그래프, 코드 인필링, 인라인 편집처럼 비선형적 특성을 지닌 분야에서 특히 유용하다는 설명이다.

디퓨전젬마는 엔비디아 하드웨어 스택 전반에 최적화돼 사용자용 환경은 물론 호퍼(Hopper), 블랙웰(Blackwell) 같은 고성능 엔터프라이즈 시스템과도 호환된다.

아파치 2.0 라이선스로 공개된 만큼, 개발자는 선호하는 도구를 활용해 소프트웨어를 자유롭게 사용·수정·배포·상업화할 수 있다. 구글 클라우드 모델 가든(Model Garden)이나 엔비디아 NIM을 통해 클라우드에서, 또는 GPU에서 직접 실행할 수 있으며, 허깅페이스, 깃허브, vLLM에서도 이용 가능하다. 오픈소스 라이브러리 llama.cpp 지원도 곧 추가될 예정이다.

주요 활용 사례

디퓨전젬마는 비선형 텍스트 구조 생성 같이 ‘속도가 중요한’ 로컬 워크플로에 특히 유용하며, 멀티모달 이해, 코드 생성·렌더링 등 구글이 “새로운 모델 행동 패턴”이라 부르는 기능들을 거의 실시간으로 구현한다.

레비는 디퓨전젬마가 “효율성 덕분에 빠른 처리와 반복이 가능한 대화형 코딩 및 편집에 특히 적합하다”며, 18GB VRAM 이내에서 구동 가능하고 일반적으로 구할 수 있는 로컬 GPU에 배포할 수 있다는 점이 실시간 인터랙션과 로컬 처리에 크게 의존하는 고객 서비스 관련 워크로드에도 잠재적 이점을 줄 수 있다고 설명했다.

레비는 “디퓨전젬마에는 문제 해결에 특히 능한 사고 모드도 탑재돼 있다”고 덧붙였다. 실제로 모델은 스도쿠를 풀도록 파인튜닝됐는데, 스도쿠는 각 토큰이 미래 토큰에 의존하는 구조상 자기회귀 모델에게 전형적으로 까다로운 과제다. 레비는 이것이 모델의 복잡한 문제 해결 능력을 “상당히 명확하게” 보여준다고 평가했다.

한계

구글은 디퓨전젬마가 특정 워크플로에 특화돼 있으며 “핵심적인 트레이드오프”가 존재한다는 점을 솔직히 인정한다.

모델은 “단일 고성능 가속기”에서의 소규모 배치 추론과 저지연·고속 생성, 저~중규모 배치 처리에 최적화돼 있다.

구글은 초저지연으로 초당 수만~수십만 건의 요청을 처리하도록 인프라가 설계된 고QPS 클라우드 서빙 환경에서는 디퓨전젬마의 병렬 처리가 “수확 체감” 현상을 보이며, 오히려 서빙 비용이 높아질 수도 있다고 인정했다. 또한 최고 품질을 요구하는 앱을 위해 설계된 표준 젬마 4보다 전반적인 출력 품질이 낮다.

다만 레비는 디퓨전젬마가 “일부 워크로드에서는 다른 모델보다 정확도가 낮을 수 있지만” 후속 정제 사이클을 통해 이 한계를 극복할 수 있다고 짚었다.

Powered by Blogger.