IBM CEO “생성형 AI의 미래는 도메인 특화 소형 모델에 있다”
IBM CEO는 최근 개최한 연례 씽크 컨퍼런스에서 비용, 속도, 보안 문제를 해결하기 위해 엣지 네트워킹 기능과 통합된 소형 생성형 AI 모델에 집중하고 있다고 밝혔다.
IBM CEO 아르빈드 크리슈나는 지금까지 생성형 AI 모델이 사용한 엔터프라이즈 데이터는 전체 중 약 1%에 불과하다고 말했다. 수많은 데이터센터, 클라우드 서비스, 엣지 환경 사이에 통합과 조율이 부족해 생성형 AI가 데이터를 제대로 활용하지 못하는 상황이다. 이런 한계를 극복하려면 인사, 영업, 유통, 제조 등 특정 도메인에 맞춰 설계한 크기가 작고 특화된 생성형 AI 모델이 필요하다고 크리슈나는 강조했다.
2일(현지시간) 보스턴에서 열린 IBM 씽크 2025(IBM Think 2025) 컨퍼런스에서 크리슈나는 회사가 향후 중점을 두는 방향을 설명하면서, 오픈소스 LLM과 함께 기업이 손쉽게 배포하고 맞춤화할 수 있는 소형언어모델(Small Language Model, SLM)을 통합하는 데 주력하겠다고 밝혔다.
크리슈나는 “소형 모델은 놀라울 정도로 정확하다. 속도도 훨씬 빠르고, 운영 비용도 훨씬 저렴하다. 원하는 위치에서 직접 실행할 수도 있다. 이런 소형 모델이 대형 AI 모델을 대체하는 것은 아니다. 이제는 대형 모델과 함께 엔터프라이즈의 요구에 맞게 조합해 사용할 수 있는 시대가 됐다”라고 덧붙였다.
크리슈나에 따르면 소형 AI 모델은 배포하고 맞춤화하는 작업이 LLM보다 더 간단하며, 운영 비용도 최대 30배 더 저렴하다.
크리슈나는 “1990년대 이후 저장장치와 컴퓨팅 비용이 급격히 낮아졌듯이 AI 기술 역시 시간이 갈수록 훨씬 더 저렴해질 것이다. 그렇게 되면 훨씬 더 다양한 문제에 AI를 적용할 수 있게 된다. AI는 반드시 비싸고 거대해야 한다는 컴퓨터 과학의 법칙 같은 건 없다. IBM은 바로 그 엔지니어링 과제에 도전하고 있다”라고 강조했다.
크리슈나는 IBM의 오픈소스 AI 모델군인 그래니트(Granite) 시리즈를 언급하며, 이들 모델이 파라미터 수 30억~200억 개 수준의 소형 모델이라는 점과 이들 모델이 1조 개 이상의 파라미터를 가진 GPT-4 같은 LLM과 어떻게 다른지 비교해 설명했다. 참고로 오픈AI, 메타 등 다른 AI 모델 개발사들도 GPT-0.3, GPT-0.4 미니, 라마 2, 라마 3처럼 파라미터 수가 80억 이하인 ‘미니’ 모델을 개발하는 데 집중하고 있는 것으로 알려졌다.
IBM의 최신 그래니트 3.0(Granite 3.0) 모델은 자사의 AI 및 데이터 플랫폼인 왓슨X(WatsonX)에 통합돼 있다. 왓슨X는 기업이 AI 모델을 대규모로 구축, 학습, 튜닝, 배포할 수 있도록 지원하는 플랫폼으로, 특정 비즈니스 애플리케이션에 최적화돼 있다. 그래니트 3.0은 2024년 10월 공개됐으며, 확장 가능하고 효율적이며 맞춤화가 가능한 AI 솔루션을 기업에 제공하려는 IBM의 광범위한 전략의 일환이다.
크리슈나는 “AI를 실험하는 시대는 이제 끝났다. 앞으로 성공을 좌우할 요소는 통합과 비즈니스 성과이며, 오늘 IBM이 발표한 내용도 바로 그것이다. 왓슨X 오케스트레이트(WatsonX Orchestrate) 제품군을 활용하면 5분 이내에 자신만의 AI 에이전트를 직접 구축할 수 있다”라고 설명했다.
왓슨X 오케스트레이트는 다양한 용도에 맞춘 150가지 사전 구축형 AI 모델을 함께 제공한다.
지리적으로 분산된 데이터 소스를 연결하기 위한 AI 내장형 네트워킹 구현을 위해 IBM과 통신 기업 루멘 테크놀로지스(Lumen Technologies)는 씽크 컨퍼런스에서 파트너십을 발표했다. 양사는 데이터가 생성되는 지점 가까이에서 실시간 AI 추론을 구현하는 데 집중할 계획이며, 이를 통해 생성형 AI 도입을 확대하는 과정에서 발생하는 비용과 지연 시간을 줄이고 보안 문제도 함께 해결할 수 있을 것으로 기대하고 있다.
이날 행사에서 루멘 테크놀로지스 CEO 케이트 존슨은 자사가 수십 년 만에 최대 규모의 네트워크 업그레이드 및 확장을 시작한다고 밝혔다. 존슨은 루멘의 네트워크가 이제 엣지에서 왓슨X를 실행하게 되며, 이를 통해 데이터가 생성되는 지점에서 보다 안전하게 데이터에 접근할 수 있고, 기존 전통적인 네트워크에서 발생할 수 있는 지연 문제도 해결할 수 있다고 설명했다.
이어 존슨은 “AI를 최대한 활용하려는 기업에 ‘근접성의 힘’을 제공한다. AI 모델을 활용하면서 모든 데이터를 클라우드로 계속 보내고 결과를 기다리는 상황을 상상해 보라. 비용이 많이 들고, 느리며, 보안도 충분하지 않다. 왓슨X와 결합된 루멘의 엣지 기술 역량은 실시간 추론을 실현한다”라고 말했다.
존슨에 따르면 모든 엣지 위치가 이 패브릭에 연결돼 있으며, 다양한 사용례를 아우르는 범용성을 갖췄다.
예를 들어, 생성형 AI는 임상 현장에서 환자 기록을 실시간으로 진단하는 데 활용될 수 있다. 환자를 진찰하는 동안 생성되는 데이터는 로컬 데이터베이스에 저장되며, 생성형 AI는 이 데이터를 병원의 데이터센터에 있는 과거 기록과 결합해 분석할 수 있다. 존슨은 “이것은 판도를 바꾸는 혁신이며, 생명을 구할 수도 있는 기술”이라고 언급했다.
또한 존슨은 AI가 엣지에서 어떻게 작동하는지 설명하면서 대부분의 운영을 로봇이 수행하고 테라바이트 단위의 데이터를 생성하는 무인 제조 시설 사례를 들었다.
존슨은 “공장에서는 매 밀리초가 중요하다. 지금 제조업체들은 네트워킹부터 전력, 냉각을 포함한 인프라가 공장 인근에 있는 데이터센터를 원하고 있다. 루멘과 IBM의 통합 솔루션은 그런 요구를 충족하는 해답을 제공한다”라고 강조했다.
※ 위 포스팅이 문제될 경우 삭제하겠습니다.