AI 시대의 새 화폐, 토큰…AI 토큰 경제의 모든 것
가격·효율·락인 전략까지 AI 업체가 토큰 기반 과금 모델로 기업 고객을 유인하는 전략을 본격화하고 있다.
구글은 폭발적인 AI 성장을 측정하는 데 단 하나의 척도를 사용한다. 바로 토큰이다.
구글 CEO 순다르 피차이는 이번 주 열린 I/O 키노트에서 구글이 월 3.2경 개 토큰을 처리한다고 밝혔다. 피차이는 “‘경’이라는 단위를 입에 올리게 될 줄은 몰랐지만, 이제 현실이 됐다”라고 덧붙였다.
토큰은 대규모 언어 모델(LLM)이 데이터를 처리할 때 사용하는 측정 단위다.
‘AI 혁명을 이끄는 새 석유’로 불리는 토큰은 AI 업체가 사용량을 측정하고 서비스 가격을 책정하는 수단이기도 하다. 기업은 컴퓨팅 시간을 확보하기 위해 토큰에 수십억 개 단위의 비용을 지출하고 있다.
석유와 마찬가지로 토큰 수요는 사실상 끝이 없으며, 이미 공급이 빠듯한 GPU(GPU) 시장에 추가 부담을 주고 있다. 그 결과 AI 툴 운용 비용도 덩달아 오르는 추세다.
토큰이란 정확히 무엇인가
대규모 언어 모델이 문장의 의미를 파악하는 방식은 인간의 사고 방식과 유사하다. 단어를 토큰으로 분해해 이해하는 것이다. 피차이는 토큰을 “모델이 처리하는 데이터의 기본 단위이며, 상당수는 해결해야 할 문제를 나타낸다”라고 설명했다.
기본 단위는 단어, 부분 단어, 문자열, 기호, 구문 등 다양한 형태를 취할 수 있다. 복합어는 여러 개의 토큰으로 분리되기도 한다.
예를 들어 “I am running after a car”라는 프롬프트에서 “run”은 하나의 토큰, “ing”는 문장의 의미를 바꾸는 별도의 토큰으로 처리될 수 있다. “car”는 독립된 토큰이 된다.
가트너 수석 디렉터 애널리스트 딥아크 세스는 “평균적으로 토큰 하나는 단어 약 0.75개에 해당하며, 100단어는 대략 135개 토큰으로 환산된다”라고 설명했다.
토큰 가격은 일정하지 않다
모든 토큰의 가격이 동일한 것은 아니다. AI 시스템에 업로드하는 토큰은 저렴하고, 다운로드 토큰은 더 비싸다. 예를 들어 사용자가 이력서를 업로드할 때 비용을 내고, 대규모 언어 모델이 다듬은 이력서를 다운로드할 때 더 큰 비용을 부담하는 방식이다.
맨파워그룹 데이터 사이언스 및 AI 솔루션 총괄 맥스 레이밍은 “AI가 일정한 작업을 수행했기 때문에 업로드 비용보다 다운로드 비용이 더 높다”라고 설명했다.
토큰 기반 과금 방식은 주로 기업 고객과 개발자 등 고사용량 사용자를 대상으로 적용된다. 앤트로픽의 클로드 코드와 오픈AI의 코덱스는 토큰 단위로 가격이 책정되며, 마이크로소프트의 깃허브 역시 6월 1일부터 토큰 기반 과금 방식을 도입한다.
최종 AI 청구 금액에는 토큰 비용과 컴퓨팅 비용(GPU 사용 시간 등)이 함께 포함된다.
레이밍에 따르면, 맨파워그룹은 모델 업체에 토큰 비용을 지불하는 동시에 컴퓨팅 비용도 별도로 발생한다. 맨파워그룹은 여러 대규모 언어 모델을 지원하는 마이크로소프트 애저를 사용하고, 데이터베이스는 스노우플레이크를 채택하고 있다.
더 스마트하고 토큰 효율적인 AI 모델
일부 AI 모델은 더 나은 응답을 생성하는 만큼, 주어진 토큰 예산을 더 효율적으로 활용할 수 있다. 피차이는 토큰 단위로 가격이 책정되는 구글의 새 제미나이 3.5 플래시가 “비슷한 수준의 최전선 모델 대비 절반 이하 가격으로 최전선급 성능을 낸다”라고 강조했다.
피차이는 “많은 기업이 이미 연간 토큰 예산을 소진하고 있다는 말을 들었다”며, “제미나이 3.5 플래시와 다른 최전선 모델을 혼합해 사용하면 상당한 비용을 절감할 수 있다”라고 덧붙였다.
프롬프트 효율성의 중요성
가트너의 세스는 토큰을 비효율적으로 사용하는 것은 비용 낭비라고 지적했다. 같은 작업을 완료하는 데 개발자 한 명은 토큰 1만 개를 쓰고, 다른 한 명은 1,000개만 쓸 수도 있다. 다만 세스는 효율성을 측정할 수 있는 툴이 아직 없다고 밝혔다.
세스는 “기업이 토큰의 실제 비용을 인식하기 시작하면 토큰 효율성에 주목하게 될 것이며, 그래서 일부 기업은 성과 기반 과금 방식으로 전환을 추진하고 있다”라고 말했다.
레이밍은 이런 맥락에서 맨파워그룹이 고객이 데이터를 얻기까지의 단계를 줄이는 대시보드를 자체 개발했다고 소개했다. 내부 노동 시장 데이터 툴을 처음 사용하는 고객이 쿼리를 세분화하려면 처음에는 후속 질문이 10회 필요했지만, 1년 후에는 같은 사용자가 평균 4회만으로 목표를 달성했다.
레이밍은 “사용자가 토큰을 더 적게 쓰면서 효율도 높아졌고, 그 배경에는 상당 부분 프롬프트를 효율적으로 작성하는 능력이 있다”라고 설명했다.
반면 다른 측면도 있다. 앤트로픽의 Mythos 대규모 언어 모델처럼 아직 공개되지 않은 AI 툴은 토큰당 가격이 매우 높을 수 있지만, 뛰어난 추론 능력 덕분에 전체 비용은 오히려 낮아질 수 있다.
레이밍은 “토큰당 비용이 올라가더라도 전체 비용은 내려갈 수 있다”라고 내다봤다.
AI 업체의 ‘마약상 전략’
세스는 주요 AI 업체가 AI 인프라 구축에 수조 달러를 투자하면서도 토큰에 충분한 가격을 매기지 않고 있다고 지적했다. 세스는 “오픈AI, 구글, 앤트로픽 같은 기업이 마약상 전략을 쓰는 것 같다. 사람들을 AI에 중독시킨 다음 토큰 가격을 올리는 방식”이라고 꼬집었다.
레이밍은 AI 업체가 무료 토큰을 고객 락인 수단으로 활용할 수도 있다고 분석했다. AI 업체의 무료 토큰은 기업이 특정 대규모 언어 모델과 에이전트를 중심으로 프로세스와 워크플로우를 구축하도록 유인할 수 있다. 이를 뒷받침하듯 주요 AI 업체는 현재 자사 엔지니어를 고객사에 직접 파견해 AI 모델을 배포하는 방식으로 움직이고 있다.
현장 배포 엔지니어(FDE)로 불리는 이 엔지니어들은 AI 배포를 전담하는 일종의 외부 전문 인력이다. 고객사의 AI 프로젝트가 성공적으로 가동되도록 지원하는 데 초점을 맞춘다.
현장 배포 엔지니어는 전략 수립과 실행 계획 설계, 에이전틱 프레임워크 구축, 고객사의 도메인 전문가·엔지니어와의 협업을 통한 AI 도입을 지원한다. AI 모델 평가, 컨텍스트 및 추론 문제 해결, 보안 이슈 처리도 담당한다.
오픈AI, 구글, 마이크로소프트는 대규모 언어 모델 자체를 제품으로 파는 방식에서 벗어나고 있다. 레이밍은 “이제 이 기업은 고객사 내부에 직접 들어와 인프라를 구축해 주려 한다”라고 말했다.
무료 토큰, 새로운 직원 복지로
엔비디아 CEO 젠슨 황은 토큰이 엔지니어에게 직원 복지로 제공되는 경우도 생겼다고 밝혔다. 전문가는 이를 기업이 직원의 휴대폰 요금을 대신 내주는 관행에 비유한다.
레이밍은 아직 그런 사례를 직접 본 적은 없다며 낯선 발상이라고 밝혔다. 다만 실제로 그런 일이 일어나고 있다면, 어느 업체가 무료 토큰을 제공하느냐가 핵심이라고 강조했다.
한편, 레이밍은 고용주가 오픈AI나 마이크로소프트 무료 토큰을 제공하는 것은 간접적인 형태의 업체 락인이 될 수 있다고 지적했다. “특정 제품에 익숙해질수록 더 많이 쓰게 되니, 사용 유인이 생기는 것”이라는 설명이다.
무료 토큰은 아직 기업 환경에 적용하기엔 리스크가 있는 신흥 AI 기술의 도입을 촉진하는 수단이 되기도 한다. 예를 들어 많은 기술 리더가 기업 환경에서 활용하기 위험하다고 판단해 오픈클로를 사비로 탐색하고 있다.
ARM 수석 부사장(AI 및 개발자 플랫폼 담당) 알렉스 스피넬리도 자비로 오픈클로를 실험하는 인물 중 한 명이다.
스피넬리는 ” 오픈클로 설정이 잘못됐을 때 주말 하루에 500달러 청구서를 받았고, 도대체 무슨 일이 있었던 건지 당황했다. 공짜 점심은 없다. 토큰은 비싸다”라고 말했다.