AI 사용량 경쟁 유도하다 비용 폭탄 맞은 기업들…”AI 너무 써도 안 돼”
기업이 AI 도입 실적을 측정하려 앞다퉈 도입한 내부 리더보드가 오히려 형식적인 보안 활동에 가까운 역기능을 낳고 있다.
많은 기업이 직원을 대상으로 AI 도입을 독려하고 있으며, 누가 AI 토큰을 가장 많이 사용했는지를 보여주는 내부 리더보드도 속속 등장하고 있다. 그러나 아마존에서는 최근 이런 방식이 역효과를 낳을 수 있다는 사례가 발견됐다.
아마존의 AI 개발 도구 ‘키로(Kiro)’ 사용량을 추적하는 비공식 리더보드 키로랭크는 AI 활동량에 따라 직원의 순위를 매겼다. 그러나 파이낸셜타임스 보도에 따르면, 아마존 고위 관리자는 직원이 점수를 올리기 위해 불필요한 작업을 수행하는 AI 에이전트를 만들어 가동하고 있다는 사실을 파악했다. 이른바 ‘토큰맥싱’이라 불리는 행위다. 키로랭크는 결국 운영을 중단했다.
아마존의 시니어 부사장 데이브 트레드웰은 직원에게 “AI를 위한 AI 사용은 자제해 달라”고 당부하며, 리더보드는 “좋은 의도로 만들어졌지만” 발생한 컴퓨팅 비용이 너무 높았다고 밝혔다. 아마존은 이후 성과 측정 기준을 원시 토큰 소비량에서 ‘정규화된 배포 수(normalised deployments)’, 즉 실제로 출시된 AI 기반 코드를 중심으로 전환했다고 알려졌다.
AI 도입을 높이려는 시도가 의도치 않은 부작용을 낳은 사례는 아마존만이 아니다. 4월, 메타는 직원이 비공식적으로 만든 순위 시스템 ‘클로디오노믹스(Claudeonomics)’를 폐기했다. 역시 토큰맥싱 열풍을 조장했다는 이유에서였다.
클로디오노믹스 사태는 적지 않은 후폭풍을 남겼다. 한 메타 엔지니어는 월 5억 원 상당(약 3,000억 토큰)의 토큰을 소비해 순위권에 오른 것으로 알려졌으며, 직원이 종일 가동되는 유휴 AI 에이전트를 동원해 사용량을 인위적으로 부풀렸다는 내부 증언도 나왔다. 메타는 외부 유출을 이유로 리더보드를 폐쇄했지만, 엔지니어 대상의 별도 공식 토큰 사용 현황 대시보드는 계속 운영 중인 것으로 전해진다.
비슷한 고민은 다른 기업 사이에서도 확산되고 있다. 우버는 내부 팀 리더보드를 통해 AI 도구 사용을 장려한 결과, 엔지니어 약 5,000명이 사용하는 클로드 코드와 커서 비용이 폭증하면서 2026년 연간 AI 코딩 도구 예산을 불과 4개월 만에 소진했다. 포브스 등 복수 매체의 보도에 따르면, 우버 엔지니어 개인의 월별 API 비용은 500~2,000 달러에 달했다. CTO 네팔리 나가는 더 인포메이션과의 인터뷰에서 “예산이 이미 완전히 소진됐다”며 “처음부터 다시 계획을 세워야 하는 상황”이라고 밝혔다. 우버의 최고운영책임자(COO) 앤드루 맥도널드는 이후 AI 투자와 실제 제품 성과 사이의 연결고리를 명확히 입증하기 어렵다고 공개적으로 인정했다.
마이크로소프트 역시 클로드 코드 관련 비용 부담을 피해가지 못했다. 더 버지 보도에 따르면, 마이크로소프트는 윈도우·마이크로소프트 365·아웃룩·팀즈·서피스 등을 담당하는 익스피리언스 앤 디바이시스(Experiences and Devices) 부문 엔지니어 대상의 클로드 코드 라이선스를 6월 30일까지 대부분 해지하고, 대신 마이크로소프트가 자체 보유한 깃허브 코파일럿 CLI(코파일럿 CLI)로 전환을 유도하기로 했다.
토큰 사용량은 측정하기 쉽다. 그러나 그 사용량이 실제로 어떤 비즈니스 가치를 창출하는지는 가늠하기가 훨씬 어렵다. AI 업체는 자사 서비스의 가치를 측정할 더 나은 지표를 모색하고 있지만, 아직 뚜렷한 성과를 내지 못하고 있다. 세일즈포스의 새로운 지표 도입 시도가 업계에서 냉담한 반응을 얻은 것도 같은 맥락이다.
이 문제의 근본에는 이른바 굿하트의 법칙이 자리한다. 특정 측정 지표가 목표 자체가 되는 순간, 그 지표는 신뢰할 수 있는 측정 도구로서의 기능을 잃는다는 것이다. 토큰 소비량을 AI 생산성의 대리 지표로 삼자마자, 직원은 토큰 소비 극대화 자체를 목표로 삼기 시작했다.