스마트 글래스의 진정한 혁신은 ‘자막’에서 시작된다

 다가올 스마트 글래스 혁명의 핵심 활용례는 ‘자막’이 될 것이다. 그 이유를 살펴본다.



몇 년 전만 해도 마이크로소프트 홀로렌즈(HoloLens)와 매직리프(Magic Leap)는 디지털 세계와 현실을 융합한 혁신적인 시각 경험의 미래를 약속했다. 이들 헤드셋은 크기가 크고 가격이 꽤 비싼 폐쇄적인 시스템이었고 실제로 두 제품 모두 점차 퇴장 수순을 밟고 있지만, 이들이 선보인 데모 덕분에 AR(Augmented Reality)의 미래가 화려한 3D 시각 콘텐츠로 가득 찬 세계가 될 것이라는 인식은 대중에게 깊이 각인됐다.


홀로렌즈는 사용자의 주변 환경에 상호작용 가능한 3D 홀로그램을 투사해 손짓이나 시선 추적, 음성 명령으로 조작할 수 있도록 했다. 공개 데모에서는 거실에서 가상 로봇과 전투를 벌이거나, 교육용으로 활용되는 거대한 인체 모형을 보여주는 장면이 등장했다.


매직 리프는 AI 비서 미카(Mica)처럼 현실감 넘치는 디지털 인간을 선보였다. 미카는 사용자의 감정을 인식하고 마치 같은 공간에 있는 것처럼 상호작용할 수 있었다. 매직리프는 여러 사용자가 함께 대형 3D 모델을 조작하며 건축 설계를 살펴보거나 협업할 수 있는 워크스루 환경을 약속했다.


화려하고 인상적인 기술이었지만, 시장은 지나치게 시각 중심적인 기기를 받아들이지 않았다.


하지만 필자는 AR과 헤드업 디스플레이가 빠르게 대중화될 것이며, 시각적 요소의 가장 일반적인 활용례는 ‘자막’이 될 것이라고 전망한다.


자막의 놀라운 영향력

CBS 뉴스와 프리플라이(Preply)의 조사에 따르면, 미국에서는 절반이 넘는 홈 무비 및 TV 시청자가 자막을 켠 채 콘텐츠를 본다고 응답했다. 2024년 설문조사에서는 Z세대 성인(18~25세) 70%, 밀레니얼 세대(25~41세) 53%가 유튜브를 포함한 대부분의 온라인 영상 콘텐츠를 자막 또는 캡션과 함께 시청한다고 밝혔다.


주변 소음과 미디어 볼륨을 직접 제어할 수 있는 환경에서도 자막이나 캡션을 선호한다는 점은, 스마트 글래스나 AI 글래스에서 자막 기능이 제공될 경우 대다수 사용자가 이를 활성화할 가능성이 높다는 점을 시사한다. 특히 맥락이 불분명한 상황에서는 이런 경향이 더욱 뚜렷할 것으로 보인다.


일반적인 안경처럼 보이면서 착용자에게 시각 정보를 제공하는 커넥티드 AI 글래스는 세상을 자막으로 보여주기에 이상적인 기기다. 내장된 마이크는 소리를 듣고, 카메라는 상황을 관찰하며, AI는 이를 해석해 착용자에게만 보이는 글자로 그 내용을 전달할 수 있다. 매우 강력한 기술이다.


스마트 글래스의 자막 기능은 다음과 같이 다양하게 활용될 수 있다.


보청기 대체

애플이 에어팟을 청각 장애인을 위한 보청기로 전환하려고 시도하는 한편, 일부 기업은 한 걸음 더 나아가 청각 장애인을 위한 자막 제공 기능을 개발하고 있다.


미국 기업 뷰직스(Vuzix)와 잰더(Xander)는 현재 청각 장애인을 위한 자막 제공 스마트 글래스를 판매한다. 이 제품은 뷰직스의 M400 스마트 글래스와 잰더의 소프트웨어를 기반으로 하며, 내장 마이크로 음성을 감지한 뒤 이를 실시간으로 문자로 전환해 렌즈 위에 자막처럼 투사한다. 모든 기능이 글라스 내부에서 작동하기 때문에 스마트폰이나 인터넷 연결 없이도 사용할 수 있다. 현재 이 제품은 난청 클리닉과 병원에서 환자와 함께 사용할 수 있도록 오디오 전문가와 의료 기관에 판매되고 있다.


언어 번역

3년 전 구글은 자막 기능을 언어 번역에 활용하는 실험용 프로토타입을 통해 그 가능성을 선보였다. 현재는 단종된 이 제품은, 서로 다른 언어를 사용하는 두 사람이 자막을 통해 원활하게 대화하는 모습을 담은 영상으로 큰 주목을 받았다. 구글이 제작한 영상은 자막이 언어 장벽을 허물고 실시간 소통을 가능하게 만드는 완벽한 사례를 보여줬다.


최근에는 메타가 실험적으로 선보였던 ‘라이브 번역(Live Translation)’ 기능을 모든 레이밴 메타(Ray-Ban Meta) 사용자에게 정식으로 제공하기 시작했다. 필자는 이탈리아를 포함해 멕시코, 스페인, 프랑스 등에서 레이밴 메타 글래스로 이 기능을 사용해 봤지만, 자막 기능이 없다는 점에서 명확한 한계를 느꼈다. 번역 결과가 귀에 들리도록 음성으로 전달되고 앱에 문자로 표시되기는 하지만, 안경 렌즈에 자막 형태로 직접 보여주는 기능은 제공되지 않는다. 그럼에도 앱을 통해 자신이 말한 언어를 상대 언어로 번역해 주는 기능은 매우 유용했다.


번역되는 모든 내용을 안경 렌즈에서 바로 볼 수 있다면 훨씬 더 놀라운 경험이 될 것이다.


참고로 필자는 메타의 또 다른 기능인 ‘라이브 AI(Live AI)’도 함께 사용한다. 이 기능을 켜두면 외국어 표지판이 무슨 뜻인지 메타 어시스턴트에게 물을 수 있고, 영어로 바로 알려준다. 해외에서 외국어로 된 모든 표지판이 항상 모국어로 보인다고 상상해 보라. 더 놀라운 점은, 라이브 번역과 달리 어떤 언어를 번역할 것인지 미리 지정할 필요가 없다는 것이다. 일본어든 프랑스어든 포르투갈어든 상관없이 똑같은 속도로 즉시 번역한다.


발표자 노트

구글 AR 부문 부사장 샤흐람 이자디는 최근 TED 강연에서 구글의 새로운 안드로이드 XR 플랫폼을 공개했다. 이자디는 AR과 AI를 결합한 혁신적인 활용례를 다수 소개했지만, 그중에서도 자신이 착용한 프로토타입 글래스를 통해 발표자 노트를 볼 수 있다는 점을 강조했다.


연설이나 프레젠테이션 중 노트를 표시하는 기능 외에도, 자막 기능은 언론인이나 정치인에게 연설, TV 출연, 팟캐스트 방송 중 안경을 텔레프롬프터처럼 활용할 수 있는 기능을 제공하게 될 것이다.


여행 및 관광

박물관에서 오디오 가이드를 대여하거나, 관광객이 여행지에서 주변 정보를 얻기 위해 다양한 미디어를 활용하는 것은 이미 흔한 일이다. 이처럼 주변 맥락을 이해해야 하는 상황에서 AI와 AR은 최적의 조합이다. 스마트 글래스를 통해 동네, 문화유산, 박물관 전시물 등에 대한 설명을 조용한 자막 형태로 받아볼 수 있다면 훨씬 더 깊이 있는 여행 경험을 누릴 수 있다.


콘텐츠 소비

마지막으로 다시 처음으로 돌아온다. AR 글래스에서 자막 기능을 활용하면 두 사람이 같은 TV 프로그램, 영화, 유튜브 영상을 함께 시청하면서도 한 사람은 자막을 보고, 다른 사람은 자막 없이 시청하는 등 각자 원하는 방식으로 콘텐츠를 감상할 수 있다.


이 기능은 콘서트에서 가사 자막을 보여주거나, 이탈리아 오페라 공연 중 실시간 번역을 제공하거나, 식당에서 흘러나오는 음악의 제목을 식별하는 데도 적용할 수 있다. 이처럼 소음이 많은 환경에서도 다양한 맥락 정보를 시각적으로 제공할 수 있다는 점에서 활용 가능성은 무궁무진하다.


AR의 본질은 세상이 명확하게 제공하지 않는 유용한 정보를 세상 위에 덧입히는 데 있다. 지금까지는 화려한 시각 효과에 주목해 왔지만, 현실을 가장 효과적으로 증강하는 방법은 사실 단순하다. 자막과 캡션이다.


※위 포스팅이 문제될 경우 삭제하겠습니다.

출처 : https://www.itworld.co.kr/article/3979090/%ec%8a%a4%eb%a7%88%ed%8a%b8-%ea%b8%80%eb%9e%98%ec%8a%a4%ec%9d%98-%ec%a7%84%ec%a0%95%ed%95%9c-%ed%98%81%ec%8b%a0%ec%9d%80-%ec%9e%90%eb%a7%89%ec%97%90%ec%84%9c-%ec%8b%9c%ec%9e%91.html

Powered by Blogger.