"생성형 AI의 기반" 대규모 언어 모델 총정리

GPT, 바드, 라마 2 같은 대규모 언어 모델(LLM)은 대중의 상상력을 자극하고 다양한 반응을 끌어냈다. LLM에 대한 열기의 이면을 살펴보면서 대규모 언어 모델의 기원, 이러한 모델이 어떻게 구축 및 학습되는지를 살펴본다. 또한, 어떤 범위에서 효과적인지 검토하고, 가장 많이 사용되는 LLM에 대해 알아보자.
 

대규모 언어 모델이란?

언어 모델의 시초는 20세기 초까지 거슬러 올라가지만 대규모 언어 모델이 본격적으로 부상한 시점은 신경망이 도입된 이후다. 특히 2017년에 등장한 트랜스포머(Transformer) 심층 신경망 아키텍처는 언어 모델에서 LLM으로의 진화에 큰 역할을 했다. 


대규모 언어 모델은 설명 프롬프트를 기반으로 한 텍스트 생성, 코드 생성 및 코드 완성, 텍스트 요약, 언어 간 번역, 텍스트-투-스피치 및 스피치-투-텍스트 애플리케이션을 포함한 다양한 작업에 유용하다.
 
한편, 적어도 현재 개발 단계에서의 LLM에는 단점도 있다. 생성된 텍스트의 품질이 그다지 좋은 편이 아니며, 형편없는 경우도 종종 발생한다. LLM은 없는 사실을 만들어 내기도 하는데 이를 환각(hallucination)이라고 한다. 답을 구하는 사용자에게 관련 지식이 없다면 환각은 상당히 그럴듯하게 들릴 것이다. 

언어 번역의 경우, 네이티브 스피커의 검수를 받지 않은 문장은 100% 정확한 경우가 거의 없지만, 검수는 일반적으로 상용구에 한해서만 이뤄진다. 생성된 코드에는 버그가 흔하고, 아예 실행되지 않는 경우도 있다. 대체로 LLM은 논란의 여지가 있는 언급을 하거나 불법적인 행동을 추천하는 일이 없도록 미세한 조정을 거치지만 악의적인 프롬프트를 사용하면 안전 장치를 무력화할 수도 있다.
 
대규모 언어 모델을 학습시키기 위해서는 대규모 텍스트 말뭉치(corpus)가 하나 이상 필요하다. 학습 예제에는 1B 워드 벤치마크(1B Word Benchmark), 위키피디아, 토론토 북 코퍼스(Toronto Books Corpus), 커먼 크롤(Common Crawl) 데이터 집합, 그리고 공개 오픈소스인 깃허브 리포지토리 등이 포함된다. 

대규모 텍스트 데이터 집합에는 저작권 침해와 쓰레기라는 두 가지 문제점이 있다. 저작권 침해의 경우 현재 여러 관련 소송이 진행 중이다. 쓰레기는 최소한 청소는 가능하다. 쓰레기 청소가 된 데이터 집합의 예로, 커먼 크롤 데이터 집합을 기반으로 한 800GB 용량의 데이터 집합인 콜로설 클린 크롤드 코퍼스(Colossal Clean Crawled Corpus: C4)가 있다.
 

대규모 언어 모델은 딥러닝 신경망, 대규모 학습 말뭉치를 사용하며, 신경망을 위한 수백만 개 이상의 매개변수 또는 가중치를 필요로 한다는 면에서 전통적인 언어 모델과 다르다.

 
하나 이상의 대용량 학습 말뭉치와 함께 LLM에는 많은 수의 매개변수, 즉 가중치가 필요하다. 매개변수의 수는 지금까지 매년 증가했다. 엘모(ELMo, 2018)의 매개변수 수는 9,360만 개이며 버트(BERT, 2018)는 1억 1,700만 개, T5(2020)는 2억 2,000만 개다. GPT-2(2019)의 경우 16억 개, GPT-3(2020)는 1,750억 개, 팜(PaLM, 2022)은 5,400억 개이며 GPT-4(2023)의 매개변수는 1조 7,600억 개에 이른다.


매개변수가 많을수록 모델의 정확도는 높아지지만 그만큼 더 많은 메모리가 필요하고 실행 속도가 느려진다. 2023년에는 비교적 작은 모델들이 여러 가지 크기로 출시되기 시작했다. 예를 들어 라마 2(Llama 2)는 70억 개, 130억 개, 700억 개 버전으로 제공되며 클로드 2(Claude 2)는 930억 개와 1,370억 개의 매개변수 크기로 제공된다.
 

텍스트를 생성하는 AI 모델의 역사

언어 모델의 시초는 1913년에 시에 수학을 적용한 안드레이 마코프다. 마코프는 푸시킨의 유게니 오네긴에서 한 문자가 나타날 확률은 이전 단어에 따라 달라지며, 일반적으로 자음과 모음이 번갈아 나타나는 경향이 있음을 밝혀냈다. 현재 마코프 체인은 각 이벤트의 확률이 이전 이벤트의 상태에 따라 달라지는 이벤트 시퀀스를 설명하는 데 사용된다.
 
마코프의 연구는 1948년 클로드 섀넌의 통신 이론에서 확장됐고, 이후 IBM의 프레드 젤리넥과 로버트 머서가 1985년에 교차 검증 기반의 언어 모델을 만들어 실시간 대규모 어휘 음성 인식에 적용하면서 다시 한번 확장됐다. 기본적으로 통계적 언어 모델은 단어의 시퀀스에 확률을 할당한다.
 
언어 모델의 실제 작동을 간단히 보려면 구글 검색 또는 휴대폰에서 자동 완성을 켠 상태로 문자 메시지 앱에 단어를 몇 개 입력해보면 된다.
 
2000년에 요슈아 벤지오와 공동 저자들은 통계적 언어 모델의 확률을 신경망으로 대체하여 차원의 저주를 회피하고 당시 최첨단 기술이었던 평탄화 트라이그램(smoothed trigram) 모델에 비해 단어 예측을 20%~35% 개선하는 신경 확률 언어 모델을 다룬 논문을 발표했다. 피드 포워드 자동 회귀 신경망 언어 모델 개념은 지금도 여전히 사용되지만, 현재의 모델은 매개변수 수가 수십억 개에 이르고 광범위한 말뭉치로 학습되며, 그래서 ‘대규모 언어 모델’이라는 명칭으로 불린다.


언어 모델이 성능 개선을 목표로 발전하면서 시간이 갈수록 크기도 커졌다. 그러나 이 같은 크기 증가에는 단점도 있다. 2021년에 발표된 논문 ‘확률적 앵무새의 위험에 대해: 언어 모델의 크기에는 한계가 없는가?’는 언어 모델은 클수록 좋다고 생각하는 경향에 대해 의문을 제기한다. 논문 저자는 웹의 모든 것을 수집하지 말고 환경적, 재정적 비용을 먼저 고려해서 데이터 집합을 선별 및 문서화하는 데 투자할 것을 제안한다.


위 포스팅이 문제될 경우 삭제하겠습니다.

출처 : https://www.itworld.co.kr/t/69500/AI%E3%86%8DML/314561

Powered by Blogger.