LLM의 미래는 ‘특화’에 있다…의료·법률·금융 분야 맞춤형 모델 21가지
대규모 언어 모델(LLM)이 날로 고도화되면서 동시에 높은 전문성을 요구하는 특정 분야에 최적화된 모델 개발이 가속화되고 있다. 의료, 법률, 금융, 엔지니어링 등 고부가가치 전문 지식이 필요한 영역에서 기업과 연구기관이 앞다퉈 특화 모델을 내놓고 있는 상황. 비용 효율성과 정확도 측면에서 우수한 21개의 특화 LLM을 살펴본다.
대규모 언어 모델(LLM)이 대화를 할 수 있다는 정도에 모두가 놀란 시절은 지나간지 오래다. 이제 초점은 지식의 깊이에 있다. 심층적인 지식을 제공하는 최선의 방법은 전문화다. 앞서가는 이들은 모든 상황에 맞는 거대한 단일 모델을 개발하는 것이 아니라 의사, 변호사, 은행 등을 위한 모델 등 틈새를 노리는 전문 모델을 구축하고 있다. 이 추세는 앞으로도 계속된다. 곧 어깨 인공관절 치환술을 집도하는 정형외과 의사는 오른손잡이 환자용 모델과 왼손잡이 환자용 모델을 따로 두고 사용하게 될 수도 있다.
전문화로 향하는 추세에서는 품질 못지않게 효율성도 중요하다. 특정 분야에 초점을 두는 모델은 크기가 더 작고, 작은 모델은 운영 비용이 적게 든다. 실제로, 잘 알려진 대규모 모델 중 일부는 “전문가 혼합” 알고리즘으로 통합된 여러 소규모 모델의 집합체다.
또한 특정 분야에 초점을 맞춘 모델은 충실한 학습 코퍼스가 있다는 전제하에 학습 비용도 더 저렴하다. 법률 LLM에 17세기 프랑스의 시에 대한 세세한 내용이나 수달의 짝짓기 습성을 가르치기 위해 막대한 전력을 쓸 필요는 없기 때문이다.
다만 학습용 코퍼스를 만드는 일이 쉽지는 않다. 많은 경우 온톨로지를 구축하고 답변을 재확인하기 위한 전문가를 따로 고용한다. 사실관계가 확실한지, 신뢰할 수 있는 참고 자료에 의해 뒷받침되는지 확인하는 부분은 인간에게 의존한다. LLM이 처음 등장한 초기에는 얼마간의 환각이 용인되기도 했지만 법률 또는 의학과 같은 전문적인 분야의 질문을 하는 사용자에게 환각은 결코 용인되지 않는다.
주로 초점이 맞춰지는 분야는 의학, 법률, 금융, 엔지니어링 등 가장 많은 비용이 드는 전문 지식 계층이다. 어떤 의미에서는 일자리 시장을 통해 사회에서 가장 가치 있는 일이 무엇인지 이미 확인이 됐다. 특정 분야에 초점을 맞춘 LLM을 구축한다면 의사, 변호사, 은행가를 모방할 방법을 살펴보면 된다.
특정 분야에 초점을 둔 서비스가 이런 고급 인력이 고임금을 요구할 수 있는 입지를 약화시킬 것은 확실하지만, 얼마나 많은 인력이 대체될지는 불분명하다. 많은 경우 LLM은 더 넓고 포괄적인 지식을 바탕으로 모호한 사실을 찾아내는 데 뛰어나다. LLM은 인간을 위한 “전력 승수기” 역할을 한다고 생각하는 편이 아마 더 정확할 것이다.
특정한 요구사항이 있는 경우, 그 특정한 한 가지 일에 능력을 발휘하도록 만들어진 흥미롭고 새로운 LLM을 알파벳 순서로 소개한다.
바이오GPT(BioGPT)
마이크로소프트는 수백만 개의 펍메드(PubMed) 초록을 사용해 GPT-2 아키텍처 트랜스포머 모델을 학습시켜 바이오GPT를 만들었다. 질문에 대해 확실하고 이해하기 쉬운 답변을 생성하는 생성형 툴을 만드는 데 목표를 두고 개발됐다. 이후 마이크로소프트는 매개변수 수를 4~5배 늘린 대신 질답에 훨씬 더 능한 바이오GPT-Large, 바이오GPT-Large-PubMedQA와 같은 확장 버전도 만들었다.
바이오미스트랄(BioMistral)
미스트랄은 미스트랄 7B 인스트럭트(7B Instruct) v0.1 파운데이션 모델을 기반으로 펍메드 센트럴 오픈 액세스(PubMed Central Open Access)의 학습 세트를 혼합해 바이오미스트랄을 만들었다. 파운데이션 모델은 지시 이행에 초점을 두는데, 이 특성은 요약을 비롯한 많은 표준적인 작업을 수행하는 보조적 역할에서 특히 유용하다. 파운데이션 모델이 다국어를 지원하므로(영어, 스페인어, 독일어, 포르투갈어, 러시아어, 프랑스어, 아랍어, 중국어) 사용 가능한 지역이 광범위하고 4비트 및 8비트 양자화 버전으로 리소스가 제한된 배포 환경도 지원한다. 또한 미스트랄은 새로운 의학 정보를 통합하기 위해 다양한 알고리즘을 통해 생성된 DARE, TIES, SLERP 등의 여러 실험적 버전도 제공한다.
블룸버그GPT(BloombergGPT)
블룸버그 터미널을 구독하는 투자자와 트레이더는 블룸버그GPT를 호출할 수도 있다. 블룸버그GPT는 금융을 위한 500억 매개변수 모델로, 40년 이상을 거치며 선별된 블룸버그의 방대한 금융 문서 모음으로 학습됐다. 서비스를 직접 구독해야만 사용할 수 있다.
챗GPT 헬스(챗GPT Health)
오픈AI가 만든 챗GPT 헬스는 환자가 병원 방문 일정을 준비하고 검사 결과를 해석하는 데 도움이 되며, 애플 헬스와 같은 건강 애플리케이션을 사용할 때 떠오를 수 있는 일반적인 질문에 답하는 툴이다. 단순히 의학 정보를 인코딩하는 데 그치지 않고 다른 소프트웨어와 더 쉽게 통합이 가능한 툴 또는 API를 제공하는 데 목표를 두고 만들어진 LLM이다. 모든 대화에 개인정보 보호 계층을 제공하므로 사용자는 “건강 전용 공간”을 둘 수 있다.
클라이밋BERT(ClimateBERT)
클라이밋BERT는 뉴스 기사, 연구 논문, 기업의 기후 보고서 등에서 추출한 기후 관련 텍스트로 사전 학습됐다. 사용자는 텍스트에서 기후에 관한 주장을 논의, 반박하거나 팩트 체크하는 단락을 찾아서 분석할 수 있다. 모델은 이런 관련 토론 내용을 찾아낼 뿐만 아니라 그 토론에 담긴 감정도 분류하도록 학습됐다.
COiN
JP 모건 체이스는 고객 및 파트너와의 관계를 관할하는 다양한 비즈니스 문서를 분석하기 위한 목적으로 컨트랙트 인텔리전스(Contract Intelligence)라는 모델을 만들었다. LLM이 다양한 문서에서 허점을 찾을 수 있도록 계약 관련 법률에서 보편적으로 사용되는 많은 언어적 구조에 초점을 맞췄다. 법무 부서 시간의 30%를 절약하고 협상 속도를 높이는 효과가 있는 것으로 전해진다. (참고: JP 모건은 이 모델과 직접적인 관계는 없는 COIN이라는 암호화 토큰도 보유하고 있다.)
사이렌즈(CyLens)
사이렌즈는 사이버 보안 위협에 맞서는 정보 보안 전문가에게 도움을 주기 위해 대학 연구원들로 구성된 팀이 만든 모델이다. 수십만 건의 위협 보고서를 학습 세트로 모아 위협 귀속, 캠페인 분석과 같은 작업에 맞춰 모델을 파인 튜닝할 수 있는 LLM 기반의 “사이버 위협 인텔리전스 시스템”을 구축했다.
딥시크-R1 리걸(DeepSeek-R1 Legal)
여러 사용자가 다양한 법률 문서를 사용해 딥시크 파운데이션 모델을 파인 튜닝한 다음 그 결과를 양자화하고 있다. 목표는 생각의 사슬 추론 모델의 크기를 충분히 줄여 변호사 또는 고객 사무실 내에서 로컬로 실행할 수 있도록 하는 것이다.
어스-2(Earth-2)
어스-2는 엔비디아가 만든 LLM으로, 다변수 기상 예측이나 도시 규모의 대기 상태 시뮬레이션 구축과 같은 대규모 기후 질문에 대한 답을 제공한다. 패키지에는 즉각적인 예측용으로 튜닝된 어스-2 나우캐스팅(Nowcasting), 장기적인 글로벌 예측을 위한 어스-2 미디엄 레인지Medium Range)를 포함한 여러 모델이 포함된다. 또한 엔비디아는 그래픽 분야에서 축적한 역량을 십분 활용해 어스-2의 시각적 탐색 기능을 최적화했다.
이븐업(EvenUp)
개인 상해 변호사는 보험사에 보내야 하는 서신이 많은데, 이븐업은 이 작업에 도움이 되는 LLM이다. 기본 모델은 LLM을 사용해 텍스트 초안만 작성하므로 사용자가 문구와 법적 논거를 검토할 수 있다. 또한 결과를 검토할 인간 전문가가 이븐업과 짝을 이뤄 제공되는 서비스도 있다. 답변 속도가 썩 빠르지는 않지만 인간의 검토를 거치므로 그만큼 더 안심할 수 있다.
핀GPT(FinGPT)
AI4파이낸스 파운데이션(AI4Finance)은 기업 금융과 주식 시장 관련 질문에 대한 답변이 필요한 모든 사람을 위해 오픈소스로 핀GPT를 만들었다. 과거 주가를 분석하고 가까운 미래를 예측하는 데 최적화된 모델이다. AI4파이낸스 파운데이션은 핀로봇(FinRobot), 핀GPT-서치-에이전트(FinGPT-Search-Agent) 등이 포함된 프로그램 모음을 구성했는데, 이 툴도 포함된다.
GNoME
GNoME(Graph Networks for Materials Exploration)은 분자 및 결정 구조에 대한 지식을 체계화해서 과학자와 엔지니어가 작업에 맞는 재료를 더 쉽게 찾을 수 있도록 한다는 목표로 개발됐다. 엄밀히 LLM은 아니고, 알려진 수많은 분자 구조로 학습된 “그래프 신경망”이다.
하비 AI(Harvey AI)
변호사 및 기타 법률 업무 종사자를 위한 우수한 모델, 즉 문서를 검색해 실사 속도를 높이거나 논거를 구성하고 전 세계 수십 개국의 법률을 조사하는 등의 작업을 수행하는 모델을 목표로 개발된 모델이다. 사유 프로젝트이며, 로펌 변호사 또는 사내 법률 자문을 지원하는 데 집중한다.
주리스GPT(JurisGPT)
여러 그룹에서 변호사의 계약서 초안 작성이나 증거개시절차 진행, 과거 판례 조사에 도움이 되는 시스템을 구축하기 위해 맥락을 인식하는 법적 추론 및 과거 법률 문서에 대한 대규모 코퍼스를 추가하고 있는데, 그중에는 챗GPT에 호스팅되는 경우도 있고 로클로(LawClaw)와 같은 툴의 기반 역할을 하는 경우도 있다.
메드젬마(MedGemma)
구글의 오픈 웨이트 모델로, 의료 영상과 의료 기록의 텍스트를 해독하는 데 도움을 준다. 엑스레이, CT 스캔과 같은 고차원 소스의 영상 데이터는 추가 분석을 통해 평가 및 해독이 가능하다. 메드젬마 모델은 연구 또는 더 정교한 AI 파이프라인을 구축하는 데 유용한 빌딩 블록이 될 수 있다. 구글 클라우드, 그리고 허깅 페이스 및 기타 오픈 웨이트 모델 리포지토리를 통해 사용할 수 있다.
메디트론-70B(Meditron-70B)
로잔 연방공과대학교(École Polytechnique Fédérale de Lausanne)에서 라마-2-70B을 기반으로 펍메드의 논문과 초록, 그리고 일부 표준 임상 가이드라인을 혼합해 구축한 학습 세트로 파인 튜닝을 거쳐 만든 의료용 오픈 웨이트 LLM이다. 의료 교육 현장의 많은 표준적인 질문에 대한 답을 제공하는 동시에 오차 없이 정확히 진단해야 하는 임상의를 지원할 수 있는 모델, 즉 의료 증상과 원인, 치료에 대해 대화를 나눌 수 있는 모델을 생산하는 데 목표를 두고 개발됐다.
메드-PaLM(Med-PaLM)
구글의 메드-PaLM은 임상의가 신뢰할 수 있는 정확한 답변을 제공하는 데 최적화된 전문 아키텍처를 사용해 구축된 LLM이다. 트랜스포머 기반 모델로, 데이터 경로의 모든 단계에서 튜닝을 거쳐 해가 될 수 있는 위험한 답변을 생성할 가능성을 줄이면서 정확성을 높인다. 그 결과 임상 지식에 대한 광범위한 테스트뿐만 아니라 까다로운 상황에 대처하는 능력 측면에서도 우수한 성적을 낸다. 구글은 이 모델을 배포하지는 않고, 의료 종사자를 위한 구글의 메드LM(MedLM) 모델 제품군 일부로 홍보하고 있다.
오픈DAC(OpenDAC)
기후 변화를 완화하기 위한 CO2 대기 직접 포집 프로젝트에 참여하는 과학자들이 CO2를 흡수할 수 있는 최적의 화학물질을 찾기 위해 만든 모델이다. 범위는 매우 좁지만 중대한 사안이다. 목표는 경제적이면서 효과적인 새로운 흡착제를 찾는 것이다.
Phi-4-reasoning-plus
LLM이 수학적 추론에 최적화될 때, 즉 여러 단계에 걸쳐 일관성과 논리적인 생각의 사슬을 유지하도록 최적화될 때 어떻게 동작하는지 탐구하기 위한 목적으로 마이크로소프트가 개발한 모델이다. 수학 경시 대회와 알고리즘 문제 해결을 위한 다양한 질문을 사용해 학습과 테스트를 거쳤다.
Sec-PaLM 2
구글이 자체 PaLM 2 모델을 기반으로 사이버 보안 위협 및 악성 코드 예제로 구성된 문서 모음을 사용해 학습시켜 만든 LLM이다. 사용자는 로그 파일이나 이메일 첨부 파일의 이상한 부분에 대해 자연어로 질문하면서 문제에 대해 대화할 수 있다. 구글은 이 모델을 버텍스 AI 워크벤치(Vertex AI Workbench), 제미나이 시큐리티 커맨드 센터(제미나이 Security Command Center)와 같은 다른 구글 제품과 통합하고 있다.