생성형 AI 사용한 의사, 더 안전한 진료 결정 내려…BIDMC 연구

 챗봇을 사용한 의사와 그렇지 않은 의사의 진단 정확도와 속도를 비교한 최근 연구 결과, AI를 활용한 쪽이 더 우수한 것으로 나타났다.

네이처지에 게재된 연구에 따르면, AI 챗봇이 임상 진료의 핵심 첫 단계인 진단 추론(diagnostic reasoning)에서 인간 의사를 빠르게 능가했다. 생성형 AI 챗봇의 기반이 되는 LLM에 접근할 수 있는 의사는 그렇지 않은 의사보다 환자 진료 업무에서 더 높은 성과를 보이는 것으로 나타났다. 또한 챗봇을 활용한 의사는 환자 사례에 더 많은 시간을 할애하고 생성형 AI 도구 없이 진료한 의사보다 더 안전한 결정을 내리는 경향이 있는 것을 발견했다.


미국 하버드 의과대학 병원 베스 이스라엘 디코니스 메디컬센터(Beth Israel Deaconess Medical Center, BIDMC) 소속 의사 10여 명이 참여한 이번 연구는 ‘개방형 의사결정’을 지원하는 의사의 파트너로서 생성형 AI의 가능성을 보여줬다.


BIDMC AI 프로그램 책임자인 애덤 로드먼은 “환자 치료 향상을 위한 LLM의 잠재력을 실현하려면 철저한 검증이 필요하다. 진단 추론은 종종 하나의 정답이 존재하는 영역이므로 LLM이 뛰어난 성과를 보이지만, 관리 추론(management reasoning)은 정답이 없을 수도 있으며, 본질적으로 위험을 수반하는 여러 선택지 사이에서 균형을 맞추는 과정이 포함된다”라고 설명했다.


이번 연구의 결론은 92명의 의사가 5가지 가상 환자 사례를 통해 의사결정 능력을 평가한 결과를 바탕으로 도출됐다. 연구는 검사, 치료, 환자 선호도, 사회적 요인, 비용, 위험 요소 등을 종합적으로 고려하는 관리 추론에 초점을 맞췄다.


가상의 환자 사례에 대한 의사들의 답변을 채점한 결과, 챗봇을 활용한 의사가 기존 자료만 사용한 의사보다 훨씬 높은 점수를 기록한 것으로 나타났다. 챗봇 사용자는 사례당 평균 약 2분 더 많은 시간을 할애했으며, 챗봇을 사용하지 않은 의사보다 경미한~중증도 수준의 위해 발생 가능성이 낮았다(3.7% vs. 5.3%). 심각한 위해 발생 가능성은 두 그룹 간에 큰 차이가 없었다.


로드먼은 “AI가 환자와의 의사소통 및 환자 관련 요소에서 관리 추론을 개선하는 데 기여했다. 합병증 인지나 약물 치료 결정과 같은 영역에는 큰 영향을 미치지 않았다. 연구팀은 ‘즉각적인 위해’라는 높은 기준을 사용했으며, 의사소통 부족이 즉각적인 위해를 초래할 가능성은 낮다”라고 설명했다.


이전 연구과의 차이점

로드먼과 그의 동료들이 2023년 진행한 이전 연구에서도 생성형 AI 기술의 역할에 대해 조심스럽지만 긍정적인 결론이 나왔다. 연구팀은 생성형 AI가 임상 사례의 진행 과정 전반에서 인간과 동등하거나 더 나은 추론을 보여줄 수 있다는 점을 발견했다.


미국의학협회저널(American Medical Association, JAMA)에 게재된 당시 연구는 의사의 임상 추론 능력을 평가하는 표준화된 테스트 도구를 활용했다. 21명의 전문의와 18명의 레지던트가 참여했으며, 이들은 새로운 사례가 아닌 기존 20개의 임상 사례를 바탕으로 4단계에 걸쳐 진단 추론을 수행했다. 각 단계에서 감별 진단을 작성하고 그 근거를 제시하는 방식이었다.


연구팀은 같은 임상 사례와 동일한 지침을 적용해 GPT-4 기반 챗GPT를 테스트했다. 그 결과, 생성형 AI가 유망한 가능성을 보여줬지만 동시에 우려할 부분도 있었다.


챗봇은 일부 평가 항목에서 평균 10점 만점 중 10점을 받으며 가장 높은 점수를 기록했다. 전문의는 9점, 레지던트는 8점을 기록했다. 진단 정확성과 추론 능력에서는 인간과 챗봇 간에 큰 차이가 없었지만, 챗봇은 잘못된 추론을 한 사례가 더 많았다. 연구팀은 이를 바탕으로 AI는 인간의 추론을 대체하기보다는 보완하는 데 가장 적합하다고 결론지었다. 간단히 말해 “챗봇이 완전히 틀린 답을 내놓는 경우도 있었다”라고 보고서는 지적했다.


로드먼은 이전 연구에서 생성형 AI가 더 많은 오류를 보인 이유를 단정할 수 없다며 “새로운 연구에서는 평가 방식이 달라졌기 때문에 환각(hallucination)이 개선됐을 가능성이 있지만, 이는 과제에 따라 다를 수도 있다. 이전 연구가 다룬 진단 추론은 명확한 정답이 있는 분류 작업이지만, 관리 추론은 상황에 따라 달라지며 여러 개의 허용 가능한 답변이 존재할 수 있다”라고 덧붙였다.


이번 연구와 이전 연구의 핵심 차이점은 비교 방식이다. 이전 연구는 AI와 인간을 직접 비교했지만, 이번 연구에서는 AI를 사용하는 의사 그룹과 AI 없이 진료하는 의사 그룹을 비교했다. 로드먼은 “AI만을 대상으로 한 작은 기준선도 포함했지만, 이번 연구에서는 다중 효과 모델(multi-effects model)을 사용해 비교를 진행했다. 즉, 이번 연구에서는 AI의 영향이 인간을 통해 간접적으로 나타나는 방식”이라고 설명했다.


BIDMC에서 내과 레지던트 3년차이자 연구 책임자인 스테파니 카브럴은 LLM이 임상 진료에 어떻게 적합하게 활용될 수 있는지에 대한 추가 연구가 필요하지만, 의사의 실수를 방지하는 유용한 점검 도구로서 이미 활용될 수 있다고 말했다. 카브럴은 “궁극적으로 AI가 현재 의료 시스템의 비효율성을 줄여 환자와의 대화에 더 집중할 수 있도록 돕기를 바란다”라고 밝혔다.


이번 연구에서는 업그레이드된 최신 버전의 GPT-4를 사용했으며, 이는 결과 차이를 설명하는 한 요인이 될 수 있다고 연구팀은 언급했다.


로드먼에 따르면, 현재까지 의료 분야에서 AI는 주로 환자 포털 메시지 응답과 같은 업무에 활용돼 왔다. 그러나 챗봇은 특히 복잡한 작업에서 인간의 의사결정을 보완하고 향상시키는 역할을 할 가능성이 있다.


로드먼은 “이번 연구 결과는 유망하지만, 환자 치료 개선을 위한 LLM의 잠재력을 완전히 실현하려면 철저한 검증이 필요하다. 이번 연구는 LLM이 임상 판단을 보조하는 유용한 도구로 활용될 가능성을 시사한다. LLM이 단순히 의사결정 속도를 늦추고 더 깊이 고민하도록 유도하는 것인지, 아니면 실제로 추론 과정을 적극적으로 지원하는 것인지에 대한 추가 연구가 필요하다”라고 강조했다.


로드먼은 챗봇 테스트가 이제 두 단계의 후속 연구 중 다음 단계로 접어들었다고 말했다. 첫 번째 후속 연구에서는 연구자들이 분석할 새로운 원시 데이터를 생성했으며, 앞으로는 다양한 사용자 상호작용을 연구할 계획이다. 여기에는 여러 유형의 챗봇, 다른 사용자 인터페이스, 의사가 LLM을 활용하는 방식(예 : 보다 구체적인 프롬프트 설계) 등을 비교하는 실험이 포함된다. 연구원들은 이런 요소가 챗봇의 성능과 의사의 의사결정 과정에 어떤 영향을 미치는지를 통제된 환경에서 연구할 예정이다.


두 번째 단계에서는 보관된 환자 사례가 아닌, 실시간 환자 데이터를 활용한 연구가 진행된다. 또한 로드먼은 “보안이 강화된 LLM을 활용한 인간-컴퓨터 상호작용(Human-Computer Interaction, HCI)을 연구하고 있다. 이는 미국 의료정보보호법(HIPAA) 준수 환경에서 진행되며, 이런 효과가 실제 임상 환경에서도 유지되는지를 확인하는 것이 목표”라고 설명했다.


※위 포스팅이 문제될 경우 삭제하겠습니다.

출처 : https://www.itworld.co.kr/article/3824701/%ec%83%9d%ec%84%b1%ed%98%95-ai-%ec%82%ac%ec%9a%a9%ed%95%9c-%ec%9d%98%ec%82%ac-%eb%8d%94-%ec%95%88%ec%a0%84%ed%95%9c-%ec%a7%84%eb%a3%8c-%ea%b2%b0%ec%a0%95-%eb%82%b4%eb%a0%a4%ec%9e%84%ec%83%81.html

Powered by Blogger.