GPT-4도 미국 의료 면허 시험 통과, 10만 분의 1 케이스 몇 초 만에 진단
지난 2023년 3월 14일에 출시된 GPT-4. 이전 생성형AI에 비해 훨씬 똑똑해졌다는 평가를 받는 가운데 미국 의사 시험도 가뿐하게 통과했다.
이전 버전인 챗GPT도 3단계 의사 시험을 모두 통과한 바 있지만, GPT-4는 상당히 우수한 성적에 커트라인을 넘어선 것으로 알려졌다. 아울러 인간 의사가 수년 동안 연구해야 알 수 있는 희귀병도 수초만에 진단하는 등 의료 AI가 눈부신 속도로 발전하고 있다.
하버드 컴퓨터 과학자이자 내과 의사인 아이작 코헨(Isaac Kohane)은 동료 두 명 과 함께 GPT-4의 의료 환경 테스트를 진행했다.
결론적으로 GPT-4는 어떤 면에서 인간 의사보다 뛰어났다. 코헨은 인사이더와의 인터뷰에서 “내가 지켜봐온 많은 의사보다 더 뛰어나다고 단언할 수 있다”고 말했다.
코헨은 GPT-4의 성능을 분석해 프리랜서 기자 케레이 콜드버그(tarey Goldberg), 마이크로소프트 리서치 담당 부사장 피터 리(Peter Lee) 등과 함께 쓴 책(The AI Revolution in Medicine)에 담았다. 책은 오픈AI나 마이크로소프트의 지원을 받지 않고 독립적으로 쓰여졌다. 이 책의 공식 출간은 2023년 5월이다.
책에서 코헨 박사는 GPT-4가 미국 의사 면허 시험을 90% 이상 적중률로 합격했다고 밝혔다. 이는 이전 GPT-3이나 GPT3.5에 비해 휠씬 좋은 성적이다. 심지어 일부 자격증을 보유한 의사보다 더 좋았다.
GPT3은 전체적으로 60% 정도의 정답율을 기록했다. GPT-4는 단순히 시험만 잘보는 기계가 아니었다. 또한 훌륭한 번역가다. 책에서 저자들은 퇴원 소속시 환자들에게 설명해주는 내용을 포르투갈어로 변역을 시켰는데, 초등학교 6학년이 읽을 수 있을 정도로 전문 용어의 설명 수준이 높았다.
GPT-4는 환자들에게 설명하는 능력도 좋았다. GPT-4는 또한 의사들에게 환자들에게 그들의 상태에 대해 진심을 담아 정확한 언어로 말하는 방법에 대한 팁을 제공했다.
엄청나게 빠른 속도로 보고서나 연구를 읽고 요약할 수 있다. 물론 아직은 인간 의사처럼 병을 이해하고 의도성을 가지고 답할 순 없지만 상당히 자연스러운 대응을 할 수 있게 된 것이다. 결과적으로 GPT-4는 의사들이 놀랄 정도로 (불완전하지만) 성공으로 상태를 진단하는 방법을 흉내낼 수 있다.
[GPT-4가 어떻게 의사처럼 진단하는가]
코헨은 책을 쓰기 위해 GPT-4을 대상으로 몇 가지 실험을 진행했다. 수년 전 그가 담당했던 신생아의 실제 케이스를 대입해 본 것이다. 코헨은 봇에 신체 검진을 통해 수집한 정보와 초음파 및 호르몬 정보를 제공했다.
그러자 GPT-4는 선천성 부신 과형성(congenital adrenal hyperplasia)이라고 불리는 회귀병을 단 몇 만에 진단했다. 이 병에 걸릴 확률은 10만 분의 1이다. 이 병은 부신 피질에서 나오는 호르몬의 생합성에 관여하는 효소가 선천적으로 결핍되어 나타나는 질환이다. GPT-4의 활약에 의사들은 놀랐지만 동시에 두려워졌다.
코헨 박사는 책에서 “한편으로 나는 컴퓨터와 정교한 의학 대화를 나눴다”며 “다른 한편으로는 일반인들이 조만간 놀라울 정도로 의학 지식이 높은 컴퓨터 의사에 접근할 수 있것이라는 두려움도 몰려왔다”고 전했다. 특히, GPT-4의 조언이 안전하거나 효과적이지 않을 수도 있다는 우려도 있었다.
[GPT-4가 항상 옳지 않다]
그러나 아직까지 GPT-4는 완전히 신뢰하기 어렵다. 책에는 이런 GPT-4의 실수들도 담겨져있다. BMI를 잘못 기재하는 것과 같은 단순한 오타에서부터 방정식을 못풀고 스도쿠 퍼즐 맞추지 못하는 것과 같은 수학적 오류까지 다양하다.
어떤 실수들은 미묘했다. 오류를 지적해도 우리는 경향도 있었고 실제 의료 현장에 적용될 경우 심각한 문제를 야기할 실수도 많이 했다. GPT 3.5 등과 같은 문제인 AI환각(hallucinate) 현상에 GPT-4에도 재현된 것이다. AI가 답변을 만들어내거나 지시를 거부하는 행동이다.
저자들이 GPT-4에 이와 관련한 오류를 묻자, GPT-4는 “나는 남을 속이거나 오도 할 의도가 없다. 그러나 가끔 실수도 하고 불완전하거나 부정확한 데이터를 기반으로 한 추측도 한다. 또한 인간 의사나 간호사의 윤리적 책임감 혹은 임상적 판단을 가지고 있지 않다”고 말했다.
[컴퓨터 스크린 대신, 환자 얼굴을 보는 방법]
코헨 등 저자들은 책에서 GPT-4를 사용하되 다시 살펴보고 검증하는 방법을 제안했다. 현실적으로 AI를 쓰지 않기에는 어렵다는 판단 때문이다.
AI를 활용하는 대신 인간이 검증하는 방법을 택한 것이다. 코헨은 또 “GPT-4는 의료 현장에서 향후 시간과 리소스 투입을 줄이고 의사들이 환자들에게 보다 집중할 수 있도록 할 수 있다”며 “컴퓨터 스크린을 보는 대신, 환자 얼굴을 확인할 수 있다”고 설명했다.