AI가 진행하는 수술을 믿을 수 있을까? 생성형 AI 챗GPT, 미국 의사 면허 시험 통과

오픈AI의 생성형 인공지능챗봇 ‘챗GPT(ChatGPT)이 인간의 건강을 책임질 정도로 더 똑똑해 지고 있다. 많은 임상 수술과 진단이 언젠가 인간 의사가 아닌 머신에 의해 결정될 수도 있다. 생성형 AI(generative AI)란 사용자의 요청에 따라 알맞은 글이나 그림, 영상을 만드는 AI를 말한다.

[챗GPT, 수백 시간의 의학 공부 한번에 습득]

챗GPT는 최근 미국 의사 면허 시험(U.S. Medical Licensing Examination, USMLE)의 세 파트(Parts)를 모두 통과했다. 비록 악시오스는 챗GPT가 의사 면허 시험 중 최신 리서치 파트는 합격선을 겨우 넘었지만 라이선스 확보에는 문제가 없었다고 보도했다. 의사(MD) 과정을 거친 의사는 의료 면허를 위해 USMLE을 통과해야 한다.

AI의 미국 의사면허 시험 관련 논문

일반적으로 미국 의대 2학년은 파트1 시험을 준비하는데 수백 시간을 쓰고 파트3는 주로 의대 졸업 학생(medical school graduates)들이 응시하는 어려운 시험이다. 결과적으로 4~6년의 의학 대학 훈련 과정을 AI가 단숨에 넘어선 것이다.

Step 1: 의대 첫 2년 동안 배운 기초 지식(Assesses foundational medical science typically obtained during the first two years of medical school)

Step 2 : 임상 의학에 대한 평가(Evaluates the applicant's knowledge of clinical medicine)

Step 3: 환자 관리에 대한 임상 지식의 적용 평가( Assesses the application of clinical knowledge to patient management)

이 실험은 실리콘밸리 스타트업 안시블헬스(Ansible Health)가 진행했다. 이 회사는 만성 폐쇄성 폐질환(COPD) 치료 치료 방법 개선을 위해 다양한 AI와 머신러닝 툴을 연구해왔다.

안시블헬스 CEO이자 전직 구글 프로덕트 매니저 잭 포(Jack Po)는 악시오스와의 인터뷰에서 “ChatGPT가 출시되었을 때 테크 세계가 많이 흥분했고 그래서 우리는 기술이 과장된 것인지 아니면 유용한 것인지 알고 싶었다.”며 “검증을 시작하면서 결과에 상당히 놀랐다. 무엇이 옳은지 뿐만 아니라, AI는 어떻게 스스로를 설명지는 알고 있었다”고 언급했다.

안시블헬스 사이트

포와 연구원들은 챗GPT의 의학계 적용 가능 여부를 위해 USMLE 시험 응시를 테스트했고 먼저 “어떤 답변, 설명 또는 관련 콘텐츠도 구글에 없다는 것”을 확인했다. 이 결과를 발표했고 논문은 현재 동료 심사(peer review) 중이다.

더 놀라운 점은 챗GPT가 한번도 의학 지식(medical dataset)에 대한 훈련 없이 높은 성과를 낼 수 있다는 것이다.

하나의 문제는 연구자들이 “일련의 불확실한 답변(indeterminate" answers)’은 제외했다는 것이다. 이는 챗GPT가 의학적인 조언을 피하도록 설계됐기 때문으로 보인다. 챗GPT는 설계 단계에서부터 반드시 전문가가 필요한 영역인 의료용으로 쓰는 것을 경계해왔다. 베세머 벤처 파트너스(Bessemer Venture Partners)의 투자자이자 현재 브라운대학 의대 재학생인 공동 저자 모건 치텀(Morgan Chatham)은 “그 대답들은 너무 일반적이어서 맞는지 틀린지 판단하기 어려웠다”고 악시오스에 밝혔다.

이런 의학적 판단 작업이 가능한 이유는 생성형 AI의 특징 때문이다.

챗GPT는 사용자가 웹 문서를 보며 스스로 정리할 필요가 없도록 알아서 데이터를 정리해준다. 예를 들어 강아지를 좋아하는 친구를 위한 음식을 찾는다고 입력하면 구글은 연관된 내용이 있는 문서들을 나열한다. 그러나 챗GPT는 처음부터 내게 필요한 내용만 맞춤형으로 정리해 '개들이 먹을 수 있는 초콜릿'과 같은 음식을 추천한다’는 답을 내놓는다. 마치 전문가에게 상담을 받는 듯한 사용자 경험을 제공한다.

‘연속성’도 뛰어나다. 이전에 사용자와 나눈 이전 대화를 기억해 다음 답변에 반영할 수 있게 프로그래밍이 돼 있기 때문이다, ‘서울 시내 관광 코스 좀 추천해줘’라고 입력하면 구글이나 챗GPT나 첫 번째 결과는 유사한 답변을 보여준다. 하지만 두 번째 부터는 차이가 난다. 챗GPT는 ‘추천된 코스 중 남산을 포함한 하루 스케줄도 짜달라’는 명령에 앞의 내용을 반영한 결과값을 보여준다.

반면, 구글에서는 이전 검색 결과와 상관없이 새로운 정보를 단순히 제공한다. 때문에 챗GPT는 사용자와 상호작용(대화)에서 질문 의도에 더 근접한 검색 결과를 제공할 수 있다.

[AI, 의료 작업 강화에 도움 줄 듯]

대화형 생성 AI(Generative AI)는 여전히 초기 단계다. 이에 전문가들은 의료 작업을 대체하기 보다 강화시키고 도와줄 수 있다는 판단이다. 예를 들어 안시블은 챗GPT를 훈련된 전문 의료진이 검토한 뒤 환자들에게 치료나 특정 개념을 설명하는데 도움을 줄 수 있다고 보고 있다. 시간이 지남에 따라 향후 아마도 건강 검진(wellness checks)과 다른 일반적인 의사 업무(general practitioner tasks)에는 적용될 수 있을 것으로 보인다.

한편, WSJ은 챗GPT를 미국 고등학교 APT 시험 응시를 테스트하는 용도로 사용한 바 있다.