챗GPT, ‘오진 처방’도 진짜처럼 술술… 의학지식 정리는 탁월

  • 동아일보
  • 입력 2023년 3월 13일 03시 00분


코멘트

[챗GPT ‘의료 AI’ 실험] 의사와 함께 챗GPT 써보니
‘체할때 먹는 약’ 질문에 진통제 처방… 환자들 엉터리 정보에 속기 쉬워
‘산모-아이중 누굴 살려야 하나’ 묻자 판단기준만 제시… 답변은 회피

지난달 21일 이언 가천대길병원 신경외과 교수가 인천 연수구에 있는 개인 연구실에서 챗GPT의 의료용 이용 가능성을 실험해 보고 있다. 이 교수는 2016년 국내 최초로 의료용 인공지능(AI) ‘왓슨 포 온콜로지’를 도입했다. 인천=이진한 기자 likeday@donga.com
지난달 21일 이언 가천대길병원 신경외과 교수가 인천 연수구에 있는 개인 연구실에서 챗GPT의 의료용 이용 가능성을 실험해 보고 있다. 이 교수는 2016년 국내 최초로 의료용 인공지능(AI) ‘왓슨 포 온콜로지’를 도입했다. 인천=이진한 기자 likeday@donga.com
최근 챗GPT가 미국 의사면허시험(USMLE)에서 생화학, 진단추론, 생명윤리 등 3개 과목에서 52.4∼75.0% 정답률을 보여 합격권에 들었다는 연구 결과가 공개됐다. 진료와 진단이 반복적인 업무라는 점에서 인공지능(AI)이 대체할 직업으로 의사가 자주 거론된다.

이미 국내 의료계에선 암 진료 및 치료용 AI 의사 ‘왓슨(Watson)’이 활용됐다. 왓슨은 의사용 AI다. 검사 결과와 같은 환자의 정보를 입력하면 왓슨이 최적의 치료법을 제시하고 그 근거가 되는 논문까지 보여준다. 의사들은 이를 참고해서 환자를 진료하는 데 활용했다. 왓슨은 진료실 안에서만 활용되므로 그 확장성이 떨어진다.

그에 비해 ‘챗GPT’는 환자용 AI라 할 수 있다. 환자의 정보를 일일이 입력해 줘야 하는 왓슨과 달리 챗GPT는 문장으로 질문을 하면 된다. 만약, 갑상샘암이 의심된다면 증상이 무엇인지, 치료법이 무엇인지, 명의는 누구인지 물어볼 수 있다.

● 엉터리 답도 완벽한 문장으로 술술

지난달 21일 기자는 2016년 국내에 왓슨을 처음 도입했던 이언 가천대길병원 신경외과 교수와 AI 의사로서 챗GPT의 가능성을 실험해 봤다. 이 교수는 수전증을 전문으로 치료한다. 먼저 ‘체했을 때 먹을 약을 추천해 달라’고 물었다.

챗GPT는 ‘체했을 때는 약물 치료를 통해 증상을 완화시킬 수 있다’며 △아세트아미노펜 △이부프로펜 △시메티딘을 약의 효과와 함께 추천해 줬다. 체했을 때 필요한 소화제, 제산제, 가스제거제 등 대신 진통제, 해열제를 처방해 준 것이다. 의학적으로 틀린 답을 내놓았지만 ‘마치 의사의 처방처럼’ 완벽한 문장으로 답했다. 엉터리 지식이라도 진짜인 것처럼 알려주기 때문에 환자들이 속을 가능성이 컸다. 챗GPT의 대답이 맞는지, 틀린지 등 반드시 팩트 체크가 필요한 셈이다.

이 교수가 ‘수전증 치료약을 추천해 달라’고 했을 때도 유사한 현상이 반복됐다. 엉뚱한 약을 술술 논리적으로 추천해 줬다. 이 교수는 “일반 환자가 챗GPT 답변만 믿고 약을 사 먹어선 안 될 것 같다”고 했다. 다만 의학적 지식을 체계적으로 정리해 주는 데는 탁월했다.

● 의사 추천도 오류투성이
환자로선 아플 때 어떤 의사를 찾아갈지 막막한 경우가 많다. “위암 수술을 잘하는 의사를 알려달라”고 물어봤다. 챗GPT는 4명의 외과 의사를 추천했다. 해당 의사들의 전공과 소속 병원도 답했지만, 사실과 달랐다.

위암 수술의 대가로 김모 서울대병원 교수를 추천했지만, 그는 대장암 수술로 유명하다. 소속 또한 서울대병원이 아니라 세브란스병원이다. 사실상 가상의 의사를 추천한 셈이다. 언어 기반 AI이다 보니 학습한 정보를 조합해 문장을 완성할 뿐 ‘수술 실력이 좋다 혹은 나쁘다’ ‘진료를 잘한다 혹은 못한다’와 같은 가치 판단을 할 수 없었다.

가천대길병원 측은 챗GPT가 잘못된 정보를 진짜처럼 믿게 만들 수 있어 우려가 크다고 경고했다. 의료 분야에서는 잘못된 정보는 치명적일 수 있기 때문이다. 다만 위암 예방법을 알려 달라고 했을 경우, 즉 교과서에 나올 만한 지식을 묻는 질문에는 90% 정도는 맞는 답변을 했다.

● 윤리적 기준은 나열하지만 판단은 미뤄
챗GPT는 윤리적 판단을 요구하는 질문에는 직접적인 판단을 내리지 않았다. 다만 판단의 기준을 체계적으로 정리해 줬다.

‘아이와 산모가 모두 중태라면 누구를 살려야 하나’라고 묻자 챗GPT는 “매우 까다로운 윤리적 문제를 제기한다. 아이와 산모 모두를 최대한 구조할 수 있는 방법을 모색한다”고 답했다. 이후 임신부의 건강 상태, 태아의 질환 유무 등을 고려할 것을 권했지만 ‘먼저 살릴 대상’은 제시하지 않았다.

‘뇌수술 뒤 평생 장애가 발생한다면 어떤 기준으로 수술을 결정할 것인가’ 물었더니 지금까지 흩어져 있던 기준을 정리해 줬다. ‘수술 후 예상되는 심각한 장애 정도에 따라 결정 기준이 다를 수 있다. 일반적으로 수술을 결정하는 기준은 수술의 전반적인 위험성과 수술 후 기대되는 이점이 수술 후 예상되는 부작용(합병증)보다 높은 경우’라고 설명했다.

이어 △장애 정도 △장애 지속 기간 △대안 치료 방법 △합병증 △의사 결정 등을 설명하고 이런 기준을 고려해 환자의 상태에 따라 적절한 의사 결정을 할 것을 권했다.

챗GPT와의 질의응답을 마친 이 교수는 “당장은 아니지만 학습 속도를 볼 때 처방이나 수술 전에 챗GPT의 도움을 받을 수 있을 것 같다”고 말했다. 또 “학습 속도가 빨라 지난해 12월 처음 출시됐을 때보다 정확하고 완벽한 대답을 내놓고 있어 두려울 정도”라고 밝혔다.

환자에게 적용할 웨어러블 센서와 관련한 질문을 예로 들면, 5초도 안 돼 답변을 해 줬고 내용도 처음보다 정확해졌다고 한다. 학습을 통해 점점 본인의 능력을 확장시켜 나가고 있어 피드백이 쌓이면 답변이 정교해질 것으로 보인다. 데이터가 쌓이면 쌓일수록, 정확한 답변을 내놓을 가능성이 높아진다는 것이다.

이 교수는 “챗GPT 답변이 보다 정확해지면 의사와 환자 사이, 헬스케어의 중간다리 역할을 할 수 있을 것”이라고 강조했다. 다만 잘못된 정보를 답하는지 체크해 줘야 한다. 의사에게 평소 못 했던 질문을 자유롭게 하는 과정에서 잘못된 의료정보가 확산될 수 있기 때문이다. 윤리적 판단을 수반하는 의사 진료의 특성상 AI 의사 상용화는 단기간에 쉽지 않을 것이라고 이 교수는 밝혔다.


인천=이진한 기자 likeday@donga.com
#챗gpt#오진 처방#의학지식 정리#의료 ai
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스