인공지능이 환자를 진단할 수 있다면 의사는 무엇을 위해 존재할까요?
2017년, 다부진 체격과 대머리를 가진 30대 소프트웨어 엔지니어 매튜 윌리엄스는 샌프란시스코 언덕에서 긴 자전거 라이딩을 했습니다. 그 후, 친구들과 저녁 식사 자리에서 햄버거, 감자튀김, 밀크셰이크를 주문했습니다. 식사 도중 너무 배가 불러서 누군가에게 차로 집에 데려다 달라고 부탁해야 했습니다. 그날 밤, 윌리엄스는 복부에 극심한 통증을 느끼며 잠에서 깼고 맹장염이 아닌지 걱정했습니다. 그는 인근 응급 클리닉으로 갔고, 의사들은 아마 변비일 것이라고 말했습니다. 그들은 그에게 변비약을 주고 집으로 돌려보냈습니다.
몇 시간 후, 윌리엄스의 통증은 더욱 심해졌습니다. 그는 구토를 했고 위가 터질 것 같은 느낌이 들었습니다. 친구가 그를 병원으로 데려갔고, CT 촬영 결과 맹장 꼬임(cecal volvulus)이 발견되었습니다. 이것은 장의 일부가 스스로 꼬여 소화관을 막는 응급 상황입니다. 이전 의료진은 이 상태를 놓쳤고, 변비약을 주어 상태를 악화시켰을 수도 있었습니다. 윌리엄스는 수술실로 급히 옮겨졌고, 외과의들은 그의 장 약 6피트(약 1.8미터)를 제거했습니다.
수술에서 회복한 후, 윌리엄스는 음식을 먹을 때마다 거의 매번 심한 설사를 겪기 시작했습니다. 의사들은 그의 장이 회복할 시간이 필요하다고 말했습니다. 그는 "밖에 나갈 수 없을 정도로 상태가 심해졌어요. 음식을 먹기만 하면 계속 아팠거든요"라고 말했습니다. 그 후 몇 년 동안 윌리엄스는 총 8명의 영양사와 위장병 전문의를 만났지만, 아무도 그의 증상의 원인을 정확히 찾아내지 못했습니다. "의사들은 가끔 '죽어가고 있지 않나요? 그럼 됐습니다, 다음에 오세요'라는 식이었어요"라고 그는 말했습니다. 윌리엄스는 식단을 거의 달걀, 쌀, 사과 소스, 사워도우 빵으로 제한했습니다. 그는 저에게 "음식을 더 이상 먹을 수 없게 되면, 음식이라는 게 사회적, 문화적으로 얼마나 삶의 중요한 부분인지 깨닫게 돼요"라고 말했습니다. "데이트를 할 때 모짜렐라 스틱을 왜 못 먹는지 설명하는 게 어색해요. 음식이 밋밋해지면, 삶도 밋밋해지죠."
2023년, 윌리엄스는 문득 자신의 병력을 ChatGPT에 입력했습니다. "저는 회장의 대부분과 맹장 판막을 잃었습니다. 왜 다음 음식들이 위장 장애를 일으킬 수 있을까요?"라고 입력한 후, 자신에게 가장 큰 고통을 주었던 음식들을 나열했습니다. 몇 초 만에 AI는 그의 증상에 대한 세 가지 잠재적 원인(지방이 많은 음식, 발효성 섬유질, 옥살산염이 많이 함유된 음식)을 지목했습니다. 옥살산염은 녹색 채소와 다양한 다른 음식에서 발견되는 화합물로, 원래 윌리엄스가 잃어버린 위장관의 일부에서 분해되는 물질이었습니다. 그는 의사들로부터도 들어본 적 없던 이 물질에 대해 처음 알게 되었습니다. 그는 AI에게 옥살산염이 많이 함유된 음식 목록을 요청했고, 결과에 충격을 받았습니다. "제가 가장 괴로워했던 모든 음식들이 나열되어 있었어요"라고 그는 말했습니다. 시금치, 아몬드, 초콜릿, 콩을 포함한 십여 가지가 넘는 음식들이었습니다. "마치 AI가 저를 따라다니면서 메모를 한 것 같았어요." 윌리엄스는 이 정보를 영양사에게 가져갔고, 영양사는 옥살산염 함량에 기반한 식단을 짜주었습니다. 그의 증상은 호전되었고, 식단은 더욱 다양해졌습니다. 이제 윌리엄스는 항상 가까운 화장실의 위치를 알아둘 필요가 없습니다. "제 삶을 되찾았어요"라고 그는 말했습니다.
의학 훈련 시절, 저는 지식과 직감의 연금술을 통해 항상 사건 해결의 단서(환자의 특이한 손톱 모양, 수십 년 전의 직업병, 간과된 혈액 검사 등)를 찾아내는 선배 의사들을 존경했습니다. 이 의사들의 머릿속에서는 어떤 알고리즘이 돌아가고 있었을까요? 저도 제 머리에 그 알고리즘을 입력할 수 있을까요? 하지만 미래에는 진단이 점점 더 컴퓨터 과학의 영역이 될 수 있습니다. 설문조사에 따르면 많은 사람들이 전문가가 내린 진단보다 AI 진단을 더 신뢰하는 것으로 나타났습니다. 한편, 미국에서만 매년 수십만 명의 사람들이 오진으로 인해 장애를 겪고 있으며, 부검 연구에 따르면 오진이 사망 원인의 10분의 1을 차지할 수도 있다고 합니다. 만약 윌리엄스가 첫 진단을 무시하지 않았다면, 그들 중 한 명이 되었을 수도 있습니다. "저는 의사보다 AI를 더 신뢰합니다"라고 그는 말했습니다. "저만 그렇게 생각하는 건 아닐 거예요."
1900년대 초, 매사추세츠 종합병원의 의사 리처드 캐벗은 연수생들을 위해 임상 추론을 시연하는 세미나를 열기 시작했습니다. 숙련된 의사에게 이전 환자의 기록이 주어지면, 그는 그 사례에 대해 더 자세한 정보를 탐색했습니다. 환자가 실제 입원했을 때 얻을 수 있었던 정보라면 제공되었습니다. 점진적으로 의사는 진단에 접근했고, 그 진단은 병리학자들이 부검 등을 통해 최종적으로 내린 결론과 비교될 수 있었습니다. 임상병리 컨퍼런스, 즉 C.P.C.(Clinicopathological conferences)로 알려지게 된 이 컨퍼런스는 매우 인기를 얻어 <뉴잉글랜드 의학 저널>이 1세기 이상 그 기록을 게재하고 있습니다. 이 컨퍼런스는 진단적 추론의 황금률을 보여줍니다. C.P.C.를 해결할 수 있다면 거의 모든 사례를 해결할 수 있습니다.
C.P.C.는 또한 기계에 의학을 가르치려는 많은 노력에 영감을 주었습니다. 1950년대 후반, 한 컴퓨터 과학자와 방사선 전문의는 증상과 질병별로 사례를 분류했습니다. 그들은 컴퓨터 프로그램이 논리학 및 게임 이론과 같은 수학적 도구를 사용하여 사례를 분석할 수 있다고 제안했습니다. "컴퓨터는 의사가 임상 정보를 수집하고 처리하며, 그가 놓쳤을 수도 있는 진단을 상기시키는 데 특히 적합하다"라고 그들은 획기적인 <사이언스> 논문에 썼습니다. 1970년대에는 피츠버그 대학의 한 컴퓨터 과학자가 뛰어난 위장병 전문의 잭 마이어스와의 일련의 대화를 바탕으로 INTERNIST-1이라는 프로그램을 개발했습니다. (마이어스는 의사 시험에서 수많은 신입 의사들을 떨어뜨렸기 때문에 '블랙 잭'으로 불렸습니다.) 마이어스는 자신이 어떻게 추론하는지 보여주기 위해 "상당수의" C.P.C.를 선택했습니다. INTERNIST-1은 결국 다양한 사례에서 일부 의사들만큼의 성과를 보였습니다. 하지만 사례의 세부 사항을 컴퓨터에 일일이 입력해야 했기 때문에 각 분석에 한 시간이 넘게 걸릴 수 있었습니다. 연구자들은 "현재 형태의 프로그램은 임상 적용에 충분히 신뢰할 수 없다"고 결론지었습니다.
그러고 나서 대규모 언어 모델이 등장했습니다. 작년에 하버드 대학교의 컴퓨터 과학자 아르준 만라이(Arjun Manrai)와 이 대학의 새로운 '의학 AI' 프로그램 박사 과정 학생인 토마스 버클리(Thomas Buckley)는 거의 모든 C.P.C.를 해결할 수 있는 교육 및 연구 도구 개발에 착수했습니다. 이 도구는 문헌을 인용하고, 추론 과정을 설명하며, 의사가 어려운 사례를 해결하도록 돕는 역할을 수행해야 했습니다. 만라이와 버클리는 복잡한 문제를 중간 단계로 나누어 해결한 후 답변을 내놓는 OpenAI의 고급 '추론 모델'인 o3의 맞춤형 버전을 개발했습니다. '검색 증강 생성(RAG, retrieval-augmented generation)'이라는 프로세스는 AI가 답변을 만들기 전에 외부 소스에서 데이터를 가져옵니다. 이 모델은 마치 학생이 기억에 의존해 글을 쓰는 대신 교과서를 참고해 논문을 작성하는 것과 비슷합니다. 그들은 C.P.C.의 창시자를 기리기 위해 이 AI의 이름을 CaBot이라고 지었습니다.
지난 7월, 저는 하버드 의과대학의 카운트웨이 도서관으로 가서 CaBot과 숙련된 진단 전문의의 대결을 직접 보았습니다. 이 행사는 1997년 체스 그랜드 마스터 개리 카스파로프와 그를 이긴 IBM 슈퍼컴퓨터 딥 블루 간의 대결을 떠올리게 했습니다. 저는 머리에 쇠막대가 관통하는 폭발 사고를 겪고도 살아남아 유명해진 환자 피니어스 게이지의 두개골 옆을 지나 대규모 회의실에 도착했습니다. 그곳에는 수십 명의 학생, 의사, 연구자들이 모여 들뜬 목소리로 이야기를 나누고 있었습니다. 저와 같은 레지던트 동기였던 매사추세츠 종합병원의 내과 의사 다니엘 레스트레포(Daniel Restrepo)가 CaBot과 겨루게 되었습니다. 저는 레스트레포를 진단 추론을 올림픽 경기처럼 여기는 사람으로 기억합니다. 저는 야간 근무 중 잠을 잘 때 그는 교과서를 읽었고, 환자의 소변 샘플을 직접 확인하기 위해 연구실로 달려가는 일이 다반사였습니다.
짧은 검은 머리를 한 온화한 인상의 만라이는 예전에 도서관 서가들이 있었던 카운트웨이 도서관의 한 층에서 일합니다. 지금 그곳은 컴퓨터들로 가득 차 있습니다. 그는 그날의 사례를 소개했습니다. "오늘 우리는 캐봇 박사를 만나러 왔습니다"라고 그는 말했습니다. 만라이는 41세 남성 환자에 대해 설명했습니다. 이 환자는 약 10일 동안 열, 몸살, 발목 부종을 겪은 후 병원에 왔습니다. 그는 정강이에 통증성 발진이 있었고 두 번이나 실신했습니다. 몇 달 전, 의사들은 그의 심장에 스텐트를 삽입했습니다. CT 촬영 결과 폐 결절과 가슴에 림프절 비대가 발견되었습니다.
교수님 같은 안경을 쓰고 짙은 색 정장을 입은 레스트레포가 먼저 발표했습니다. 그는 진단을 위한 첫걸음은 문제를 정의하는 것이라고 말했습니다. "문제를 명확하고 간결한 진술로 정리하면, 뇌가 훨씬 쉽게 그 문제를 해결할 수 있을 겁니다." 그는 세 가지 질문을 강조했습니다. 환자는 누구인가? 상태가 얼마나 빨리 발생했는가? 그리고 어떤 증상들이 하나의 증후군을 구성하는가? 어떤 증상들은 서로 연관되어 있고, 다른 것들은 주의를 분산시키는 것일 수 있다는 것입니다. 그는 청중에게 "다른 모든 데이터를 얻었음에도 불구하고, 제가 중요하다고 생각하는 것은 바로 이것입니다"라고 말하며 4가지 핵심 증상을 벤 다이어그램으로 보여주었습니다. 이 증상들은 그를 림프종, 감염, 자가면역 질환이라는 세 가지 진단 범주로 이끌었습니다.
그 남성의 증상은 림프종이라기엔 너무 빠르게 발생했습니다. "속도, 속도, 속도가 중요합니다!"라고 레스트레포는 말했습니다. 특이한 감염은 가능성이 낮아 보였습니다. 남성은 미국에서 태어났고, 면역 저하 상태가 아니었으며, 위험 지역을 방문한 것으로 알려지지 않았습니다. 또한 감염으로는 그의 관절 통증을 설명할 수 없었습니다. 레스트레포는 마침내 "발열, 관절염, 폐문 림프절병증, 그리고 하지 발진을 동시에 유발하는 것을 제가 무엇을 알고 있나요?"라고 말했습니다. "뢰프그렌 증후군(Löfgren syndrome)입니다." 뢰프그렌 증후군은 염증성 질환인 사르코이드증의 드문 형태입니다. 우리는 그 남성이 병원에서 염증을 억제하는 스테로이드를 투여받았고, 상태가 호전되었다는 것을 알게 되었습니다. 이는 진단이 옳았음을 시사했습니다. 청중들은 박수를 보냈습니다.
만라이가 다시 연단으로 돌아왔습니다. 그는 미소를 지으며 레스트레포는 발표를 준비하는 데 6주가 주어졌지만, "캐봇 박사는 6분을 받았습니다"라고 설명했습니다. AI가 생성한 슬라이드가 화면에 나타났습니다. 제목은 "발목, 림프절, 실신이 만날 때"였습니다. 만라이는 '재생'을 누르고 자리에 앉았습니다. 따뜻하고 ...