[메디칼타임즈] 의료 AI와 임상 역량의 퇴화(상)

제보하기

2026년 06월 01일 (월)
로그인

2026.06.04(목) 19:00
Bridging Screening and Care: Optimizing Management for Early COPD

로그인

로그인을 하시면 메디칼타임즈의
다양한 연관서비스를 이용하실 수 있습니다. 가입 시 등록한 정보를 입력해주세요.

개인정보 보호를 위한 비밀번호 변경안내 주기적인 비밀번호 변경으로 개인정보를 지켜주세요.
안전한 개인정보 보호를 위해 3개월마다 비밀번호를 변경해주세요. ※ 비밀번호는 마이페이지에서도 변경 가능합니다.

30일간 보이지 않기

비밀번호 변경하기

정책.
제도・법률

의료 AI와 임상 역량의 퇴화(상)

유소영 교수

발행날짜: 2026-06-01 05:00:00 업데이트: 2026-06-01 14:53:30

가
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
URL복사

[유소영 박사의 의료AI와 윤리]
De-skilling, Mis-skilling, Never-skilling.
AI가 의사를 돕는 동안 의료인의 역량에 무엇이 일어나는가

[메디칼타임즈=유소영 교수-울산의대]폴란드 4개 내시경 센터의 경험 많은 내시경 전문의 19명은 각각 누적 시술 건수 2,000건 이상의 숙련자들이었습니다. 2021년 말, 이 센터들에 AI 보조 용종 탐지 시스템이 도입되었습니다. EU OperA 프로젝트의 일환인 ACCEPT 시험(Artificial Intelligence in Colonoscopy for Cancer Prevention)의 일부로, 이후 대장내시경은 검사 날짜에 따라 AI 보조 여부가 무작위로 배정되었습니다.

연구진은 AI 도입 전 3개월(795건)과 도입 후 3개월(648건)을 비교했습니다. 비교 대상은 양 기간 모두 AI 보조 없이 시행된 대장내시경 결과입니다. 같은 의료진이 같은 환경에서 AI 없이 시술했을 때, AI 도입 이전과 이후의 성과가 어떻게 변했는지를 본 것입니다.

결과는 예상하지 못한 것이었습니다. 연구진 자신의 표현을 빌리면, "우연히 발견했다"는 것입니다. AI 비사용 시술에서의 선종 탐지율이 AI 도입 이전 28.4%(226/795)에서 AI 도입 이후 22.4%(145/648)로 떨어졌습니다. 절대 하락 6.0%포인트(95% CI -10.5 ~ -1.6, p=0.0089), 상대 하락 20%. 같은 기간 AI 보조 시술에서의 탐지율은 25.3%(186/734)로 안정적이었습니다[1].

방법론적 한계를 짚어야 합니다. 이것은 후향적 관찰 연구이며, 전향적 무작위 대조 시험(RCT)이 아닙니다. 도입 전후 3개월만 비교했으므로, 계절적 변동이나 환자 구성의 차이 같은 교란 변수를 완전히 배제할 수 없습니다. 인과를 증명한 것이 아니라 연관성을 보여준 것입니다.

그럼에도, Lancet의 논평은 이 결과를 "자동화가 유발한 de-skilling의 최초 실증 근거"[2]라고 평가했습니다. 완벽한 근거가 아니라 최초의 신호(signal)라는 점에서 주목해야 합니다.

01 세 가지 퇴화의 경로

2026년 발표된 정형외과 AI 리뷰 논문은 AI가 의료인의 역량에 미치는 부정적 영향을 세 가지로 구분합니다[3].

세 가지 퇴화는 같은 메커니즘에서 출발합니다. 인지 과제를 외부 시스템에 반복적으로 위임하면, 독립적 탐색·가설 생성·오류 검증을 스스로 수행하는 빈도가 줄어듭니다. 경험 의존적 신경가소성(experience-dependent neuroplasticity)의 원리에 따르면, 반복적으로 사용하지 않는 인지 기능은 약화될 수 있습니다[6]. 다만 현재 의료 AI 연구가 의사의 전전두엽 기능 저하를 장기간 추적해 직접 입증한 것은 아닙니다. 따라서 더 정확한 표현은 이렇습니다. 인지 과제의 반복적 외주화는 임상적 추론의 사용 빈도를 낮추고, 그 결과 의사의 판단 습관과 임상 루틴을 바꿀 수 있습니다.

02 어떤 직군이, 어떤 근거로 취약한가

근거의 현황을 있는 그대로 봐야 합니다. AI 보조에 노출된 의료진이 AI 없이 진료할 때 역량 자체가 실질적으로 하락한다는 대규모 실증 근거는 현재까지 내시경 분야에서만 보고되었습니다[1]. 다른 분야에서는 동일 수준의 'AI 노출 후, AI 미사용 진료 시 역량 저하' 데이터가 아직 축적되지 않았습니다. 그러나 de-skilling의 전 단계로 해석되는 자동화 편향, 즉 'AI가 잘못된 출력을 제시할 때 의사가 그 오류를 수용해 함께 틀리는 현상'은 여러 분야에서 일관되게 확인되고 있으며, 그 근거는 상당합니다.

영상의학. AI의 오류가 의사의 진단 정확도를 저하시킨다

2024년 Nature Medicine에 발표된 연구는 영상의학과 전문의 140명을 대상으로, 흉부 X-ray 15건을 AI 보조 없이 판독하는 경우와 AI 보조를 받아 판독하는 경우를 비교했습니다[11]. 이 연구의 핵심은 단순히 AI가 의사를 돕는지를 본 것이 아니라, AI가 정확할 때와 부정확할 때 의사의 판단이 어떻게 달라지는지를 살핀 데 있습니다.

결과는 양면적이었습니다. AI가 정확한 예측을 제시할 때에는 일부 판독 성과가 향상되었습니다. 그러나 AI가 부정확한 예측을 제시한 경우에는, 영상의학과 전문의의 판단이 그 잘못된 방향으로 영향을 받으면서 성과가 유의하게 낮아지는 상황이 관찰되었습니다[11]. 즉 문제는 "AI가 틀릴 수 있다"는 데서 끝나지 않습니다. 더 중요한 문제는 AI의 오류가 의사의 독립적 판단을 흔들 수 있다는 점입니다.

이 연구는 또 하나의 중요한 통념을 흔들었습니다. 경험이 많은 의사는 AI의 영향을 덜 받을 것이라는 기대와 달리, 경력, 세부 전공, AI 도구에 대한 친숙도 등은 AI 보조의 효과를 충분히 예측하지 못했습니다[11]. 다시 말해 숙련된 영상의학과 전문의라고 해서 부정확한 AI 출력의 영향에서 자동으로 보호되는 것은 아닙니다.

비슷한 현상은 다른 연구에서도 확인됩니다. 흉부 X-ray 진단을 다룬 연구에서, 잘못된 조언이 제시되면 그 조언의 출처가 "AI"로 표시되든 "인간 전문가"로 표시되든 의사의 진단 정확도는 낮아졌습니다[13]. 특히 자신의 전문 영역이 아닌 과제에서는 AI가 제시한 조언을 더 신뢰하는 경향도 관찰되었습니다.

따라서 영상의학에서 중요한 질문은 "AI가 사람보다 정확한가"에만 있지 않습니다. 오히려 더 중요한 질문은 이것입니다. AI가 틀렸을 때, 의사가 그 오류를 알아차리고 자신의 판단을 회복할 수 있는가. 의료 AI의 안전성은 알고리즘의 평균 성능만이 아니라, 부정확한 AI 출력 앞에서 인간 전문가가 얼마나 독립적으로 판단을 유지할 수 있는지까지 포함해 평가되어야 합니다.

정형외과 MRI. 자동화 편향은 경력을 가리지 않는다

전방십자인대(ACL) 파열 MRI 진단 연구에서 임상의 40명을 대상으로 AI 보조 여부를 무작위 교차 배정한 결과, AI 보조 시 정확도는 87.2%에서 96.4%로 올라갔습니다. 그러나 AI 보조 하에서 발생한 오류의 45.5%가 자동화 편향, 즉 AI의 잘못된 출력을 그대로 수용한 결과였으며, 이는 경력에 무관하게 발생했습니다[4]. 연구진이 제안한 'AI suppression' 전략(오류 확률이 높은 출력을 선별적으로 차단)은 자동화 편향을 41.7% 줄였습니다[4].

진단 추론. AI를 써도 의사의 추론은 나아지지 않는다

2024년 JAMA Network Open에 발표된 무작위 임상시험은 흥미로운 세 가지 점수를 보여줍니다[12]. 같은 임상 사례를 세 가지 방식으로 풀게 했습니다.

첫째, 의사가 GPT-4 없이 기존 자원만으로 진단했을 때 점수는 74%였습니다. 둘째, 의사가 GPT-4와 함께 진단했을 때는 76%였습니다. 셋째, GPT-4가 의사 없이 단독으로 진단했을 때는 92%였습니다.

이 세 점수에서 두 가지를 비교할 수 있습니다. 먼저 의사 혼자 진단한 74%와 의사가 GPT-4와 함께 진단한 76%를 비교하면, 차이는 2%p에 불과하고 통계적으로 유의하지 않습니다(p=0.60). GPT-4를 옆에 두고 써도 의사의 추론 점수가 사실상 향상되지 않았다는 뜻입니다. 다음으로 의사 혼자 진단한 74%와 GPT-4 단독 92%를 비교하면, 차이는 18%p이고 통계적으로 유의합니다(p=0.03). GPT-4가 의사보다 더 정확한 답을 내놓을 능력을 갖추고 있다는 뜻입니다.

이 두 비교를 합치면 한 가지 결정적 사실이 드러납니다. GPT-4는 의사보다 18%p 더 정확한 진단 추론을 할 수 있는 능력을 가지고 있었지만, 그 GPT-4를 의사가 직접 사용했을 때는 그 능력의 거의 전부가 의사의 점수에 반영되지 않았습니다. 의사가 GPT-4의 우수한 추론 결과를 자신의 임상 판단에 통합하지 못한 것입니다. AI가 정답을 알고 있고 의사가 그 AI에 접근할 수 있었음에도, 정답이 의사의 추론으로 흘러들어가지 않았습니다. 이것이 진단 추론 영역에서 AI 보조의 핵심 문제입니다.

여기서 '진단 추론 점수'가 무엇을 측정한 것인지가 중요합니다. 단순히 진단명을 맞혔는지가 아닙니다. 연구진은 임상 추론 평가의 표준 도구인 구조화된 성찰(structured reflection) 루브릭으로 ① 감별진단의 적절성, ② 각 진단을 지지·반대하는 임상 근거의 정확성, ③ 다음 검사 선택의 합리성을 평가했습니다[12]. 즉 진단에 도달하는 사고 과정 자체의 질을 측정한 것입니다. 진단명 정답률이라는 단편적 지표를 넘어, 의사가 어떻게 생각하는가를 본 평가입니다.

그런데 치료 결정에서는 결과가 달랐다

같은 연구팀이 2025년 Nature Medicine에 발표한 후속 연구. 의사 92명에게 동일한 GPT-4를 치료 관리 추론(어떤 약을 쓸지, 어떤 검사를 할지, 경과 관찰을 할지)에 사용하게 한 결과, 이번에는 6.5%p 유의한 향상이 관찰되었습니다(95% CI 2.7~10.2, p<0.001)[14]. 같은 연구팀, 같은 의료기관, 같은 AI 도구. 달라진 것은 임상 과제의 성격뿐입니다. 그런데 결과가 정반대로 나왔습니다.

왜 진단과 치료 결정에서 결과가 갈렸는가

Goh 연구팀의 핵심 통찰은 두 추론이 인지적 성격이 본질적으로 다른 작업이라는 점입니다.

진단 추론은 '분류 작업(classification task)'입니다. 환자의 증상·검사 소견을 종합해 가능한 질환들 중 하나를 식별하는 일입니다. 흉통 환자가 폐렴인지, 폐색전증인지, 심근경색인지, 심낭염인지를 구별하는 것입니다. 정답이 있고, 사후에 검증할 수 있는 작업입니다. 환자의 최종 진단이 무엇이었는지가 의무기록에 남기 때문입니다.

치료 관리 추론은 '절충 작업(trade-off task)'입니다. 정답이 정해져 있지 않습니다. 같은 폐렴 환자에게 외래에서 경구 항생제로 치료할 것인가, 입원시켜 정맥 항생제를 쓸 것인가, 어떤 항생제 계열을 선택할 것인가, 추가 검사를 어디까지 할 것인가, 환자의 직업·가족 상황·기저질환을 고려해 어떤 결정이 환자에게 가장 적합한가. 여러 합리적 선택지가 공존합니다. Goh 연구팀의 표현을 빌리면, 경과 관찰(watchful waiting)을 통한 무행동조차 잠재적 위험과 이익을 가진 의도적 선택입니다[14].

두 작업이 다르므로, AI가 의사에게 기여하는 방식도 다릅니다. 분류 작업에서는 정답이 있으므로, AI의 '정확한 답'을 의사가 받아들이거나 거부하는 이분법적 통합이 일어나야 합니다. 이때 의사는 AI 출력을 자신의 임상 직관과 비교하여 판단해야 하는데, 이 통합 과정이 잘 이루어지지 않으면 의사의 추론은 AI를 안 쓴 것과 같은 수준에 머무릅니다. 절충 작업에서는 정답이 여러 개이므로, AI가 의사가 미처 고려하지 못한 추가적 선택지를 제시할 수 있습니다. 의사는 자신의 선택지 풀에 이를 추가하여 더 풍부한 비교·판단이 가능해집니다. 점수가 올라가는 이유는 결정의 옵션이 확장되었기 때문입니다.

이 비대칭이 의미하는 것

진단 추론과 치료 결정에서 GPT-4 보조의 효과가 다르게 나타났다는 사실은 의료 AI 논의에서 매우 중요한 의미를 갖습니다. 이는 AI가 임상 전 영역에서 동일한 방식으로 작동하지 않는다는 뜻입니다. 따라서 의료 AI의 도입 효과를 평가할 때도 "AI가 도움이 되는가"라는 하나의 질문만으로는 부족합니다. 어떤 임상 과제에서, 어떤 형태의 판단을, 어떤 방식으로 보조하는가를 구분해야 합니다.

첫째, 진단 추론에서 GPT-4 보조가 의사의 점수를 유의하게 향상시키지 못했다는 결과는 단순히 "AI의 성능이 아직 부족하다"는 의미로 해석하기 어렵습니다. 같은 연구에서 GPT-4 단독 수행은 의사군보다 높은 점수를 보였습니다. 즉 적어도 이 연구의 임상 비네트 과제에서는 GPT-4가 상당한 수준의 진단 추론 정보를 생성할 수 있었습니다. 그럼에도 의사가 GPT-4를 사용했을 때 그 성능이 의사의 최종 추론 점수로 충분히 전환되지는 않았습니다.

이 지점이 핵심입니다. AI가 좋은 답을 생성할 수 있는 능력과, 의사가 그 답을 이해하고 검토하여 자신의 임상 판단에 통합하는 능력은 서로 다른 문제입니다. 의료 AI의 성능이 높더라도, 그 결과가 의사의 사고 과정 안으로 적절히 들어오지 못하면 실제 임상 성과는 기대만큼 향상되지 않을 수 있습니다. 따라서 진단 영역에서 중요한 것은 AI 단독 정확도만이 아닙니다. 의사가 AI 출력을 어떻게 해석하고, 자신의 감별진단과 비교하며, 어떤 근거로 수용하거나 배제하는지를 함께 평가해야 합니다.

둘째, 치료 결정에서 AI 보조가 효과가 있었다는 것이 'AI 도입의 정당화 근거'로 사용되어서는 안 됩니다. 치료 관리는 하나의 정답을 맞히는 문제가 아닙니다. 환자의 상태, 동반질환, 검사 결과, 치료 위험, 환자 선호, 추적 가능성 등을 함께 고려하여 여러 가능한 선택지 중 합리적인 방안을 선택하는 과정입니다. 이런 과제에서는 AI가 의사가 미처 떠올리지 못한 선택지나 고려사항을 제시함으로써 판단의 폭을 넓힐 수 있습니다. 후속 연구에서 치료 관리 추론 과제의 점수가 향상된 것은 이러한 맥락에서 이해할 수 있습니다.

그러나 이 결과가 곧바로 "AI를 더 많이 사용할수록 좋다"는 결론으로 이어져서는 안 됩니다. 단기적으로 AI가 선택지를 넓혀 줄 수 있다는 사실과, 장기적으로 의료인의 독립적 판단 역량이 유지되는지는 별개의 문제입니다. 의사가 반복적으로 AI가 제시한 선택지에 의존하게 될 때, 스스로 문제를 구조화하고 가능한 대안을 생성하는 능력이 어떻게 변화하는지는 아직 충분히 검증되지 않았습니다. 따라서 치료 결정 영역에서도 단기적 성과 향상뿐 아니라, 장기적 역량 변화에 대한 추적이 필요합니다.

셋째, 진단 추론은 임상 의학의 출발점이라는 점에서 더욱 중요합니다. 진단이 흔들리면 이후의 검사, 치료, 경과 관찰도 모두 잘못된 방향으로 이어질 수 있습니다. 현재의 연구들이 "AI 사용으로 의사의 진단 능력이 장기적으로 퇴화한다"는 것을 직접 입증한 것은 아닙니다. 그러나 진단 추론에서 AI 보조가 항상 의사의 성과 향상으로 이어지지는 않는다는 결과, 그리고 여러 분야에서 확인되는 자동화 편향의 근거를 함께 고려하면, 이 문제는 수련과 역량 유지의 관점에서 선제적으로 관리할 필요가 있습니다. 직접 측정된 결과는 아니지만, JAMA Network Open 결과(통합 실패)와 자동화 편향 문헌[4][11]을 종합할 때 합리적으로 우려할 수 있는 시나리오입니다.

정책적 함의는 분명합니다. 의료 AI는 임상 과제별로 다르게 평가되어야 합니다. 진단 영역에서는 AI의 단독 성능뿐 아니라, 의사가 AI 출력을 자신의 추론에 어떻게 통합하는지를 평가해야 합니다. ① 치료 결정 영역에서는 AI가 선택지를 확장하는 단기 효과와 함께, 의료인의 독립적 판단 역량에 미치는 장기적 영향을 추적해야 합니다. ② 수련 단계에서는 처음부터 AI에 의존하는 방식이 아니라, AI 없이 기본적인 진단 추론을 형성하는 과정과 AI를 비판적으로 활용하는 과정을 구분해 설계해야 합니다.

한국의 의료 AI 거버넌스에서도 이 구분은 중요합니다. 식약처의 디지털의료기기 인허가는 제품의 안전성, 성능, 임상적 유용성을 평가하는 데 초점을 두어야 하지만, 실제 임상 배치 단계에서는 의료기관의 사용자 교육, 오류 대응 절차, AI 사용 로그와 성과 모니터링이 함께 설계되어야 합니다. 대한의학회와 각 전문학회는 수련 과정에서 AI 없는 기본 역량과 AI를 활용하는 역량을 모두 평가할 수 있는 기준을 마련해야 합니다.

결국 의료 AI의 핵심 질문은 "AI가 얼마나 정확한가"에만 있지 않습니다. 더 중요한 질문은 이것입니다. AI와 함께 일할 때, 의사의 판단은 실제로 더 좋아지는가. 그리고 AI가 틀렸을 때, 의사는 여전히 스스로 판단할 수 있는가.

LLM과 자동화 편향. AI 리터러시 교육만으로 충분한가

LLM을 의료 현장에 도입할 때 흔히 제시되는 해법은 교육입니다. 의사에게 LLM의 한계, 프롬프트 작성법, 환각 가능성, 출력 검증 방법을 가르치면 자동화 편향을 줄일 수 있다는 기대입니다. 그러나 최근 연구들은 이 기대만으로는 충분하지 않을 수 있음을 보여줍니다.

Pakistan LUMS Learning Institute에서 수행되어 2026년 NEJM AI에 게재된 단일 눈가림 무작위 임상시험은 이 문제를 직접 다뤘습니다[19]. 연구진은 20시간의 AI 리터러시 교육을 이수한 의사 44명을 대상으로 ChatGPT-4o 기반 진단 추천을 제공했습니다. 통제군 22명에게는 오류가 없는 추천을, 중재군 22명에게는 6개 임상 비네트 중 3개에 의도적 오류가 포함된 추천을 제시했습니다.

결과는 분명했습니다. 오류가 없는 추천을 받은 통제군의 평균 진단 추론 정확도는 84.9%(SD 19.7)였고, 오류가 포함된 추천을 받은 중재군은 73.3%(SD 30.5)였습니다. 조정 평균 차이는 -14.0%포인트였으며, 통계적으로 유의했습니다(95% CI -18.9~-9.1, p<0.0001)[19]. 다시 말해, AI 리터러시 교육을 받은 의사라 하더라도 LLM이 그럴듯하지만 잘못된 추천을 제시할 때 진단 추론 성과가 낮아질 수 있었습니다.

이 연구에서 특히 중요한 점은 AI 사용이 강제되지 않았다는 사실입니다. 참여 의사들은 ChatGPT-4o의 추천을 참고하지 않을 자유가 있었습니다. 그럼에도 두 군 모두 약 3분의 2 수준에서 자발적으로 AI 추천을 참조했습니다[19]. 이는 자동화 편향이 단순히 "AI를 강제로 쓰게 했기 때문에" 발생하는 문제가 아님을 시사합니다. 사용자가 AI를 선택적으로 사용할 수 있는 상황에서도, LLM의 권위 있고 설득력 있는 출력은 임상 판단에 영향을 미칠 수 있습니다

다만 이 결과를 "AI 리터러시 교육은 효과가 없다"는 결론으로 해석해서는 안 됩니다. 이 연구가 보여주는 것은 더 정확히 말해, 현재와 같은 교육만으로는 자동화 편향을 충분히 차단하기 어려울 수 있다는 점입니다. LLM의 작동 원리와 한계를 아는 것과, 실제 임상 문제 앞에서 그럴듯한 오답을 식별하고 거부하는 것은 다른 역량입니다. 따라서 의료 AI 교육은 단순한 사용법 교육을 넘어, AI 출력의 근거를 검증하고, 대안 진단을 비교하며, 오류 가능성을 체계적으로 점검하는 훈련으로 확장되어야 합니다.

이 문제는 의학교육에서도 더욱 중요해집니다. 2026년 npj Digital Medicine에 발표된 연구는 의대생 111명을 대상으로, 정확한 AI 설명과 오도하는 AI 설명이 진단 정확도에 미치는 영향을 비교했습니다[20]. 그 결과 오도하는 AI 설명은 진단 정확도를 유의하게 낮췄지만, 정확한 AI 설명은 설명이 없는 대조군에 비해 유의한 향상을 보이지 않았습니다. 즉 초보 학습자에게는 AI가 제공하는 올바른 설명의 이득보다, 그럴듯하지만 잘못된 설명의 위해가 더 크게 나타날 수 있었습니다.

이 연구 역시 실제 임상현장이 아니라 의대생을 대상으로 한 교육 실험이라는 한계가 있습니다. 그러나 바로 그 점 때문에 의학교육에는 더 중요한 경고가 됩니다. 초보 학습자는 아직 자신의 판단 기준이 충분히 형성되지 않았기 때문에, AI가 제시하는 설명을 지식의 출처이자 추론의 틀로 받아들일 가능성이 큽니다. 이 시기에 잘못된 AI 설명이 반복적으로 노출되면, 단순한 오답을 넘어 잘못된 사고방식이 학습될 수 있습니다.

결국 문제의 핵심은 AI 리터러시의 필요성을 부정하는 데 있지 않습니다. 오히려 반대입니다. 지금 필요한 것은 더 깊은 형태의 AI 리터러시입니다. 의료인은 AI를 사용할 줄 아는 것만으로는 충분하지 않습니다. AI가 제시한 답을 검증하고, 그 답이 자신의 임상 추론을 어떻게 바꾸고 있는지 인식하며, 필요할 때 AI의 결론을 거부할 수 있어야 합니다. 의료 AI 교육의 목표는 "AI를 잘 쓰는 의사"를 넘어, "AI가 틀렸을 때도 스스로 판단할 수 있는 의사"를 길러내는 데 있어야 합니다.

간호·약제·방사선사. 연구는 부족하지만 구조는 동일하다

AI 기반 예측 모니터링(패혈증 조기 경보, 낙상 위험 예측)이 간호 현장에 들어오면서, 간호사의 임상적 직관과 활력징후 해석 역량을 약화시킬 수 있다는 문제가 제기되고 있습니다. AI 보조 처방 검토 시스템은 약사의 약물 상호작용 판단 역량에도 같은 구조의 위험을 안고 있습니다. 이 직군에 대한 실증 연구는 아직 거의 없지만, 자동화 편향이 '자동화 시스템 전반'에 작동한다는 수십 년의 항공·원자력 분야 근거[9]를 고려하면, 의료의 다른 직군만 예외일 이유는 없습니다.

수련의. Never-skilling의 직접 대상

수련의는 의료 AI 시대에 특별히 취약할 수 있는 집단입니다. 이미 형성된 역량이 약화되는 de-skilling과 달리, never-skilling은 필요한 역량이 충분히 형성되기 전에 AI가 그 과정을 대신하거나 앞질러 버리는 문제입니다. 임상 추론을 처음 배우는 시기에 AI가 감별진단, 판독, 처방 검토, 기록 작성의 출발점을 제공하면, 수련의가 독립적으로 문제를 구조화하고 가설을 세우며 오류를 수정하는 경험은 줄어들 수 있습니다.

이 우려는 아직 장기 종단 연구로 충분히 입증된 결론은 아닙니다. 그러나 의학교육 현장에서는 이미 중요한 질문으로 떠오르고 있습니다. Stanford 의과대학의 Holly Caretta-Weyer는 응급의학과 전공의 평가를 담당해 온 의학교육자로, 전공의가 독립 진료 역량을 갖추어 가는 과정을 평가하는 임상역량위원회(Clinical Competency Committee)와 관련된 논의에 참여해 왔습니다[8]. 임상역량위원회는 전공의의 지식, 술기, 임상 판단, 전문직업성, 독립 진료 준비도를 종합적으로 검토하는 핵심 교육 구조입니다.

Caretta-Weyer는 AAMC 관련 논의에서 한 사례를 소개했습니다. 어떤 교수가 전공의에게 감별진단(differential diagnosis)을 AI로 만들라고 지시했다는 사례입니다[8]. 감별진단은 환자의 증상과 검사 소견에서 가능한 질환들을 떠올리고, 그 가능성을 비교하며, 다음 검사를 결정하는 임상 추론의 기본 과정입니다. 따라서 감별진단을 처음부터 AI에 맡긴다는 것은 단순히 편리한 도구를 쓰는 문제가 아닙니다. 수련의가 반드시 반복해서 연습해야 할 사고 과정을 언제, 어느 수준까지 AI가 대신해도 되는가의 문제입니다.

이 장면의 함의는 분명합니다. 앞으로 수련 프로그램은 두 가지 역량을 구분해 평가해야 합니다. 하나는 AI 없이 감별진단을 세우고 판단할 수 있는 기본 역량입니다. 다른 하나는 AI가 제시한 감별진단을 비판적으로 검토하고, 누락된 가능성을 보완하며, 잘못된 제안을 거부할 수 있는 AI 활용 역량입니다. 두 역량은 서로 대체되지 않습니다. AI를 잘 사용하는 의사가 되기 위해서도, 먼저 AI 없이 사고할 수 있는 기준점이 필요합니다.

따라서 never-skilling의 핵심 질문은 "수련의에게 AI를 허용할 것인가"가 아닙니다. 더 중요한 질문은 이것입니다. 수련의가 독립적 임상 추론을 충분히 형성하기 전에 AI가 그 출발점을 대신해도 되는가. 그리고 AI와 함께 일하는 능력을 평가할 때, AI 없이 판단할 수 있는 능력도 함께 확인하고 있는가. 이 질문에 대한 합의된 교육 표준은 아직 형성 중입니다. 그러나 의료 AI가 수련 현장에 빠르게 들어오고 있는 만큼, 그 기준을 미루기는 어렵습니다.

연구 간 비교. 서로 다른 근거를 같은 무게로 읽지 않기

지금까지 살펴본 연구들은 모두 의료 AI가 의료인의 판단과 역량에 어떤 영향을 미칠 수 있는지를 다룹니다. 그러나 이 연구들을 하나의 결론으로 단순히 묶어서는 안 됩니다. AI의 종류, 연구 대상, 연구 설계, 평가 지표가 서로 다르기 때문입니다. 정책이나 수련 기준을 만들기 위해서는 먼저 근거의 성격을 구분해야 합니다.

연구	AI 유형과 대상	핵심 결과	해석 시 주의점
Budzyń 2025 [1]	대장내시경 CADe, 폴란드 4개 기관의 숙련 내시경의 19명	AI 도입 후, AI 없이 시행한 대장내시경의 선종 발견율이 28.4%에서 22.4%로 감소	후향적 관찰 연구이므로 인과를 단정할 수 없음. 다만 실제 임상 환경에서 관찰된 de-skilling 신호라는 점에서 중요함
Yu 2024 [11]	흉부 X-ray AI, 영상의학과 전문의 140명	AI가 부정확할 때 영상의학과 전문의의 성과가 전체 병리 및 일부 개별 병리에서 악화됨. 경력, 세부 전공, AI 친숙도는 효과를 충분히 예측하지 못함	AI가 부정확할 때 영상의학과 전문의의 성과가 전체 병리 및 일부 개별 병리에서 악화됨. 경력, 세부 전공, AI 친숙도는 효과를 충분히 예측하지 못함
Wang 2023 [4]	ACL 파열 MRI AI, 임상의 40명	AI 보조 시 평균 정확도는 상승했지만, AI 보조 상태에서 발생한 오류의 45.5%가 자동화 편향으로 분류됨. AI suppression 전략은 자동화 편향을 줄임	단일 질환 연구임. 그러나 AI 보조의 이익과 자동화 편향 위험이 동시에 존재할 수 있음을 보여줌
Goh 2024 [12]	GPT-4, 가정의학·내과·응급의학 의사 50명	GPT-4 보조군의 진단 추론 점수는 기존 자원군과 유의한 차이가 없었음. GPT-4 단독은 기존 자원군보다 16%p 높았음	비네트 기반 연구임. AI 단독 성능과 인간-AI 협업 성과가 다를 수 있음을 보여줌
Goh 2025 [14]	GPT-4, 의사 92명	치료 관리 추론 과제에서 GPT-4 보조가 의사 점수를 6.5%p 향상시킴	진단 추론과 치료 결정은 과제의 성격이 다름. 치료 결정에서의 단기 성과 향상이 장기적 역량 유지까지 의미하지는 않음
Qazi 2026 [19]	ChatGPT-4o, AI 리터러시 교육을 받은 의사 44명	오류가 포함된 LLM 추천을 받은 군에서 진단 추론 정확도가 낮아짐	NEJM AI 게재 연구임. 단일 국가, 비네트 기반, 자발적 AI 사용 환경이라는 한계가 있음. 교육을 받았더라도 자동화 편향 위험이 남을 수 있음을 보여줌
Teng 2026 [20]	AI 의학 설명 시스템, 의대생 111명	오도하는 AI 설명은 진단 정확도를 낮췄고, 정확한 AI 설명은 유의한 향상을 보이지 않음	초보 학습자 대상 연구이므로 전문의에게 그대로 일반화할 수 없음. 다만 의학교육에서 잘못된 AI 설명의 위험을 보여줌
Savardi 2025 [18]	흉부 X-ray 중증도 점수 AI, 영상의학과 전공의 8명	AI 보조는 오류를 줄이고 평가자 간 일치도를 높였으며, 전공의들이 일정 수준에서 AI 오류에 저항하는 모습을 보임	표본이 매우 작고 단일 기관 연구임. 그러나 AI 설계와 사용 방식에 따라 교육적 이익도 가능하다는 반론 근거가 됨

이 비교에서 중요한 결론은 세 가지입니다.

첫째, AI의 종류가 다르면 위험의 성격도 달라집니다. 대장내시경 CADe나 흉부 X-ray 판독 AI는 특정 영상이나 병변을 탐지·분류하는 도구입니다. 반면 GPT-4와 같은 LLM은 감별진단, 설명, 치료 선택지처럼 사고 과정 자체에 개입할 수 있습니다. 따라서 영상 AI에서 관찰된 결과를 LLM에 그대로 적용하거나, LLM 연구 결과를 모든 의료 AI에 일반화해서는 안 됩니다.

둘째, 연구 대상이 다르면 해석의 범위도 달라집니다. 숙련 전문의에게서 관찰된 현상과 의대생에게서 관찰된 현상은 같은 의미가 아닙니다. 숙련 전문의의 문제는 이미 형성된 역량이 AI 의존으로 약화될 수 있는 de-skilling에 가깝습니다. 반면 의대생과 수련의의 문제는 기본 역량이 충분히 형성되기 전에 AI가 사고 과정을 대신할 수 있는 never-skilling에 가깝습니다.

셋째, 현재 근거는 강도와 범위가 서로 다릅니다. 폴란드 내시경 연구는 실제 임상 환경에서 관찰된 중요한 신호이지만, 후향적 관찰 연구이므로 인과를 단정할 수 없습니다. Yu, Wang, Goh, Qazi, Teng 연구는 AI가 인간 판단에 미치는 영향을 실험적으로 살폈지만, 대부분 비네트나 시뮬레이션 기반 과제라는 한계가 있습니다. Savardi 연구는 AI가 교육적으로 도움이 될 가능성을 보여주지만, 표본 수가 작아 일반화에는 신중해야 합니다.

따라서 현재의 결론은 조심스럽지만 분명해야 합니다. 아직 모든 의료 AI가 의료인의 역량을 약화시킨다고 말할 수는 없습니다. 그러나 여러 분야에서 반복적으로 관찰되는 공통 신호가 있습니다. AI 출력은 의료인의 판단을 바꿀 수 있고, 그 출력이 부정확할 때 의료인도 함께 잘못된 방향으로 움직일 수 있다는 점입니다.

이 때문에 의료 AI의 안전성은 알고리즘의 성능만으로 평가할 수 없습니다. AI가 실제 진료에서 의료인의 판단을 어떻게 바꾸는지, 수련 과정에서 어떤 역량을 강화하거나 생략하게 만드는지, AI 없이도 독립적으로 판단할 수 있는 기준점이 유지되는지를 함께 보아야 합니다. De-skilling과 never-skilling은 기술에 대한 막연한 불안이 아니라, 의료 AI 시대의 환자 안전과 전문직 역량을 지키기 위한 거버넌스 의제입니다.

03 이것은 AI만의 문제인가

결론부터 말하면, 아닙니다. De-skilling은 AI에만 고유한 현상이 아닙니다. 인간이 반복적으로 수행하던 판단이나 기술을 자동화 시스템에 맡기면, 그 일을 스스로 수행하는 빈도와 능력이 줄어들 수 있습니다. 계산기를 쓰면서 암산을 덜 하게 되고, 내비게이션을 쓰면서 길을 기억하거나 공간을 파악하는 일이 줄어드는 것과 비슷합니다. 항공 분야에서는 오토파일럿 의존과 조종사 역량 저하 문제가 오래전부터 논의되어 왔습니다. Parasuraman과 Manzey의 자동화 편향 리뷰 역시 AI가 아니라 자동화 시스템 전반에서 나타나는 인간의 과신, 주의 저하, 오류 수용 문제를 다룹니다[9].

그렇다면 의료 AI의 de-skilling은 다른 자동화와 같은 문제일까요. 같은 면도 있지만, 그대로 같다고 보기는 어렵습니다. 의료 AI에서 이 문제가 특별히 중요한 이유는 세 가지입니다.

첫째, 의료 판단의 결과는 되돌리기 어렵습니다. 계산기를 많이 써서 암산이 약해지거나, 내비게이션에 익숙해져 길 찾기 감각이 둔해지는 것도 분명한 변화입니다. 그러나 의료에서는 판단의 오류가 진단 지연, 오진, 부적절한 치료로 이어질 수 있고, 그 결과는 환자의 생명과 신체에 직접적인 영향을 미칠 수 있습니다. 사후에 오류를 발견하더라도 이미 치료 시점이 지나 있거나, 환자에게 회복하기 어려운 손상이 발생한 뒤일 수 있습니다.

폴란드 대장내시경 연구도 이런 점에서 중요합니다. 이 연구에서 AI 도입 후, AI 없이 시행한 대장내시경의 선종 발견율은 도입 전 28.4%에서 22.4%로 낮아졌습니다[1]. 이것을 "사라진 6%포인트만큼의 선종이 그대로 발견되지 않았다"고 단순화해서 말할 수는 없습니다. 선종 발견율은 환자 단위의 질 지표이고, 연구 설계상 인과를 단정할 수도 없습니다. 그러나 같은 환경에서 AI 없이 시행한 시술의 핵심 성과 지표가 유의하게 낮아졌다는 점은, AI 노출 이후 독립적 수행 능력에 변화가 생겼을 가능성을 보여주는 중요한 신호입니다.

둘째, 의료 AI의 영향은 개인을 넘어 시스템 차원으로 확산될 수 있습니다. 한 명의 의사가 특정 도구에 익숙해지는 것은 개인 수준의 문제로 보일 수 있습니다. 그러나 동일하거나 유사한 AI 시스템이 여러 병원, 여러 진료과, 여러 수련 프로그램에 동시에 도입되면 이야기가 달라집니다. 특정 방식의 판단 보조가 표준 업무 흐름이 되면, 의료인의 사고 방식과 수련 방식도 그 시스템에 맞추어 재편될 수 있습니다. 이 경우 AI의 오류나 중단은 단순한 기계 고장이 아니라, 그 시스템에 의존해 형성된 진료 과정 전체의 취약성으로 나타날 수 있습니다.

셋째, 의료 AI는 never-skilling이라는 교육적 문제를 새롭게 부각시킵니다. De-skilling이 이미 형성된 역량의 약화를 뜻한다면, never-skilling은 필요한 역량이 충분히 형성되기 전에 AI가 그 과정을 대신해 버리는 문제입니다. 수련 기간 동안 AI가 감별진단, 영상 판독, 병리 판독, 처방 검토, 기록 작성의 출발점을 계속 제공한다면, 수련의는 AI 없이 처음부터 문제를 구조화하고 판단하는 경험을 충분히 쌓지 못할 수 있습니다. 이 경우 AI가 중단되었을 때 문제는 "예전 실력으로 돌아가지 못하는 것"이 아니라, 애초에 독립 판단의 기준점이 충분히 형성되지 않았을 가능성입니다.

따라서 의료 AI의 de-skilling 문제는 단순히 "도구를 쓰면 손기술이 줄어든다"는 이야기가 아닙니다. 의료에서는 자동화 의존이 환자 안전, 수련 체계, 전문직 책임, 시스템 회복탄력성의 문제로 이어집니다. 바로 이 점 때문에 의료 AI의 de-skilling은 일반 자동화의 한 사례이면서도, 의료 영역에서 별도의 거버넌스가 필요한 문제입니다.

04 반론. 그래도 AI가 낫지 않은가

여기까지 읽으면 "AI를 쓰지 말아야 한다"는 결론처럼 보일 수 있습니다. 그러나 이 글의 목적은 AI 반대가 아닙니다. 오히려 의료 AI가 실제로 도움이 될 수 있기 때문에, 그 이익과 위험을 함께 보자는 것입니다. De-skilling 우려에 대해서는 중요한 반론들이 있고, 이 반론들은 정직하게 다루어야 합니다.

반론 ① 계산기 선례

첫 번째 반론은 계산기 선례입니다. 계산기가 보급되면서 암산의 중요성은 줄었지만, 수학 교육은 사라지지 않았습니다. 오히려 교육의 초점은 더 복잡한 문제 해결, 모델링, 통계적 사고로 이동했습니다. 의료 AI도 비슷하게 볼 수 있습니다. 반복적 패턴 인식이나 단순한 정보 검색은 AI에 맡기고, 의사는 복잡한 의사결정, 환자와의 소통, 가치 판단, 윤리적 책임에 더 집중할 수 있다는 주장입니다. Oettl 등은 이러한 논리를 바탕으로 AI가 의사를 대체하기보다 의사의 역할을 더 높은 수준으로 재구성할 수 있다고 봅니다[3].

반론 ② 설계를 잘 하면 된다

두 번째 반론은 설계의 문제입니다. AI가 항상 켜져 있고 먼저 답을 제시하는 방식은 자동화 편향을 키울 수 있습니다. 그러나 AI를 언제, 어떻게 보여줄 것인지 설계하면 위험을 줄일 수 있습니다. 이탈리아 브레시아 병원에서 영상의학과 전공의 8명을 대상으로 수행된 연구는, AI 보조가 오류를 줄이고 평가자 간 일치도를 높일 수 있음을 보여주었습니다[18]. 또한 전공의들이 AI 오류에 일정 수준 저항하는 모습도 관찰되었습니다. ACL MRI 연구에서 제안된 AI suppression 전략, 즉 오류 가능성이 높은 AI 출력을 선별적으로 차단하는 방식도 자동화 편향을 줄이는 효과를 보였습니다[4]. 이는 AI 자체보다 AI를 배치하는 방식이 중요하다는 점을 보여줍니다.

반론 ③ 현재로서는 de-skilling이 발생하지 않았다

세 번째 반론은 현재 임상 현장에서 de-skilling이 뚜렷하게 확인되지 않았다는 주장입니다. 일부 질적 연구에서 의료진은 현재 사용하는 AI 도구 때문에 자신의 역량이 약화되었다고 느끼지는 않는다고 보고했습니다. 현재 많은 의료 AI가 제한된 업무에 적용되고 있고, 응답자 대부분이 AI 도입 이전에 이미 임상 역량을 형성한 세대라는 점도 고려해야 합니다. 따라서 지금 당장 모든 의료 AI가 의료인의 역량을 떨어뜨리고 있다고 말하는 것은 과도합니다.

그럼에도 우려가 남는 이유

첫째, 계산기 선례는 의료에 그대로 적용되지 않습니다. 계산기 사용으로 암산이 줄어드는 것과, 의사가 독립적으로 감별진단을 세우거나 영상·병리 소견을 판독하는 능력이 약화되는 것은 위험의 성격이 다릅니다. 의료 판단은 환자의 생명과 신체에 직접 연결됩니다. 따라서 의료 AI 논의에서 중요한 질문은 "어떤 역량은 AI에 맡겨도 되는가"와 동시에 "어떤 역량은 AI 시대에도 반드시 보존되어야 하는가"입니다.

둘째, 좋은 설계가 가능하다는 것과 실제 임상에서 그런 설계가 널리 구현되어 있다는 것은 다릅니다. On-demand 방식, sequential reveal 방식, AI suppression 전략은 모두 의미 있는 대안입니다. 그러나 실제 의료기관의 AI 도입은 업무 효율, 판독 속도, 비용, 사용자 편의성에 의해 결정되는 경우가 많습니다. 자동화 편향을 줄이고 독립적 판단을 유지하도록 설계된 AI가 표준이 되려면, 제품 설계뿐 아니라 인허가, 구매, 배치, 교육, 시판 후 모니터링 기준이 함께 바뀌어야 합니다.

셋째, 현재 문제가 뚜렷하지 않다는 사실이 미래의 안전을 보장하지는 않습니다. 지금 임상 현장의 많은 의사들은 AI 없이 훈련받은 뒤 AI를 도구로 사용하고 있습니다. 이들에게 AI는 기존 역량 위에 얹힌 보조 도구입니다. 그러나 앞으로의 수련의와 의대생은 처음부터 AI와 함께 배우고 진료하게 됩니다. Never-skilling의 핵심 대상은 현재의 숙련 세대가 아니라, 아직 독립적 판단 기준을 형성하는 중인 다음 세대입니다. 문제가 눈에 보일 때는 이미 한 세대의 수련 과정이 지나간 뒤일 수 있습니다.

[하편]으로 이어집니다. 클릭

#유소영

정책 기사

재정적자 우려 속 끝난 수가협상…'의원'만 외톨이 결렬 2026-05-30 11:17:44
입원실 남녀구분 운영의무 삭제…가족 어린이 입원 열려 2026-05-29 13:01:59
식약처, 지난해 의약품 7887품목 중 5579품목 갱신 2026-05-29 11:58:37
K-바이오벤처, 글로벌 ADC 무대서 세계적 기술력 과시 2026-05-28 12:01:59
버제니오 통과·키스칼리 고배…유방암 보조요법 급여 '희비' 2026-05-27 19:13:41

새로고침

최신순
추천순

댓글운영규칙

댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글

정책 기사

많이 읽은 뉴스

이메일 무단수집 거부

메디칼타임즈 홈페이지에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 방법을 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반할 시에는 정보통신망법에 의해 형사 처벌될 수 있습니다.

의료 AI와 임상 역량의 퇴화(상)

[유소영 박사의 의료AI와 윤리]De-skilling, Mis-skilling, Never-skilling. AI가 의사를 돕는 동안 의료인의 역량에 무엇이 일어나는가

관련기사

정책 기사

정책 기사

많이 읽은 뉴스

[유소영 박사의 의료AI와 윤리]
De-skilling, Mis-skilling, Never-skilling.
AI가 의사를 돕는 동안 의료인의 역량에 무엇이 일어나는가