의료 인공지능은 최대한 많은 환자 데이터를 학습시켜야 성능이 좋아진다는 공식이 점차 무너지고 있다.
과거 대비 학습 데이터 세트를 20배 가량이나 줄여도 성능을 유지하는 이른바 '생성형 의료 AI' 기술이 나오고 있기 때문이다.
현지시각으로 4일 국제학술지 네이처(Nature Communications)에는 초 저데이터 체제에서 높은 성능을 유지하는 이미지 분할 기술에 대한 검증 연구 결과가 게재됐다(10.1038/s41467-025-61754-6).
현재 의료 인공지능은 이미지의 의미론적 분할을 통해 질병의 진단과 추적, 치료 계획 지원 등 다양한 임상적 활동을 지원하고 있다.
특정 이미지내의 각 픽셀을 정상 조직과 비정장조직으로 분류하는, 이른바 의미론적 분할을 통해 의료진에게 정보를 전달하는 과정이다.
딥러닝은 이를 가능하게 하는 가장 대표적인 방법이다. 대부분의 의료 인공지능이 이 방법을 택하고 있는 이유 중 하나다.
하지만 정확하고 견고한 딥러닝 모델을 훈련하기 위해서는 방대한 환자 데이터에 일일이 레이블이라고 명명되는 주석을 달아야 하는 복잡한 과정이 필요했다.
의료 이미지에 의미론적 분할을 위해 각 픽셀에 레이블을 달아야 한다는 점에서 시간이 매우 오래 걸리고 인적 인프라에 상당한 비용이 들어간다는 의미다. 또한 일부 분야에서는 이러한 방대한 데이터가 없다는 한계도 있었다.
최근 의미론적 분할에서 레이블이 지정된 '이미지와 마스크의 쌍'의 부족을 해결하기 위해 데이터 증강 기술 등의 개발이 가속화되고 있는 것도 이러한 이유 때문이다. 이러한 의료 인공지능 개발의 난제를 풀어내기 위해서다.
캘리보니아대 리 장(Li Zhang) 교수가 이끄는 연구진이 소수의 이미지 샘플만으로 의미론적 이미지 분할을 가능하게 하는 생성형 딥러닝 프레임워크인 'GenSeg'를 개발한 것도 이러한 이유 때문이다.
MLO(Multi-Local Objectives) 프로세스를 통해 소수의 매우 충실한 이미지-마스크의 쌍만 제대로 학습시키는 것만으로 의료 인공지능을 구현할 수 있는 방법을 찾아낸 셈이다.
GenSeg은 매우 적은 의료 데이터만 입력한 상태에서 정확하게 의료 이미지 분할을 할 수 있도록 고품질의 레이블 지정 데이터를 생성하도록 설계된 데이터 생성 프레임워크다.
데이터 생성 모델은 의료 이미지와 해당 분할 마스크의 합성 쌍을 생성하는 역할을 하며 이렇게 생성된 데이터는 분할 모델의 학습 자료로 다시 사용된다.
처음에 분할 마스크를 생성한 다음 더 간단한 작업에서 더 복잡한 작업으로 스스로 작업을 진행하면서 의료 이미지를 생성하는 방식.
구체적으로 전문가가 레이블을 단 아주 소수의 실제 분할 마스크를 주면 기본 이미지 증강 작업을 적용해 마스크를 생성한 다음 이를 심층 생성 모델에 입력해 고품질의 이미지 분할을 이뤄내는 식이다.
그 결과 GenSeg은 다양한 피부 질환과 유방암, 태아 검사, 대장내시경 등 총 11개의 질환에 대한 검증에서 기존의 의료 인공지능의 성능을 10~20%나 향상시키는데 성공했다.
특히 기존의 딥러닝 방식에 비해 최대 20배까지 이미지를 적게 학습시켜도 그 인공지능의 성능을 98%까지 유지시켰다.
실제로 피부암 진단 보조 AI 개발에 GenSeg을 적용한 결과 전문가가 레이블을 단 40장의 이미지만으로 이 모델은 수천장의 이미지를 수집하고 레이블을 단 모델과 거의 동일한 수준의 정확도를 보였다.
리 장 교수는 "이 모델은 지속적인 피드백 루프를 통해 생성한 이미지가 모델의 학습을 얼마나 잘 향상시키는지에 따라 이미지를 개선한다"며 "소규모 데이터셋을 보강하는 새로운 인공 이미지-마스크 쌍을 생성하는 방식을 통해 딥러닝의 한계를 극복한 것"이라고 설명했다.
그는 이어 "이를 활용하면 수천장, 수만장의 이미지에 전문가가 레이블을 일일이 달아야 하는 의료 인공지능 기업과 의학자들의 심각한 고민을 단번에 해결할 수 있다"며 "이러한 난제를 해결하는 동시에 의료 데이터가 극히 제한된 환경에서도 의료 인공지능 개발의 비용 효율성을 향상시킬 수 있을 것"이라고 밝혔다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글