임상시험에도 효과 보인 거대언어모델…실용성 있을까

발행날짜: 2025-08-01 12:16:19
  • 챗 지피티 활용한 임상시험 적격자 분류 검증 연구 공개
    0.2달러로 최대 10분만에 대상 환자 높은 정확도로 정리

거대언어모델(LLM)이 임상시험 진행에도 큰 도움을 줄 수 있다는 연구 결과가 나와 주목된다.

매우 저렴한 가격으로 임상시험에 적합한 환자를 높은 정확도로 분류했다는 점에서 향후 예산 절감에 효과를 낼 수 있다는 것이 전문가들의 의견이다.

거대언어모델이 신약 임상시험 적격 환자 분류 등에도 활용될 수 있다는 연구가 나왔다.

현지시각으로 1일 국제학술지 메디슨 러닝(Machine Learning)에는 거대언어모델을 활용한 임상시험 환자 분류 작업의 효용성에 대한 연구 결과가 공개됐다(10.1088/3049-477X/adbd47).

코로나 대유행 이후 신약 개발을 위한 임상시험은 상당한 난항을 겪고 있는 상황이다.

일단 충분한 참가자를 모집하는데 어려움이 있는데다 이중에서도 임상에 적합한 환자를 골라내는 것이 상당한 비용과 노동력이 들어가기 때문이다.

사우스웨스턴대 마이크 도호폴스키(Mike Dohopolski) 교수가 이끄는 연구진이 이에 대해 거대언어모델 적용을 검토한 것도 이러한 이유 때문이다.

만약 거대언어모델이 이 일을 대신할 수 있다면 비용을 아끼는 것은 물론 임상시험에 필요한 시간을 크게 단축할 수 있다는 판단에서다.

이에 따라 연구진은 두경부암 신약 임상에 참여한 74명의 환자를 대상으로 챗 지피티 3.5 버전과 챗 지피티 4.0 버전으로 임상시험에 적격 환자를 분류하는 작업을 지시했다.

챗 지피티에게 환자의 EHR 데이터와 임상의 목적 등이 명시된 보고서를 준 뒤 환자가 임상시험에 참여할 수 있는지를 물어본 것이다.

그 결과 챗 지피티 3.5는 정확도를 의미하는 AUROC가 0.761을 기록했다. 76%의 확률로 적격 환자를 구분할 수 있다는 의미다.

챗 지피티 4.0은 좀 더 좋은 성능을 보여줬다. AUROC가 0.838로 더 높은 정확도를 보였기 때문이다.

특히 이러한 방식은 매우 비용효과적인 것으로 확인됐다. 이렇게 환자가 임상시험에 적격한지를 분류하는데 필요한 시간은 최소 1.4분에서 최대 12.4분에 불과했기 때문이다.

또한 필요한 예산도 0.02달러에서 0.27달러로 한화로 불과 1천원도 되지 않았다.

마이크 도호폴스키 교수는 "이미 거대언어모델은 임상시험에 필요한 환자를 매우 높은 정확도로 분류할 수 있는 수준에 이르렀다"며 "이를 제대로 활용하기 위한 방안이 필요한 시점"이라고 밝혔다.

관련기사

의료기기·AI 기사

댓글

댓글운영규칙
댓글을 입력해 주세요.
더보기
약관을 동의해주세요.
닫기
댓글운영규칙
댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글