조기 폐암 환자, 재발 1년 전 AI로 미리 안다

삼성서울병원 연구팀, 딥러닝 기반 'RADAR' 모델 제시 "점수 흐름 따라 치료 전략 달라진다"…4가지 예측 패턴 도출

2025-07-31     김윤미 기자

국내 연구진이 조기 비소세포폐암(NSCLC) 환자의 재발을 최대 1년 전에 예측할 수 있는 인공지능(AI) 모델을 개발해 주목받고 있다.

삼성서울병원 혈액종양내과 정현애 교수 등 연구팀은 다양한 임상·병리·유전정보와 추적검사 데이터를 통합 분석하는 딥러닝 기반 ‘RADAR CARE’ 모델을 구축하고, 이를 통해 환자의 재발 위험도를 정량화한 ‘RADAR 점수’를 실시간으로 산출해 임상에 활용할 수 있는 가능성을 제시했다.

해당 RADAR CARE 연구(원제: Deep-Learning Model for Real-Time Prediction of Recurrence in Early-Stage Non–Small Cell Lung Cancer: A Multimodal Approach)는 최근 미국임상종양학회 학술지 JCO Precision Oncology 최신호에 게재됐다.

그림. RADAR 점수와 1년 이내 재발 간의 관계(출처: https://doi.org/10.1200/PO-25-00172)

현재 조기 NSCLC 환자의 수술 후 추적은 병기나 유전자 돌연변이 여부 등 개별 재발 위험과 무관하게 통일된 주기로 시행되고 있다. 그러나 연구팀은 실제로 같은 병기 내에서도 EGFR, ALK, KRAS, TP53 등 유전자 변이, 조직학적 아형, CEA 수치 등의 생물학적 이질성에 따라 재발 위험이 큰 차이를 보인다는 점에 주목했다.

환자의 특성에 따라 추적 시기 및 치료 전략을 조정할 수 있는 정량적 예측 모델이 필요하다는 점이 이번 연구의 출발점이었다.

연구팀은 2008년부터 2022년까지 삼성서울병원에서 병기 1~3A 비소세포폐암으로 완치 목적 수술을 받은 환자 1만4,177명의 임상자료를 수집했다. 해당 데이터에는 진단 시점의 임상·병리학적 특성(총 64개 항목), 수술 전후 종양 유전정보, 추적 중 반복 시행된 혈액검사와 흉부 CT 해석 결과 등 실시간적이고 종단적(longitudinal)인 요소들이 포함됐다.

딥러닝 기반 'RADAR' 모델, AUC 0.854 달성

이 방대한 데이터를 기반으로 연구팀은 다양한 유형의 데이터를 동시에 처리할 수 있는 다중모달(multi-modal) 딥러닝 모델을 설계했다. 특히 자연어 기반의 영상 판독 소견은 의료 특화 언어모델인 ClinicalBERT를 활용해 임베딩(embedding)했고, 이 외의 수치 데이터는 표준화 및 시계열 전처리를 통해 모델에 입력했다. 최종 모델은 환자의 특정 시점에서 1년 내 재발 가능성을 확률값으로 예측해 'RADAR(Risk-Adapted DAta-dRiven score) 점수'로 제공하도록 설계됐다.

모델의 성능은 수술 시점의 기초 자료만을 활용했을 때 AUC 0.823을 기록했으며, 여기에 추적검사 결과를 반영한 종합 모델의 경우 AUC 0.854까지 향상됐다. 민감도는 86.0%, 특이도는 71.3%였다.

병기별로는 1기 환자에서 AUC 0.872로 가장 높았고, 2기는 0.737, 3기는 0.724를 기록해 모델이 특히 조기 병기에서의 예측력이 뛰어남을 시사했다.

재발 위험 따라 4가지 패턴 분류…맞춤형 치료 전략 제시

RADAR 점수의 경향은 환자의 재발 양상과 밀접히 연결돼 있었다. 연구팀은 수술 직후의 RADAR 점수와 이후 추적 기간 중의 변화 양상을 기준으로 환자를 ▲높음-지속형(수술 직후 점수가 0.6 이상이며 추적 기간 동안 지속적으로 높게 유지된 환자. 재발 위험이 매우 높아 적극적인 보조요법이 필요함) ▲높음-감소형(수술 직후 점수는 높았으나 시간이 지남에 따라 낮아진 환자. 초기 보조요법은 필요하나 치료기간 단축 고려 가능) ▲낮음-증가형(수술 직후 점수는 낮았으나 이후 상승하는 환자. 초기에는 보조치료 없이 추적관찰 가능하나, 점수 상승 시 조기 개입 필요) ▲낮음-지속형(지속적으로 점수가 낮은 환자. 추적 간격을 늘릴 수 있는 저위험군으로 분류됨) 등 4가지 패턴으로 분류했다.

이러한 정량적 패턴 분석은 임상 현장에서 환자별로 최적화된 모니터링 및 보조 치료 전략 수립에 실질적 도구로 활용될 수 있다는 점에서 큰 의의가 있다.

병기와 무관하게 점수가 재발과 유의하게 연관

특히, RADAR 점수는 TNM 병기와 독립적으로 재발과 강한 상관관계를 보였다. 예를 들어 병기가 1기인 환자라도 RADAR 점수가 높으면 재발률이 3기 환자보다 높을 수 있었고, 반대로 3기 환자라도 낮은 RADAR 점수를 기록하면 재발 가능성은 매우 낮았다. 이러한 경향은 병기별 무병생존기간(DFS) 분석에서도 유사하게 관찰됐다.

연구팀은 "RADAR 점수는 기존 병기 분류나 단일 바이오마커로는 설명하기 어려운 재발 양상의 이질성을 잘 포착하고 있다"며 "앞으로 국내외 다기관 및 전향적 연구를 통해 해당 모델의 보편성과 임상 유용성을 추가 검증할 필요가 있다"고 설명했다.