귀밑샘 암종에서 생존 예측을 위한 임상병리 인자 분석 및 머신러닝 모델의 구축
Clinico-pathologic Factors and Machine Learning Algorithm for Survival Prediction in Parotid Gland Cancer
Article information
Abstract
= Abstract =
Background/Objectives:
This study analyzed the prognostic significance of clinico-pathologic factors including comprehensive nodal factors in parotid gland cancers (PGCs) patients and constructed a survival prediction model for PGCs patients using machine learning techniques.
Materials & Methods:
A total of 131 PGCs patients were enrolled in the study.
Results:
There were 19 cases (14.5%) of lymph nodes (LNs) at the lower neck level and 43 cases (32.8%) involved multiple level LNs metastases. There were 2 cases (1.5%) of metastases to the contralateral LNs. Intraparotid LNs metastasis was observed in 6 cases (4.6%) and extranodal extension (ENE) findings were observed in 35 cases (26.7%). Lymphovascular invasion (LVI) and perineural invasion findings were observed in 42 cases (32.1%) and 49 cases (37.4%), respectively. Machine learning prediction models were constructed using clinico-pathologic factors including comprehensive nodal factors and Decision Tree and Stacking model showed the highest accuracy at 74% and 70% for predicting patient’s survival.
Conclusion:
Lower level LNs metastasis and LNR have important prognostic significance for predicting disease recurrence and survival in PGCs patients. These two factors were used as important features for constructing machine learning prediction model. Our machine learning model could predict PGCs patient’s survival with a considerable level of accuracy.
서론
침샘에 발생하는 침샘암(salivary gland cancers, SGCs)은 인구 10만명당 연간 발생 빈도가 3건 정도 되는 드문 암종이며 전체 두경부 암의 3% 이하를 차지하는 것으로 알려져 있다. 24개의 다양한 조직학적 유형의 암종들로 이루어진 침샘암은 조직학적 등급에 따라서 환자들의 임상 경과와 예후가 뚜렷하게 구분된다.1,2) 종양의 원발 부위에 따라서 호발하는 조직학적 유형이 다르고 같은 유형의 암종이라고 하더라도 발생 부위에 따라서 임상 양상과 치료 방법에 있어서 차이가 있다. 따라서 다른 암종들에 비교하여 섬세하고 체계적인 치료 가이드 라인이 제시되어야 하지만 드문 발생 빈도와 복잡한 조직학적 이질성 때문에 임상적 연구를 수행하는데 어려움이 있다.
림프절(lymph node, LN) 전이는 침샘암의 가장 중요한 예후 인자로 알려져 있으며, National Comprehensive Cancer Network (NCCN)에서는 수술 후 병리 검사상 림프절 전이가 관찰되는 경우 고위험군으로 분류하여 보조 방사선 치료를 권고하고 있다.3-6) American Joint Committee on Cancer (AJCC)의 7th staging system에서는 전이된 림프절의 숫자, 위치, 크기를 기반으로 N1-N3로 분류하였고, 개정된 8th staging system에서는 기존의 림프절 관련 인자들에 림프절 외 침범(extranodal extension, ENE) 소견이 추가된 새로운 N classification이 제시되었다. 개정된 staging system에는 반영되지 않았지만 전이된 LN 숫자를 제거된 총 LN 수로 나누어 계산한 lymph node ratio (LNR)의 예후적 중요성이 다양한 암종에서 보고된 바 있으며, 침샘암에서도 LNR를 바탕으로 한 LNR classification이 기존 TNM staging의 한계를 보완할 수 있다고 보고되었다.2,7-9) 특히, 귀밑샘은 다른 큰침샘(major salivary gland)들과는 다르게 침샘 내부에 림프절이 존재하기 때문에 악성 종양이 발생하였을 경우 해당 림프절에 전이가 발생할 수 있다. Lim 등의 보고에 의하면 귀밑샘 내 림프절 전이가 있는 환자들이 현저하게 불량한 disease-specific survival 및 loco-regional recurrence 증가를 보인다고 하였다.10)
최근 머신러닝 기술이 발전하면서 의학 분야에서도 그 활용이 점차 확대되고 있으며, 특히 image recognition 기법의 발달로 인하여 영상의학과, 안과, 피부과 등의 분야에서 많은 연구들이 진행되고 있다. 하지만 두경부 암과 관련되어 진행된 머신러닝 연구는 극히 드물며 침샘암에 대한 연구는 본 연구가 최초로 시도하는 것이다. 귀밑샘암 환자들의 생존 예측을 통하여 고위험군의 환자들을 선별할 수 있다면 위험도에 따른 맞춤형 치료와 추적 관찰을 시행할 수 있을 것이다. 하지만 암 환자들의 생존에는 다양한 임상병리인자들이 영향을 미치기 때문에 정확한 예측 모델을 만드는 것이 쉽지 않다. 본 연구는 귀밑샘암 환자들만을 대상으로 림프절 관련 병리 인자들의 예후적 의미를 분석하였고, 머신러닝 기법을 활용해 다양한 임상병리인자들을 기반으로 한 귀밑샘암 환자들의 생존 예측 모델을 구축하고자 하였다.
대상 및 방법
본 연구는 Institutional Review Board of Yonsei University의 승인을 받았다. 2006년 6월부터 2018년 12월까지 세브란스병원에서 귀밑샘암으로 진단 및 치료받은 환자들의 자료를 후향적으로 분석하였다. 귀밑샘암에서 림프절 전이의 예후적 의미를 분석하기 위하여 귀밑샘암으로 진단받고 원발 병변에 대한 수술 및 목절제술(neck dissection)을 동시에 시행 받은 경우만 연구에 포함되었다. Exclusion criteria는 다음과 같다. (1) 진단 당시 원격전이가 있었던 경우 (2) 이전에 두경부 부위에 수술이나 방사선 치료를 시행 받은 경우 (3) 수술 이후 추적 관찰 중 loss된 경우는 연구에서 제외되었다. 최종적으로 131명의 환자가 본 연구에 포함되었고 남자가 82명이었고 여자가 49명이었다. 나이는 15세에서 95세까지였으며 mean age는 54.5세였다. 8th American Joint Committee on Cancer staging system을 기반으로 종양의 병기를 분류하였다.
수술 후 얻어진 검체를 분석하여 다음의 조직병리학적인 특징을 분석하였다. 조직학적 유형, surgical margin status, extraparenchymal extension (EPE), lymphovascular invasion (LVI), perineural invasion (PNI) 유무를 분석하였다. Surgical margin은 남아있는 종양이 없는 경우를 R0, 현미경으로 관측 가능한 종양이 남아있는 경우를 R1, 육안으로 관측 가능한 종양이 남아있는 경우 R2로 정의하였다. 또한 lower level LN (level IV 또는 Vb) 전이 유무, multiple level LN 전이 유무, contralateral LN 전이, intraparotiod LN 전이, ENE 유무를 분석하였다. 전이된 LN 개수를 제거된 총 LN 개수로 나눈 LNR를 계산하였다. 질환의 재발 및 사망과 관련하여 receiver operating curve (ROC) 기법을 활용해 이를 예측할 수 있는 LNR의 sensitivity와 specificity를 계산하였고, area under curve (AUC)가 최대화시킬 수 있는 값을 LNR의 cut-off value로 설정하였다.
원발 종양의 범위에 따라서 total 혹은 less-than total parotidectomy를 시행하였으며, 본 연구에 포함된 모든 환자들은 elective neck dissection or therapeutic neck dissection을 시행 받았다. 경부 림프절 전이가 없는 경우 level II, III를 포함한 selective neck dissection (SND)을 시행하였다. 경부 림프절 전이가 있었던 경우는 level II-V를 포함한 modified radical neck dissection (MRND)을 시행하였다. 수술 후 병리검사상 adverse pathologic features (positive margin, ENE, PNI, LVI, T3-4, N2-3, high grade tumor)를 보인 경우는 추가적인 adjuvant Tx(RT 또는 CCRT)를 고려하였다.
머신러닝은 지도학습을 기반으로 수행되었으며 고전적으로 많이 활용된 Decision tree 기법과 함께 Random Forest, XGBoost, LightGBM, Stacking 기법을 포함한 Ensemble 모델을 활용하였다. 앞서 언급한 다섯 가지 모델로 학습이 이루어 졌고, 모델 간의 성능 평가는 accurracy를 활용하였다. 모델 구축과 학습을 위해서 scikit learn version 12.3과 Python 3.8 version을 활용하였다. 전체 데이터 세트의 80%를 구분하여 학습에 활용하였고, 나머지 20%를 검증에 활용하였다. Selection bias를 해소하기 위하여 five-fold-cross-validation 기법을 적용하였다.
환자들의 인적 정보, 종양의 위치와 병기, 수술 후 병리 소견, 재발 유무, 재발 날짜, 재발 원인, 사망 유무, 사망 날짜, 사망 원인에 대한 자료를 수집하여 분석하였다. 독립된 두 집단의 범주형 변수를 비교하기 위하여 Chi-square 또는 Fisher’s exact test가 사용되었다. 연속형 변수를 비교하기 위해서는 independent two-sample t-test가 사용되었다. 무병생존(disease free survival)을 분석하기 위해 Kaplan- Meier curve가 사용되었으며 log-rank test를 활용한 생존 결과의 분석이 이루어졌다. 다양한 변수의 생존과 사망에 미치는 영향을 평가하기 위해 multivariate Cox proportional hazards regression model을 사용하였다. p-value < 0.05 인 경우 통계적으로 유의한 것으로 간주하였다. 통계 작업은 SPSS 25.0 for Windows (SPSS, Chicago, IL)를 활용하였다.
결과
131명의 환자가 본 연구에 참여하였으며 모든 환자는 parotidectomy와 함께 neck dissection을 시행받았다. 귀밑샘 원발 종양에 대한 수술의 범위는 크게 total 및 less-than total parotidectomy로 구분하였고, partial 또는 superficial parotidectomy만을 시행한 경우를 less-than total parotidectomy로 정의하였다. 98명 (74.8%)의 환자가 total parotidectomy를 시행 받았고 33명 (25.2%)의 환자가 less-than total parotidectomy를 시행 받았다. 94명 (71.8%)의 환자가 SND를 시행 받았고 37명 (28.2%)의 환자가 MRND를 시행 받았다. 수술 전 안면신경마비 소견이 있었던 경우는 총 19건 (14.5%)이었다. 수술 후 병리검사 결과상 수술 절제연 양성을 보인 경우가 55건 (42%)였고 EPE 소견은 52건 (39.7%)에서 관찰되었다. LVI와 PNI 소견은 각각 42건 (32.1%)와 49건 (37.4%)에서 관찰되었다. 8th AJCC staging system에 의하여 pT classification을 적용하였고 T1이 23건, T2 62건, T3 19건, 그리고 T4가 27건 있었다. Adjuvant Tx로 RT를 58건, CCRT를 35건에서 시행하였다. 평균 추적 관찰 기간은 47.5개월 있었으며 (range, 12-232) 연구기간 동안 총 재발 건수는 36건이 있었으며 local recurrence 14건, regional recurrence 1건, distant metastasis 21건이 있었다. 사망은 총 28건이 발생하였다. 기타 환자들의 임상병리학적 특징들을 Table 1에 정리하였다.
모든 환자들의 수술 후 병리검사 결과를 분석하여 pathologic lymph node status를 분석하였다(Table 2). 8th AJCC staging system을 적용하여 N classification상 N0은 70건 (53.4%), N1 10건 (7.6%), N2a 5건 (3.8%), N2b 14건 (10.7%), N2c 1건 (0.7%), 그리고 3b은 31건 (23.7%)이 있었다. 전이된 림프절의 개수를 총 제거된 림프절의 개수로 나누어 LNR를 계산하였다. 질환의 재발 및 사망 예측과 관련된 LNR value의 sensitivity와 specificity를 구하여 최적의 cut-off value를 설정하였다. 사망 예측과 관련하여 LNR 값은 통계적으로 유의미한 상관성을 보였고 (p-value = 0.003) AUC 값은 0.683이었으며 0.36을 최적의 cut-off value로서 정하였다. 질환의 재발과 관련해서 LNR값의 ROC 분석상 통계적인 유의성은 관찰되지 않았다. LNR값 0.36을 기준으로 LNR값이 0인 그룹이 70건 (53.4%), 0 이상 그리고 0.36 이하인 그룹이 46건 (35.1%), 0.36이상인 그룹이 15건 (11.5%) 있었다. Level IV 및 Vb를 포함하는 lower level에 림프절 전이가 있었던 경우는 113건 (86.3%) 였다. 여러 구획에 동시에 림프절 전이가 있었던 경우는 43건 (32.8%) 였다. 반대편 경부 림프절 전이가 있었던 경우는 2건 (1.5%) 있었다. Intraparotid LN 전이는 6건 (4.6%)에서 관찰되었고 ENE 소견은 35건 (26.7%)에서 관찰되었다.
Adjuvant treatment여부를 포함한 재발과 관련 있는 임상병리적 인자들을 univariate analysis를 통하여 분석하였다(Table 3). LVI, PNI, lower level 림프절 전이, ENE 소견이 질환의 재발과 의미 있는 상관성을 보였다. 사망과 관련 있는 임상병리적 인자들을 univariate analysis를 통하여 분석하였다. Preoperative facial palsy, LVI, PNI, pN classification, LNR, multiple level 림프절 전이, ENE 소견이 환자들의 사망과 통계적으로 의미 있는 상관성을 보였다. 다변량 Cox proportional regression 분석을 통해 질환의 재발 및 사망과 관련 있는 임상병리적 인자들을 분석하였다. 분석에 포함된 인자들 중에서 LVI 소견과 함께 lower level 림프절 전이 소견이 질환의 재발과 유의미한 상관성이 있었으며, 환자들의 사망과 관련해서는 LVI, age, LNR가 통계적으로 의미 있는 상관성을 보였다(Table 4). Kaplan Meier method를 활용해 pN classification과 LNR를 사용한 survival analysis를 시행하였을 때 LNR를 사용한 경우가 각 그룹 간의 survival curve의 discrimination이 더욱 개선되는 것을 확인할 수 있었다(Fig. 1).
다섯 가지 머신러닝 모델의 성능을 accuracy를 바탕으로 비교하였다. Decision tree와 Stacking model이 각각 74%와 70%로 가장 높은 accuracy를 보였다(Table 5). Decision tree model의 tree structure를 graphviz software를 활용하여 visualization하였고, 알고리즘에 가장 중요도(feature importance)가 높은 5가지 특성을 분석하여 나타냈다(Fig. 2). 귀밑샘암 환자들의 생존 예측에 영향을 미치는 인자들을 결정하기 위하여 나머지 모델에서도 feature importance를 탐색하였다. 머신러닝 모델별로 feature importance의 결과는 상이 하였지만 LNR, Lower neck LNs 소견은 일관적으로 중요한 feature로 활용되었다.
고찰
침샘암 환자들의 neck dissection samples을 분석한 연구들에서 경부 림프절 전이 비율이 31%-35%로 보고된 바 있다.11-13) Advanced T classification과 high-grade histologic type이 림프절 전이의 위험인자로 알려져 있다.11) 이러한 림프절 전이 유무가 침샘암 환자들에서 중요한 이유는 질환의 재발과 사망과 연관된 명백한 인자이기 때문이다.14,15) 침샘암 환자들의 예후와 관련되어 metastatic LN burden(전이된 림프절의 수)의 중요성에 대해서는 기존 연구에서 보고된 바 있다.12,16) 이들 연구에서는 TNM staging과 metastatic LN의 개수를 함께 고려하여 환자들의 예후를 분석하였으며 기존 TNM staging 대비하여 생존 예측에 있어서 보다 나은 prediction 및 discrimination을 보였다.
전이된 LN 개수를 제거된 총 LN 개수로 나눈 LNR값은 metastatic LN burden을 대표하며, LNR는 여러 암종에서 중요한 예후인자로 알려져 있다.7-9) Lei 등은 침샘암 환자들에서 LNR staging system을 사용할 경우 Kaplan-Meier curves의 discrimination 정도를 개선시키기 때문에 기존 TNM staging system의 한계를 보완할 수 있다고 하였다.2) 침샘암은 종양의 원발 부위에 따라서 임상 경과 및 림프절 전이 양상이 다르기 때문에 anatomical subsite에 따른 분석이 필요하지만 귀밑샘암에 국한하여 LNR의 예후적 의미를 분석한 연구는 아직 없다. 본 연구에서는 귀밑샘암으로 neck dissection을 시행 받은 환자들의 pathologic lymph node status를 분석하여 림프절 숫자, 위치, 크기, ENE, LNR, lower level 림프절 전이, multiple level 림프절 전이 등을 포함한 림프절 관련 인자들의 예후적 의미를 포괄적으로 분석하였다. 질환의 재발과 관련하여 림프절 관련 인자 중에 LVI와 lower level 림프절 전이 유무만이 유의미한 통계적 상관성을 보였으며, 사망과 관련해서는 LNR만이 통계적으로 유의미한 상관성을 보였다. 이러한 결과는 기존 연구에서 침샘암 환자들에서의 LVI의 예후적 중요성을 보여준 것과 일치한다.17,18) 또한 본 연구에서 제시한 LNR의 optimal cut-off value인 0.36은 기존 연구의 결과와 일치한다.19) LNR 값을 사용하여 환자들의 생존 분석을 시행한 결과 환자들의 Kaplan-Meier survival curve의 discrimination 정도가 pN classification만을 사용한 경우에 비하여 현저하게 향상되는 것을 확인할 수 있었다. 또한 본 연구에서는 머신러닝을 이용한 정확도가 높은 침샘암 환자의 생존예측 모델에서 LNR과 lower level 림프절 전이가 중요한 특성으로 활용된다는 것을 확인하였다.
ENE 소견은 두경부암 환자들의 사망과 관련된 중요한 인자로 알려졌으며 이를 반영해 개정된 8TH AJCC stating system에서는 ENE 소견이 있을 경우 3b로 분류된다. 그러나 미국의 National Cancer Data Base를 활용한 최근의 연구 결과들에서 림프절 전이가 있었던 침샘암 환자들의 예후를 분석한 결과 ENE 소견은 질환 재발 및 사망과 관련하여 유의미한 상관성을 보이지 않았다.12,20) 본 연구에서도 ENE 소견은 환자들의 질환 재발 및 사망과 관련하여 유의미한 상관성을 보이지 않았다. Intraparotid LN의 전이여부 역시 재발 및 사망과 관련하여 유의미한 상관성을 보이지 않았다. 머신러닝을 이용한 예측모델에서도 ENE와 intraparotid LN 전이는 중요한 특성으로 활용되지 않았다. 따라서 귀밑샘암 환자들에서 ENE의 예후적 중요성에 대해서는 추가적인 연구가 필요할 것으로 사료된다.
본 연구는 침샘암에서 머신러닝을 활용한 생존분석을 시도한 최초의 연구이다. 의학적 생존분석을 위해서 전통적으로 Cox proportional hazards model이나 Accelerated failure time model 등이 사용되어 왔지만 비례위험가정(Proportional hazard assumption) 및 변수들 간 로그-선형 관계의 가정을 만족해야 한다. 따라서 data를 단순화할 위험이 있다. 생존분석에 고차원의 data 분석이 필수적이게 되면서 통계적 가정을 최소화할 수 있고 고차원 data의 분석에 유리한 머신러닝 모델의 활용이 주목받고 있다. 본 연구는 단일기관에서 후향적으로 분석한 연구로써 추후 임상적 활용을 위해서는 먼저 다기관 연구를 통한 검증을 수행해야 할 것이다.
귀밑샘암 환자들이 내원할 경우 이학적 검사 및 영상학적 검사 결과를 바탕으로 원발 종양의 크기와 범위, 림프절 전이 유무, 전신 전이 유무 등을 파악하여 TNM staging system을 바탕으로 치료 방법 및 기대 여명 등을 제안한다. TNM staging system은 많은 환자들의 치료 결과를 바탕으로 구축된 병기 체계이지만 실제 환자들의 생존 결과와 일치하지 않는 경우를 어렵지 않게 만날 수 있다. 추후 검증된 생존분석 모델을 바탕으로 사망위험이 높은 고위험 환자를 조기에 선별할 수 있다면 이들 환자들에게 보다 적극적이고 공격적인 치료를 가이드 할 수 있으며, 적극적인 추적 관찰을 시행함으로써 재발을 조기 탐지하여 생존율의 향상을 꾀할 수 있을 것이다.
결론
본 연구의 결과를 통하여 귀밑샘암 환자들의 질환 재발 및 생존 예측에 있어서 pathologic lymph node status 중 lower neck 림프절 전이 및 LNR가 중요한 예후적 의미를 갖는 것을 확인하였다. 또한 pathologic lymph node status를 포함하여 구축한 machine learning 알고리즘 모델이 환자들의 사망 예측에 있어서 상당 수준의 정확성을 보이는 것을 확인하였다. 본 연구에 참여한 환자의 숫자가 견실한 machine learning algorithm을 구축하기에는 부족하기 때문에 향후 대규모의 귀밑샘암 환자들의 데이터 구축 및 다기관 연구를 통하여 알고리즘 성능 향상 및 임상적 유용성을 검증하여야 할 것이다.
Acknowledgments
This study was supported by a faculty research grant by the Yonsei University College of Medicine (6-2018-0076).