Korean J Head Neck Oncol Search

CLOSE


Korean J Head Neck Oncol > Volume 41(2); 2025 > Article
두경부암 다학제 의사결정에서의 인공지능 적용

= Abstract =

Given the complex nature of head and neck cancers, multidisciplinary team (MDT) management has become increasingly important in contemporary oncologic care. However, MDT implementation often faces practical limitations due to time constraints, limited resources, and coordination challenges among specialists. To address these issues, there is a growing need for innovative decision-support tools. Recent advances in artificial intelligence (AI), particularly large language models (LLMs), have introduced new opportunities to enhance clinical decision-making. This review explores the current applications of AI technologies in oncologic treatment decision processes, with a focus on their potential integration into MDT-based decision-making for head and neck cancer. Furthermore, we introduce recent studies applying multi-agent LLM frameworks to MDT systems and discuss key challenges that must be addressed for successful clinical adoption. Ultimately, this review envisions an AI-augmented MDT model that enhances decision-making efficiency and objectivity, while enabling clinicians to focus more deeply on their core role—delivering optimal patient-centered cancer care.

서론

두경부암은 단일 질환이 아닌, 구강, 인두, 후두, 부비동 등 해부학적으로 복잡하고 기능적으로 중요한 부위에 발생하는 이질적인 종양군을 총칭한다.1) 두경부는 호흡, 연하, 발성 등 생명 유지와 삶의 질에 직결되는 핵심 기능을 담당하므로, 두경부암의 치료 결정은 생존율 뿐만 아니라 환자의 장기적인 기능 보존과 삶의 질에 지대한 영향을 미친다.2) 따라서 두경부암의 치료는 종양의 위치, 병기, 환자의 전신 상태 및 사회경제적 요인 등을 종합적으로 고려한 정교한 다학제적 접근을 요구한다. 수술, 방사선치료, 항암화학요법 등 다양한 치료법을 환자 개개인에 맞춰 최적으로 조합해야 하므로, 그 어떤 암종보다도 치료 방침 결정 과정이 복잡하고 신중해야 한다. 이처럼 치료 결정 과정이 어렵고 고려해야 할 변수가 많은 두경부암의 고유한 복잡성은 최적의 근거 기반 의사결정을 내리기 위한 고도화된 진료 체계를 요구했다.
이러한 두경부암의 복잡성에 대응하기 위해 등장한 것이 바로 다학제 진료팀(Multidisciplinary Team, MDT)이며, 이는 현재 전 세계적으로 두경부암 치료의 gold standard로 인정받고 있다.1) MDT는 과거 개별 전문의가 단독으로 치료 방침을 결정하던 모델에서 벗어나, 다양한 분야의 전문가들이 한자리에 모여 포괄적이고 근거에 기반한 치료 계획을 수립하는 협력적 시스템이다. MDT의 핵심 기능은 각 분야의 전문 지식을 통합하고, 분과 간의 장벽을 허물며, 모든 환자가 개인별 맞춤 치료를 받을 수 있도록 보장하는 것이다. 이를 통해 치료의 질을 높이고, 환자의 생존율을 향상시키며, 치료 과정 전반에 걸친 환자 만족도를 제고하는 것을 목표로 한다.
MDT가 두경부암 치료의 질을 높이는 것은 분명하나, 현실에서는 ▲전문인력과 시간을 동시에 확보하기 어려운 일정 조율의 문제 ▲진료과⋅기관 간 프로세스와 전자의무기록(EMR) 상호운용성 부족으로 인한 정보 공유 한계 ▲의료법⋅개인정보보호 규제로 인한 원격-MDT 및 데이터 연계의 제약 ▲지속 가능한 리더십⋅코디네이션 인력의 부재와 구성원 소진(burnout) ▲환자 접근성(지역 격차⋅이동 거리)과 치료 지연 우려 등 복합적 장애요인으로 인해 실제 유지 및 활발한 시행에 어려움이 있다.
이러한 한계를 보완하기 위해 최근 의료 현장에서는 인공지능(Artificial Intelligence, AI) 기술을 활용한 의사결정 지원 시스템이 점차 도입되고 있다.3) 특히 영상⋅병리⋅유전체 데이터의 통합 분석을 가능하게 하는 멀티모달 AI 모델은 각 진료과가 각각 수행하던 판단 과정을 보조하며, 객관적 근거 기반의 치료 방안을 제시할 수 있다.4) 이러한 AI 기반 진단 보조체계의 진화 위에서, 최근 급격히 발전한 다중 에이전트 거대 언어 모델(multi- agent large language models, LLMs)의 등장은 MDT의 개념을 근본적으로 확장시킬 수 있는 혁신적 전환점을 마련하고 있다. 본 종설은 MDT 과정에 볼 수 있는 협력적이고 역할 특화된 대화 구조를 모방함으로써, 다중 에이전트 LLM이 인간 전문가의 의사결정을 보조하고 잠재적 편향을 줄이고, 암 치료의 효율성을 향상시키는 새로운 임상 의사결정 지원 패러다임이 될 수 있음을 제시하고자 한다. 이와 함께 종양학 분야의 AI 기술 발전 동향을 살펴보고, 다중 에이전트 LLM의 가능성과 임상 적용을 위한 과제들을 다루고자 한다.

본론

종양학 분야에서 인공지능의 적용

의료 분야에서 AI의 활용은 꾸준히 발전해왔다. 초기 AI는 주로 전문가 시스템의 형태였으나, 데이터 기반의 머신러닝(Machine Learning, ML)이 등장하면서 패러다임이 전환되었다. 전통적인 ML은 연구자가 직접 데이터에서 의미 있는 특징(feature)을 추출하여 모델을 학습시키는 방식인 반면 딥러닝(Deep learning, DL)은 인간의 신경망을 모방한 다층의 인공신경망을 사용하여, 컴퓨터가 방대한 양의 원시 데이터(raw data)로부터 직접 특징을 학습하고 패턴을 인식하게 한다.5) 특히 이미지 인식에 탁월한 성능을 보이는 합성곱 신경망(Convolutional Neural Networks, CNNs)의 발전은 의료 영상 분석 분야에 큰 변화를 이끌었다.6)
AI 기술은 최근 두경부암 임상 현장의 다양한 영역에서 적용이 시도되고 있다.

진단 영상 및 라디오믹스 (Radiomics)

딥러닝 기반 AI모델은 CT, MRI, PET과 같은 의료 영상을 분석하여 종양을 탐지하고, 그 경계를 정밀하게 분할(segmentation)하며, 조직학적 특성을 예측하는 데 활용된다.7) 라디오믹스는 영상에서 인간의 눈으로는 식별할 수 없는 미세한 질감이나 패턴 특징을 정량적으로 추출하여 종양의 생물학적 특성을 예측하는 기술이다. 최근 연구에서 AI 모델은 HPV 관련 구인두암의 림프절 전이나 피막 외 침범(extranodal extension) 여부를 예측하는 과제에서 숙련된 영상의학과 전문의의 성능을 능가하는 결과를 보여주기도 했다.8)

예후 예측 모델링

머신러닝 모델은 환자의 임상 정보, 영상 데이터, 유전체 데이터 등 다중 모드(multi-modal) 데이터를 통합하여 생존율이나 재발 위험과 같은 예후를 예측한다.9) 이러한 모델은 고위험군 환자를 조기에 식별하여 보다 적극적인 치료나 추적 관찰 계획을 수립하는 데 도움을 줄 수 있다.10)

방사선치료 계획 자동화

두경부암의 방사선치료는 복잡한 해부학적 구조 때문에 계획 수립 과정이 매우 노동 집약적이다.11) AI 알고리즘은 방사선으로부터 보호해야 할 정상 장기(Organs-at-Risk, OARs)의 윤곽을 자동으로 그려주는 자동 분할(auto-contouring) 기술에 활발히 적용되고 있다. 이는 수작업으로 1시간 이상 소요될 수 있는 두경부암 증례의 OAR 윤곽 설정 시간을 74-93분까지 단축시키고, 의료진 간의 편차를 줄여 치료 계획의 일관성과 효율성을 크게 향상시켰다.12)
이러한 종양학 분야에서 AI 기술의 발전은 특정 과제를 수행하는 도구를 넘어, 복잡한 의사결정 과정을 지원하는 방향으로 진화하고 있다. IBM Watson for Oncology (WfO)와 같은 초기 임상 의사결정 지원 시스템 (Clinical Decision Support System, CDSS)는 환자 데이터를 분석하여 NCCN과 같은 확립된 임상 지침과 발표된 문헌에 기반한 치료 옵션을 제시하는 것을 목표로 했다.13,14) 그러나, 이러한 시스템은 표준적인 증례에서는 유용할 수 있으나, 임상 지침에서 다루지 않는 복잡하거나 희귀한 증례에 대해서는 명확한 해답을 제공하기 어렵다. 실제 임상 현장에서의 인간 전문가 결정과의 일치도(concordance rate)는 약 60-70% 수준으로, 지침 기반 접근법만으로는 복잡한 임상적 뉘앙스를 모두 반영하기 어려울 수 있다.13)

다학제 진료에서 LLM의 적용

이러한 한계는 단순히 정보를 검색하고 패턴을 인식하는 수준을 넘어, 종합적인 정보를 바탕으로 추론하고 논리적인 설명을 생성할 수 있는 차세대 AI, 즉 거대 언어 모델(LLM)의 필요성을 부각시켰다. LLM의 등장은 AI의 역할이 인지(cognition)와 추론(reasoning) 의 영역으로 확장되는 패러다임의 전환을 의미한다. 이는 AI가 단순히 데이터를 분석하는 도구를 넘어, MDT의 의사결정 과정 자체에 참여하는 도구가 될 수 있는 가능성을 보여주었다.
Pamuk 등은 후두암 환자를 대상으로 ChatGPT-4의 치료 제안과 실제 MDT의 결정을 비교한 최초의 연구를 보고하였다.15) 이 연구는 25명의 치료 전(untreated) 후두암 환자를 대상으로 진행되었으며, 각 환자의 의무기록을 기반으로 ChatGPT-4가 제시한 치료 방안을 MDT의 실제 결정과 비교하였다. ChatGPT-4가 제시한 치료 권고는 72%의 증례에서 MDT 결정과 완전히 일치(Grade 1)하였으며, 나머지 28%에서는 부분적 일치(Grade 2-3)를 보였다. 완전히 불일치한 사례(Grade 4)는 없었다. 비록 이 연구에 쓰인 모델의 한계로 치료 가이드라인의 최신성 검증, 근거 출처의 불명확성, 그리고 복잡한 임상 상황에서의 변별력 부족 등이 지적되었으나ChatGPT-4가 두경부암, 특히 후두암의 치료 방침 결정 과정에서 다학제적 의사결정을 보조할 수 있는 가능성을 보여준 중요한 초기 근거 연구라 할 수 있다. 최근 두경부암 증례를 대상으로 한 다른 연구에서는ChatGPT-4o와 Llama 3을 통한 의사 결정 과정과 실제 MDT 결과를 비교하였다.16) 두경부암의 치료 목적(완치 또는 고식)에 따른 치료 전략 결정에서는 각각 84%, 92%의 높은 일치도를 보였다. 그러나 구체적인 1차 치료 방법을 모두 정확히 식별한 비율은 60~64%에 그쳐, LLM이 치료의 전반적 방향성은 이해하더라도 세부 치료 계획 수립에는 여전히 한계가 있음을 보여주었다. 그러나, 기관 내 서버에서 독립적으로 구동 가능한 로컬 모델인 Llama 3가 웹 기반 ChatGPT-4o와 유사한 성능을 보였다는 점은, 환자 데이터 프라이버시를 보장하면서도 임상 의사결정 지원에 활용될 수 있는 가능성을 보여주었다. Lammert 등이 보고한Gemini Pro 모델을 기반으로, PubMed, 임상시험 데이터베이스, 치료 가이드라인 등 검증된 의료 데이터를 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술로 연동한 MEREDITH 시스템은 매우 높은 성능을 보였다.17) MEREDITH는 인간 전문가보다 더 많은 치료 옵션을 제시했으며, 전문가 의견과의 일치도는 94.7%에 달했다. 이는 LLM의 성능을 극대화하기 위해 도메인 특화 데이터와 전문가의 피드백이 결정적으로 중요하다는 것을 보여주었다. 최근, Ferber 등은GPT-4를 중심으로 병리⋅영상⋅유전체 정보를 통합 분석하는 특화 도구(MedSAM 영상 분할, Vision Transformer 기반 MSI⋅KRAS⋅BRAF 변이 예측, OncoKB⋅PubMed 연동 검색 등)를 결합하여, 복잡한 다중 모달 데이터를 해석하고 근거 기반의 치료 전략을 제시하였다.18) 20건의 실제 환자 시나리오 평가에서 기존 GPT-4 단독보다 정확도가 30.3%에서87.2%로 향상되었고, 임상 결론의 정확도는 91%, 근거 인용의 정확도는 75.5%에 달했다. 이러한 결과는 언어모델에 정밀의료 도구와 검색 기반 지식을 통합함으로써 실제 다학제적 의사결정을 모사할 수 있음을 보여주었다.
한편, 단일 에이전트 LLM은 환자 정보를 요약하고 가이드라인 기반의 치료법을 제안할 수는 있었지만, 실제 임상에서 만나게 되는 복잡한 증례에 대한 깊이 있는 분석이 부족하고, 때로는 전문가의 합의와 크게 벗어나는 제안을 하거나 일관성이 떨어지는 모습을 보였다.19) Schmidl등은 두경부암 MDT에서 ChatGPT-3.5와 4.0을 활용한 AI의 역할을 평가하였다.20) 원발성 두경부암 환자 20례를 대상으로, 환자 임상정보를 동일한 형식의 프롬프트로 두 버전의 ChatGPT에 입력하여 실제 MDT 권고안과 비교⋅평가하였다. ChatGPT-3.5는 주로 수술⋅방사선⋅항암치료 등 일반적 치료를 제시하였고, 4.0은 더 많은 치료 옵션을 제시하며 요약⋅설명⋅임상권고 항목에서 더 높은 점수를 받았다. 그러나 3.5는 근거 출처를 제시하지 못했고, 양 버전 모두 가이드라인에 없는 면역치료를 조기 병기에 권고하는 등 부정확한 제안을 포함하였다. 실제 MDT 결과와의 일치율은 수술치료 부분에서는90%로 높았으나, 개별 환자 상황을 반영한 맞춤 치료 결정 능력은 부족하였다.
이처럼 단일 LLM 접근법은 마치 모든 지식을 가진 단 한 명의 전문가가 의견을 제시하는 것과 같아, 여러 전문가가 각자의 관점에서 문제를 다각적으로 분석하고 토론하는 MDT 의사결정의 본질을 제대로 반영하지 못하는 한계가 있었다. 따라서 저자는 MDT의 본질에 더 가까운 다중 에이전트 기반의 LLM 모델을 이용한 AI 모델을 제안했다.21) 이 연구는 기존LLM이 MedQA와 같은 정형화된 질의응답(QA) 벤치마크에서는 높은 성능을 보이지만, 정답이 정해져 있지 않고 여러 타당한 치료 옵션이 가능한 실제 MDT의 개방적이고 복잡한 의사결정 환경에서 한계가 있다는 가정하에 시작되었다. 저자들은 단일 LLM을 사용하는 대신, 각각 두경부외과의사, 방사선종양학 전문의, 종양내과 전문의 등 특정 임상 역할을 부여받은 여러 ‘LLM 에이전트’로 구성된 팀을 설계했다. 이 에이전트들은 실제MDT의 토론 과정을 모방하여, 정해진 구조에 따라 서로의 의견을 교환하고 토론하며 최종 합의에 이르도록 프로그래밍되었다(Fig. 1). 이는 역할 전문화된 에이전트의 효과를 입증한 MDAgents와 같은 선행 연구를 실제 임상 의사결정 문제로 적용한 것이다.22) 이 연구에서 다중 에이전트, 대화 기반 시스템은 단일 에이전트 LLM 접근법에 비해 실제 인간 MDT의 합의 기반 결정과 훨씬 더 높은 일치도를 보였다. 이러한 결과의 메커니즘은 우선 추론 경로의 다양성 (Diversity of Reasoning Paths)을 들 수 있다. 각 에이전트에게 고유한 역할을 부여함으로써, 하나의 문제를 수술적 관점, 방사선치료 관점, 전신 치료 관점 등 다양한 전문적 시각에서 탐색하도록 유도했다. 이는 단일 사고방식에 조기에 수렴하는 것을 방지하고, 두경부암 실제 환자 케이스에 대한 다각적이고 깊이 있는 분석을 가능하게 했다. 둘째로 대화형 구조는 에이전트 간의 역동적인 의견 교환을 촉진했다. 한 에이전트가 다른 에이전트의 초기 추론에 이의를 제기하고, 이를 통해 논리가 더욱 정교하고 견고해지는 과정을 거쳤다.
Fig. 1
Single-agent methods and multi-agent methods for clinical decision making. Modified from Kim, Jaesik, et al. “Evaluation of Multi-Agent LLMs in Multidisciplinary Team Decision-Making for Challenging Cancer Cases.” Machine Learning for Healthcare Conference. PMLR, 2025.
kjhno-41-2-1-g001.jpg
이러한 다중 에이전트 모델의 성능은 다른 연구에서도 입증되었다. 임상의의 실제 진단 과정을 모사하기 위해 Sequential Diagnosis Benchmark (SDBench)를 제안한 연구에서, 304건의 New England Journal of Medicine (NEJM) 임상병리학 회의(CPC) 증례를 단계별로 재구성하여, AI나 의사가 질문을 던지고 검사 결과를 요청하며 점진적으로 진단에 도달하는 과정을 평가하였다.22) 이를 통해 단순 정답 맞추기식 평가의 한계를 극복하고, 진단 정확도와 검사 비용의 균형을 함께 분석할 수 있도록 했다. 저자들은 여기에 ‘MAI Diagnostic Orchestrator (MAI-DxO)’라는 다중 에이전트 기반 진단 시스템을 도입해, 가상의 의사 패널이 역할을 분담(가설 설정⋅검사 선택⋅비용 절감⋅검증 등)하여 논의하며 최적의 진단 과정을 수행하도록 설계했다. 그 결과, MAI-DxO는 일반 의사(정확도 20%)보다 4배 높은 80%의 진단 정확도를 보였고, 검사 비용은 절반 이하로 줄였다.

두경부암 다학제에서 AI적용의 한계와 해결책

그러나, AI를 실제 임상 현장에서 다학제 의사결정에 적용하기 위해서는 여러가지 제한이 있는 것이 사실이다. 우선 AI, 특히 LLM의 임상 도입에 있어 가장 큰 기술적 장벽은 ‘환각’ 현상이다. 환각이란, AI모델이 유창하고 확신에 찬 어조로 답변하지만 그 내용이 사실과 다르거나, 의학적으로 타당하지 않거나, 제공된 데이터에 근거하지 않은 정보를 생성하는 현상을 의미한다.23) 의료 환경에서 이러한 오류는 오진이나 부적절한 치료 권고와 같은 치명적인 결과로 이어질 수 있다. 의료 분야의 환각은 크게 세 가지로 분류할 수 있다. (1) 시각적 오해석(visual misinterpretation): 의료 영상을 잘못 판독하는 경우, (2) 지식 결핍(knowledge deficiency): 부정확한 의학 지식을 적용하는 경우, (3) 문맥 불일치(context misalignment): 의학적으로는 사실이지만 특정 환자의 임상적 맥락에는 부적합한 답변을 생성하는 경우이다.24) 이러한 위험을 줄이기 위해, 검증된 외부 문서를 참조하여 답변의 근거를 제시하는 검색 증강 생성(RAG) 기술, 전문가 피드백을 통한 모델 개선 등 다양한 전략이 연구되고 있다. 그러나 현재 기술 수준에서는 이러한 방법들 역시 완벽하지 않다. 둘째로, 의료진이 AI의 제안을 신뢰하고 그에 대한 책임을 지기 위해서는 AI가 왜 그런 결론에 도달했는지 이해할 수 있어야 한다. 그러나 많은 딥러닝 모델 및 LLM은 내부 작동 원리를 파악하기 어려운 ‘블랙박스’와 같아, 결론 도출 과정을 추적하기 어렵다.5) 따라서 임상적 수용성을 높이기 위해서는 AI의 판단 근거를 인간이 이해할 수 있는 형태로 제시하는 ‘설명가능 AI (Explainable AI, xAI)’ 기술의 발전이 필수적이다. 일부 LLM에서 사용되는 ‘사고의 연쇄(chain of thought)’ 추론 방식은 이러한 방향으로 나아가는 초기 단계라 할 수 있다.17) 셋째, 환자의 민감한 의료 데이터를 LLM 학습과 운영에 사용하는 것은 중대한 개인정보 보호 문제를 야기한다. Llama 3와 같이 기관 내 서버에서 독립적으로 구동되는 로컬 LLM은 데이터를 외부로 전송하지 않아 이러한 우려를 해소할 수 있는 유망한 대안이다.16) Giannitto 등은 두경부암 진료에 참여하는 139명의 다국적 전문가들을 대상으로 AI 활용에 대한 인식과 실제 사용 현황을 조사하였다.25) 그 결과, AI를 실제로 활용한 경험이 있는 응답자는 전체의 49.7%에 불과했지만, AI의 잠재력에 대해서는 매우 긍정적인 인식을 보였다. 응답자들은 AI가 특히 진단 정확도 향상(72%), 수술 계획 수립(64.7%), 치료 선택(57.6%) 분야에서 큰 도움을 줄 것으로 기대하였다. 반면, 진단 오류 가능성(57%) 과 임상의의 통제력 상실(27.6%) 에 대한 우려 또한 적지 않았다. 이 연구는 두경부암 다학제 진료 환경에서 AI의 실제 활용은 아직 제한적이지만, 임상적 잠재력은 높게 평가되고 있음을 보여주었다. 아울러 투명하고 설명 가능한 AI 시스템 구축과 의료진을 위한 체계적인 교육 프로그램이 신뢰 확보와 책임 있는 AI 도입을 위해 필수적임을 알 수 있다.

결론

두경부암 치료는 고도의 다학제적 의사결정을 요구하며, 인공지능 특히 다중 에이전트 기반 LLM의 도입은 MDT의 효율성과 객관성을 향상시킬 잠재력을 보여주고 있다. 그러나 임상 적용을 위해서는 환각(hallucination), 설명가능성, 개인정보 보호 등 기술적⋅윤리적 한계를 해결하기 위한 체계적 검증과 안전장치 마련이 필수적이다. 궁극적으로 의료 현장에서AI는 전문가의 판단을 대체하기보다 이를 보완하고, 임상 의사결정의 질을 높이는 협력적 도구로 발전해야 할 것이다.

NOTES

Acknowledgement

This work was supported by the National Research Foundation of Korea (NRF) grant funded by the Korean government (MSIT) [RS-2023-00241230].

References

1) Prgomet D, Bišof V, Prstačić R, CurićRadivojević R, Brajković L, Šimić I. The multidisciplinary team (MDT) in the treatment of head and neck cancer - A single-institution experience. Acta Clin Croat. 2022;61:77-87.
crossref pmid pmc
2) Taberna M, Gil Moncayo F, Jané-Salas E, Antonio M, Arribas L, Vilajosana E, et al. The multidisciplinary team (MDT) approach and quality of care. Front Oncol. 2020;10:85.
crossref pmid pmc
3) Wang L, Chen X, Zhang L, Li L, Huang Y, Sun Y, et al. Artificial intelligence in clinical decision support systems for oncology. Int J Med Sci. 2023;20:79-86.
crossref pmid pmc
4) Huang J, Xiang Y, Gan S, Wu L, Yan J, Ye D, et al. Application of artificial intelligence in medical imaging for tumor diagnosis and treatment:a comprehensive approach. Discov Oncol. 2025;16:1625.
crossref pmid pmc pdf
5) Varlamova EV, Butakova MA, Semyonova VV, Soldatov SA, Poltavskiy AV, Kit OI, et al. Machine learning meets cancer. Cancers (Basel). 2024;16:1100.
crossref pmid pmc
6) Soffer S, Ben-Cohen A, Shimon O, Amitai MM, Greenspan H, Klang E. Convolutional neural networks for radiologic images:a radiologist's guide. Radiology. 2019;290:590-606.
crossref pmid
7) Song B, Yadav I, Tsai JC, Madabhushi A, Kann BH. Artificial intelligence for head and neck squamous cell carcinoma:from diagnosis to treatment. Am Soc Clin Oncol Educ Book. 2025;45:e472464.
crossref pmid
8) Kann BH, Likitlersuang J, Bontempi D, Ye Z, Aneja S, Bakst R, et al. Screening for extranodal extension in HPV-associated oropharyngeal carcinoma:evaluation of a CT-based deep learning algorithm in patient data from a multicentre randomised de-escalation trial. Lancet Digit Health. 2023;5:ne360-e369.
crossref pmid
9) Moharrami M, Azimian Zavareh P, Watson E, Singhal S, Johnson AEW, Hosni A, et al. Prognosing post-treatment outcomes of head and neck cancer using structured data and machine learning:A systematic review. PLoS One. 2024;19:ne0307531.
crossref pmid pmc
10) Michelutti L, Tel A, Zeppieri M, Ius T, Sembronio S, Robiony M. The use of artificial intelligence algorithms in the prognosis and detection of lymph node involvement in head and neck cancer and possible impact in the development of personalized therapeutic strategy:a systematic review. J Pers Med. 2023;13:1626.
crossref pmid pmc
11) Franzese C, Dei D, Lambri N, Teriaca MA, Badalamenti M, Crespi L, et al. Enhancing radiotherapy workflow for head and neck cancer with artificial intelligence:a systematic review. J Pers Med. 2023;13:946.
crossref pmid pmc
12) Søbstad JM, Sulen TH, Pettersen HES, Engeseth GM, Hirschi LA, Stokkevåg CH. Time efficiency geometric accuracy and clinical impact of AI-assisted contouring of organs at risk in head and neck cancer radiotherapy. Acta Oncol. 2025;64:1194-1201.
crossref pmid pmc pdf
13) Suwanvecho S, Suwanrusme H, Jirakulaporn T, Issarachai S, Taechakraichana N, Lungchukiet P, et al. Comparison of an oncology clinical decision-support system's recommendations with actual treatment decisions. J Am Med Inform Assoc. 2021;28:832-838.
crossref pmid pmc pdf
14) Jie Z, Zhiying Z, Li L. A meta-analysis of Watson for oncology in clinical application. Sci Rep. 2021;11:5792.
crossref pmid pmc pdf
15) Pamuk E, Bilen YE, Külekçi Ç, Kuşcu O. ChatGPT-4 vs. multi-disciplinary tumor board decisions for the therapeutic management of primary laryngeal cancer. Acta Otolaryngol. 2025;145:714-719.
crossref pmid
16) Buhr CR, Ernst BP, Blaikie A, Smith H, Kelsey T, Matthias C, et al. Assessment of decision-making with locally run and web-based large language models versus human board recommendations in otorhinolaryngology head and neck surgery. Eur Arch Otorhinolaryngol. 2025;282:1593-1607.
crossref pmid pmc pdf
17) Lammert J, Dreyer T, Mathes S, Kuligin L, Borm KJ, Schatz UA, et al. Expert-guided large language models for clinical decision support in precision oncology. JCO Precis Oncol. 2024;8:e2400478.
crossref pmid
18) Ferber D, El Nahhas OSM, Wölflein G, Wiest IC, Clusmann J, Leßmann ME, et al. Development and validation of an autonomous artificial intelligence agent for clinical decision-making in oncology. Nat Cancer. 2025;6:1337-1349.
crossref pmid pmc pdf
19) Erdat EC, Yalçıner M, Örüncü MB, Ürün Y, Şenler F. Assessing the accuracy of the GPT-4 model in multidisciplinary tumor board decision prediction. Clin Transl Oncol. 2025;27:3793-3802.
crossref pmid pmc pdf
20) Schmidl B, Hütten T, Pigorsch S, Stögbauer F, Hoch CC, Hussain T, et al. Assessing the role of advanced artificial intelligence as a tool in multidisciplinary tumor board decision-making for primary head and neck cancer cases. Front Oncol. 2024;14:1353031.
crossref pmid pmc
21) Kim J, Lee B, Sohn KA, Kim D, Lee YC. Evaluation of multi-agent LLMs in multidisciplinary team decision-making for challenging cancer cases. Proceedings of the 10th Machine Learning for Healthcare Conference. 2025;1-31.

22) Kim Y, Park C, Jeong H, Chan YS, Xu X, McDuff D, et al. Mdagents:an adaptive collaboration of llms for medical decision- making. Adv Neural Inf Process Syst. 2024;37:79410-79452.

23) Zuo K, Jiang Y. Medhallbench:a new benchmark for assessing hallucination in medical large language models. arXiv preprint arXiv:241218947. 2024.

24) Chang A, Huang L, Bhatia P, Kass-Hout T, Ma F, Xiao C. MedHEval:benchmarking hallucinations and mitigation strategies in medical large vision-language models. arXiv preprint arXiv:250302157. 2025.

25) Giannitto C, Carnicelli G, Lusi S, Ammirabile A, Casiraghi E, De Virgilio A, et al. The use of artificial intelligence in head and neck cancers:a multidisciplinary survey. J Pers Med. 2024;14:341.
crossref pmid pmc
TOOLS
Share :
Facebook Twitter Linked In Google+ Line it
METRICS Graph View
  • 0 Crossref
  •    
  • 264 View
  • 9 Download
Related articles in Korean J Head Neck Oncol


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
EDITORIAL POLICY
AUTHOR INFORMATION
Editorial Office
50-1, Yonsei-ro, Seodaemun-gu, Seoul, Republic of Korea
Tel: +82-2-2228-3600    Fax: +82-2-393-0580    E-mail: kshno.19841102@gmail.com                

Copyright © 2026 by Korean Society for Head & Neck Oncology.

Developed in M2PI

Close layer
prev next