Evaluation of large language models as decision support tools for head and neck cancer management: A blinded multidisciplinary simulation study

Hack, S.; Karni, R.J.; Maniaci, A.; Fundakowski, C.E.; Castellani, L.; Incandela, F.; Accorona, R.; Mayo-Yanez, M.; Violati, M.; Giannini, L.; Mevio, N.; Saibene, A.M.

doi:10.1016/j.oraloncology.2026.107877

Background: The management of head and neck cancer relies on multidisciplinary expertise; however, access to tumor boards remains variable. Large language models (LLMs) may support guideline-based decision-making, although performance in complex oncologic scenarios is not well defined. Methods: Fourteen synthetic cases based on real tumor board encounters were evaluated. Five blinded comparator arms produced recommendations: a human expert, Non-RAG-GPT-4, Non-RAG-GPT-5, RAG-GPT-4, and RAG-GPT-5. Eight head and neck oncologic surgeons scored each recommendation for appropriateness, clarity, specificity, and feasibility using 5-point Likert scales. Paired permutation testing and inter-rater reliability were assessed. Results: LLM outputs showed close alignment with expert recommendations. RAG-based models achieved the highest mean scores across domains, with some statistically significant differences versus the expert comparator in appropriateness and clarity; however, absolute differences were modest. Inter-rater reliability was strong (ICC 0.73-0.87). Conclusions: Advanced LLMs can generate guideline-concordant management recommendations in simulated head and neck cancer cases, supporting potential utility for decision support and education; prospective validation and expert oversight remain essential.

Evaluation of large language models as decision support tools for head and neck cancer management: A blinded multidisciplinary simulation study / S. Hack, R.J. Karni, A. Maniaci, C.E. Fundakowski, L. Castellani, F. Incandela, R. Accorona, M. Mayo-Yanez, M. Violati, L. Giannini, N. Mevio, A.M. Saibene. - In: ORAL ONCOLOGY. - ISSN 1368-8375. - 174:(2026 Mar), pp. 107877.1-107877.8. [10.1016/j.oraloncology.2026.107877]

Evaluation of large language models as decision support tools for head and neck cancer management: A blinded multidisciplinary simulation study

Hack, Sholem;Karni, Ron J;Maniaci, Antonino;Fundakowski, Christopher E;Castellani, Luca;Incandela, Fabiola;Accorona, Remo;Mayo-Yanez, Miguel;Violati, Martina;Giannini, Lorenzo;Mevio, Niccolo';A.M. Saibene^Ultimo

2026

Abstract

Background: The management of head and neck cancer relies on multidisciplinary expertise; however, access to tumor boards remains variable. Large language models (LLMs) may support guideline-based decision-making, although performance in complex oncologic scenarios is not well defined. Methods: Fourteen synthetic cases based on real tumor board encounters were evaluated. Five blinded comparator arms produced recommendations: a human expert, Non-RAG-GPT-4, Non-RAG-GPT-5, RAG-GPT-4, and RAG-GPT-5. Eight head and neck oncologic surgeons scored each recommendation for appropriateness, clarity, specificity, and feasibility using 5-point Likert scales. Paired permutation testing and inter-rater reliability were assessed. Results: LLM outputs showed close alignment with expert recommendations. RAG-based models achieved the highest mean scores across domains, with some statistically significant differences versus the expert comparator in appropriateness and clarity; however, absolute differences were modest. Inter-rater reliability was strong (ICC 0.73-0.87). Conclusions: Advanced LLMs can generate guideline-concordant management recommendations in simulated head and neck cancer cases, supporting potential utility for decision support and education; prospective validation and expert oversight remain essential.

Scheda breve

Scheda completa

Scheda completa (DC)

	Parole chiave
	
				Artificial Intelligence in Oncology; Clinical Decision Support; Head and NeckCancer; Large Language Models; Multidisciplinary Tumor Board; NCCN Guidelines; Retrieval-Augmented Generation; Simulation Study
			
	Settori scientifico-disciplinari dell'articolo (validi dal 09/05/2024)
	
				Settore MEDS-18/A - Otorinolaringoiatria
Settore MEDS-09/A - Oncologia medica
			
	Data di pubblicazione
	
				mar-2026
			
	Data ahead of print o data di stampa
	
				31-gen-2026
			
	Rivista in ANCE
	
				ORAL ONCOLOGY
			
	DOI
	
				https://dx.doi.org/10.1016/j.oraloncology.2026.107877
			
	Tipologia
	
				Article (author)
			
	Appare nelle tipologie:
	
				01 - Articolo su periodico

File in questo prodotto:

File	Dimensione	Formato
Evaluation of LLM as decision support tools for H&N cancers (2026).pdf accesso aperto Tipologia: Publisher's version/PDF Licenza: Creative commons Dimensione 2.65 MB Formato Adobe PDF Visualizza/Apri	2.65 MB	Adobe PDF	Visualizza/Apri

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2434/1215035

Citazioni

ND

1

ND

1

IRIS Institutional Research Information System - AIR Archivio Istituzionale della Ricerca