"Un estudio evaluó el uso de modelos de lenguaje de gran escala (LLM) en la toma de decisiones terapéuticas para el carcinoma hepatocelular. Los resultados muestran concordancias significativas en estadios tempranos, donde seguir las recomendaciones de la IA se asoció con una mejora en la supervivencia. No obstante, su efectividad disminuyó en casos avanzados, lo que sugiere su valor como herramienta complementaria en escenarios clínicos específicos."

Antecedentes La gestión del carcinoma hepatocelular (CHC) requiere decisiones complejas que tengan en cuenta la carga tumoral, la función hepática y el estado funcional del paciente. Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) muestran potencial en aplicaciones clínicas, pero su utilidad en recomendaciones terapéuticas para el CHC sigue sin explorarse. Evaluamos la relevancia clínica de las recomendaciones de tratamiento generadas por LLM comparando su concordancia con decisiones médicas reales y resultados de supervivencia. Métodos y hallazgos Analizamos a 13,614 pacientes con CHC sin tratamiento previo diagnosticados entre 2008 y 2020 en el Registro Coreano de Cáncer Primario de Hígado. Las recomendaciones de tratamiento se generaron utilizando ChatGPT 4o, Gemini 2.0 y Claude 3.5 con instrucciones estandarizadas basadas en las guías de la American Association for the Study of Liver Diseases y la European Association for the Study of the Liver. Los pacientes fueron clasificados como “coincidentes” cuando las recomendaciones de los LLM concordaban con los tratamientos efectivamente recibidos. La supervivencia general (SG) se comparó entre los grupos coincidentes y no coincidentes, estratificados por el estadio Barcelona Clinic Liver Cancer (BCLC). El análisis de árbol de decisión identificó factores que influían en los patrones de selección terapéutica. Las tasas de concordancia entre las recomendaciones de los LLM y las decisiones médicas fueron: 31.1% (ChatGPT 4o), 32.7% (Gemini 2.0) y 26.8% (Claude 3.5). En pacientes BCLC-A, la concordancia entre el tratamiento real y las recomendaciones del LLM se asoció con una mejora significativa en la supervivencia (ChatGPT 4o HR: 0.743, IC 95% [0.665, 0.831], P < 0.001). En cambio, en pacientes BCLC-C, la concordancia se asoció con resultados de supervivencia más desfavorables (ChatGPT 4o HR: 1.650, IC 95% [1.523, 1.787], P < 0.001; Gemini 2.0 HR: 1.586, IC 95% [1.470, 1.711], P < 0.001; Claude 3.5 HR 1.483, IC 95% [1.366, 1.610], P < 0.001). En BCLC-B, la concordancia mostró solo asociaciones modestas o no significativas según el modelo. El análisis de árbol de decisión reveló que los médicos priorizaban parámetros de función hepática, mientras que los LLM enfatizaban características tumorales. En CHC en etapa temprana, los médicos evitaban tratamientos curativos cuando la reserva hepática era limitada, mientras que en etapas avanzadas, preferían terapias locorregionales en pacientes con función hepática preservada, a pesar de que las guías sugerían terapias sistémicas. La principal limitación del estudio es su diseño retrospectivo, el uso de datos de registro sin información por imágenes, y el enfoque en tratamientos de la era de las guías, lo que justifica una validación prospectiva futura. Conclusiones La concordancia entre las recomendaciones de tratamiento generadas por LLM y las decisiones médicas se asoció con una mayor supervivencia en el CHC en etapa temprana, pero no se observó esta asociación en enfermedad avanzada. Si bien los LLM pueden servir como herramientas complementarias para decisiones acordes a guías en escenarios simples, sus recomendaciones pueden reflejar una conciencia contextual limitada en situaciones clínicas complejas que requieren un enfoque individualizado. Las recomendaciones de los LLM deben interpretarse con precaución y en conjunto con el juicio clínico.

Evaluación de la utilidad clínica de los modelos de lenguaje de gran escala en las recomendaciones de tratamiento para el carcinoma hepatocelular: un estudio retrospectivo nacional basado en un registro