Anales Oftalmológicos

17 Evaluación del desempeño de Chat GPT-4o para el diagnóstico y clasificación de Retinopatía Diabética EVALUACIÓN DEL DESEMPEÑO DE CHAT GPT‰4O PARA EL DIAGNÓSTICO Y CLASIFICACIÓN DE RETINOPATÍA DIABÉTICA Alfredo Hernández C.1, Fernando Espinoza C.1, Paula Teutsch O.2, Cristian Cumsille U.3 RESUMEN Objetivo: Evaluar la efectividad del sistema de inteligencia artificial Chat GPT-4o en el diagnóstico de retinopatía diabética (RD) comparado con un especialista en retina como gold-standard. Métodos: Se realizó un estudio retrospectivo. Se analizaron datos de 108 pacientes (214 ojos) derivados por sospecha de RD desde atención primaria de salud. Cada paciente fue evaluado inicialmente por un tecnólogo médico que describió antecedentes médico-oftalmológicos, agudeza visual mejor corregida, presión intraocular neumática y obtuvo retinografía de ambos ojos. Un experto en retina evaluó las retinografías y la información clínica del paciente, determinando la presencia de RD y clasificándola en proliferativa (RDP) y no proliferativa (RDNP), además asignó la severidad de esta última en leve, moderada y severa. Además, determinó la sospecha de edema macular (EM). Se ingresaron los datos clínicos y retinografías a Chat GPT-4o, solicitando su análisis con una instrucción apropiada. Se analizaron los datos con tablas de contingencia y se calculó sensibilidad, especificidad, valor predictivo positivo (VPP) y valor predictivo negativo (VPN). Se calculó el nivel de concordancia con coeficiente Kappa de Cohen y se generó curva ROC para determinar la capacidad discriminativa del sistema de inteligencia artificial. Resultados: Chat GPT-4o obtuvo una sensibilidad de 85,56% y especificidad de 85,19% para el diagnóstico general de RD, con un VPP de 97,56% y un VPN de 46%. El coeficiente Kappa de Cohen fue de 0.52, lo que indica un acuerdo moderado entre ambos métodos. La capacidad discriminativa fue de 0.85, demostrando un buen rendimiento discriminativo. En el análisis de los subtipos específicos de RD, la sensibilidad varió dependiendo del tipo, siendo más baja para RDP (16,21%) y RDNP severa (11,36%). La especificidad fue alta en la mayoría de los subtipos, pero moderada en RDNP moderada (56.5%). Para el diagnóstico de EM en pacientes con RD la sensibilidad fue de 54,8% y especificidad de 71,6%, con VPP de 71,3% y VPN de 55,2% para el sistema Chat GPT-4o. Conclusiones: Chat GPT-4o mostró un buen rendimiento en la identificación general de retinopatía diabética, con menor rendimiento en la clasificación específica y detección de edema macular. Estos hallazgos destacan el potencial de esta herramienta como apoyo diagnóstico, así como la necesidad de su optimización para mejorar su precisión en los subtipos más complejos de la enfermedad. 1.- Residente de oftalmología, Hospital San Juan de Dios, Universidad de Chile. 2.- Médico oftalmólogo. Departamento de Retina. Hospital San Juan de Dios. 3.- Médico oftalmólogo. Departamento de Córnea. Hospital San Juan de Dios. Docente Oftalmología. Universidad de Chile.

RkJQdWJsaXNoZXIy MTYwMjk1