ANALES OFTALMOLÓGICOS Tomo VII • Vol. VII • N˚2 • 2021 • Santiago - Chile Para el diagnóstico de EM Chat GPT-4o obtuvo una sensibilidad de 54,8%, especificidad 71,6%, VPP 71,3% y VPN 55,2% En la Figura 2 y Tabla 2 se ilustran dos casos evaluados por Chat GPT-4o en el que propuso un diagnóstico correcto y otro incorrecto. DISCUSIÓN En nuestro estudio, evaluamos la efectividad de Chat GPT-4o en el diagnóstico y clasificación de RD, explorando su potencial como herramienta de tamizaje. Los resultados demostraron que la versión GPT-4o posee un buen rendimiento en la identificación general de retinopatía diabética con una sensibilidad de 85,1% y especificidad del 86%, respaldado por un área bajo la curva de 0,85. Estos hallazgos son comparables con los reportados por Mihalache et al., donde el sistema de IA alcanzó un rendimiento de 73% de precisión en preguntas de opción múltiple de retina utilizando imágenes. (8) Para la clasificación específica de RD y de EM Chat GPT-4o obtuvo un menor rendimiento, especialmente en los casos más severos de la enfermedad alcanzando bajas sensibilidades en RDNP severa (11,3%), RDP (16,2%) y EM 54,8%. Dado que la especificidad se mantuvo alta en los casos de RDNP severa (88,4%) y RDP (99,4%), los datos sugieren que el modelo de IA es más efectivo para descartar casos severos que para detectarlos. Esto limita su utilidad como método de tamizaje dado que no logra detectar casos en los que se requiere un manejo activo como panfotocoagulación o uso de agentes anti VEGF. (9) Nuestros hallazgos son consistentes con el estudio de Gupta et, al en el que ChatGPT clasificó incorrectamente la severidad de una foto de fondo de ojo de RDP. (10) El coeficiente Kappa de Cohen para la concordancia en el diagnóstico de RD fue de 0,52, lo que indica un grado de acuerdo moderado entre Chat GPT-4o y el especialista en retina. Este nivel de concordancia parece no ser suficiente para su uso autónomo en diagnóstico clínico, pero podría tener un rol como herramienta complementaria para la detección de casos de RD en tamizajes poblacionales masivos aliviando la carga de sistemas de salud. En comparación con otras tecnologías de IA como las basadas en aprendizaje profundo (DL) o aprendizaje automático (ML), Chat GPT presenta ventajas en términos de accesibilidad y facilidad de uso ya que no requiere hardware sofisticado y, al estar basada en texto, permite retroalimentar al sistema en sus respuestas. Además, su capacidad para integrar datos clínicos e imágenes significa una ventaja comparativa con otros sistemas de IA basados sólo en el análisis de imágenes. Sin embargo, parece necesario que su capacidad de análisis de imágenes mejore para identificar grados variables de severidad de RD que permita su integración efectiva en programas de tamizaje enfocados en toma de decisiones o sistemas de referencia a centros terciarios para realización de tratamientos. Este estudio presenta varias limitaciones que deben ser consideradas para interpretar sus resultados. En primer lugar, se trató de un estudio retrospectivo de un único centro hospitalario, lo que puede limitar la generalización de los resultados. Además, se excluyeron pacientes con opacidad de medios que imposibilitó la evaluación por el experto en retina, lo que pudo haber introducido algún grado de sesgo de selección. Finalmente, no se conoce el mecanismo o algoritmo exacto por el que Chat GPT-4o realizó el análisis de las imágenes otorgadas, lo cual plantea incertidumbre de la validez de sus resultados, limita la comprensión de sus errores y restringe la posibilidad de utilizarse en escenarios médicos reales. CONCLUSIÓN Chat GPT-4o mostró un buen rendimiento en la identificación general de retinopatía diabética, con menor rendimiento en la clasificación específica y detección de edema macular. Nuestros hallazgos destacan el potencial de esta herramienta como apoyo diagnóstico, así como la necesidad de su optimización para mejorar su precisión en los subtipos más complejos de la enfermedad con
RkJQdWJsaXNoZXIy MTYwMjk1