ChatGPT-4: su desempeño en un examen final de la carrera de médico especialista en oftalmología de la Universidad de Buenos Aires

Roberto Borrone

doi:10.70313/2718.7446.v17.n01.286

Autores/as

Roberto Borrone Cátedra de Oftalmología de la Facultad de Medicina de la Universidad de Buenos Aires (UBA).

DOI:

https://doi.org/10.70313/2718.7446.v17.n01.286

Palabras clave:

inteligencia artificial, ChatGPT-4, educación médica, oftalmología

Resumen

Objetivos: Evaluar el desempeño del chatGPT-4 en un examen final de la Carrera de Médico Especialista Universitario en Oftalmología de la Universidad de Buenos Aires y compararlo con el desempeño de los alumnos ante el mismo examen y con el ChatGPT-3.5.

Material y métodos: Estudio observacional, retrospectivo y analítico. Se comparó el desempeño de 7 médicos en un examen final de posgrado de 50 preguntas con 4 opciones de respuesta rendido el 8 de septiembre de 2023 con el desempeño ante el mismo examen del ChatGPT versiones 3.5 y 4.

Resultados: La mediana de las respuestas correctas de los 7 alumnos fue 39 (rango 33-45) lo que representa una exactitud del 78%. El tiempo promedio para completar el examen fue de 75 minutos. El ChatGPT 3.5 respondió correctamente 31 preguntas (31/50) logrando una exactitud del 62%. El Chat GPT 4 respondió correctamente 40 preguntas (40/50) logrando una exactitud del 80% y completó el examen en 73.49 segundos.

Conclusiones: La versión ChatGPT-4 logró un desempeño superior a la mediana de los alumnos utilizando un tiempo 61 veces inferior. El ChatGPT-4 logró una exactitud superior a la versión 3.5. La calificación obtenida por las dos versiones del ChatGPT permite aprobar el examen dado que el umbral para lograrlo es de 30 respuestas correctas.

Citas

Ting DSJ, Tan TF, Ting DSW. ChatGPT in opthalmology: the dawn of a new era ? Eye (Lond) 2024; 38: 4-7.

Raimondi R; Tzoumas N; North East Trainee Research in Ophthalmology Network (NETRiON) et al. Comparative analysis of large language models in the Royal College of Ophthalmologists fellowship exams. Eye (Lond) 2023; 37: 3530-3533.

Kung TH, Cheatham M, Medenilla A et al. Performance of Chat GPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health 2023; 2: e0000198.

Lee P, Bubeck S, Petro J. Benefits, limits, and risks of GPT-4 as an AI chatbot for medicine. N Engl J Med 2023; 388: 1233-1239.

Moshirfar M, Altaf AW, Stoakes IM et al. Artificial intelligence in opthalmology: a comparative analysis of GPT-3.5, GPT-4, and human expertise in answering StatPearls questions. Cureus 2023; 15: e40822.

Takagi S, Watari T, Erabi A, Sakaguchi K. Performance of GPT-3.5 and GPT-4 on the Japanese medical licensing examination: comparison study. JMIR Med Educ 2023; 9: e48002.

Wang H, Wu W, Dou Z et al. Performance and exploration of ChatGPT in medical examination, records and education in Chinese: pave the way for medical AI. Int J Med Inform 2023; 177: 105173.

De Vito E. Inteligencia artificial y chat GPT. ¿Usted leería a un autor artificial? Medicina (B Aires) 2023; 83: 329-332.

Lüthy IA. Inteligencia artificial y aprendizaje de máquina en diagnóstico y tratamiento del cáncer. Medicina (B Aires) 2022; 82: 798-800.