ChatGPT-4: su desempeño en un examen final de la carrera de médico especialista en oftalmología de la Universidad de Buenos Aires
DOI:
https://doi.org/10.70313/2718.7446.v17.n01.286Palabras clave:
inteligencia artificial, ChatGPT-4, educación médica, oftalmologíaResumen
Objetivos: Evaluar el desempeño del chatGPT-4 en un examen final de la Carrera de Médico Especialista Universitario en Oftalmología de la Universidad de Buenos Aires y compararlo con el desempeño de los alumnos ante el mismo examen y con el ChatGPT-3.5.
Material y métodos: Estudio observacional, retrospectivo y analítico. Se comparó el desempeño de 7 médicos en un examen final de posgrado de 50 preguntas con 4 opciones de respuesta rendido el 8 de septiembre de 2023 con el desempeño ante el mismo examen del ChatGPT versiones 3.5 y 4.
Resultados: La mediana de las respuestas correctas de los 7 alumnos fue 39 (rango 33-45) lo que representa una exactitud del 78%. El tiempo promedio para completar el examen fue de 75 minutos. El ChatGPT 3.5 respondió correctamente 31 preguntas (31/50) logrando una exactitud del 62%. El Chat GPT 4 respondió correctamente 40 preguntas (40/50) logrando una exactitud del 80% y completó el examen en 73.49 segundos.
Conclusiones: La versión ChatGPT-4 logró un desempeño superior a la mediana de los alumnos utilizando un tiempo 61 veces inferior. El ChatGPT-4 logró una exactitud superior a la versión 3.5. La calificación obtenida por las dos versiones del ChatGPT permite aprobar el examen dado que el umbral para lograrlo es de 30 respuestas correctas.