ChatGPT-4: su desempeño en un examen final de la carrera de médico especialista en oftalmología de la Universidad de Buenos Aires

Roberto Borrone

doi:10.70313/2718.7446.v17.n01.286

Autores

Roberto Borrone Cátedra de Oftalmología de la Facultad de Medicina de la Universidad de Buenos Aires (UBA).

DOI:

https://doi.org/10.70313/2718.7446.v17.n01.286

Palavras-chave:

inteligência artificial, ChatGPT-4, educação médica, oftalmologia

Resumo

Objetivos: Avaliar o desempenho do chatGPT-4 em um exame final do curso universitário de médico com especialização em Oftalmologia da Universidade de Buenos Aires e compará-lo com o desempenho de dois alunos antes do mesmo exame e com o ChatGPT-3.5.

Material e métodos: Estudo observacional, retrospectivo e analítico. O desempenho de 7 médicos em exame final de pós-graduação de 50 questões com 4 opções de resposta realizado em 8 de setembro de 2023 foi comparado com seu desempenho no mesmo exame do ChatGPT versões 3.5 e 4.

Resultados: A média de acertos dos 7 alunos foi 39 (faixa 33-45), o que representa uma precisão de 78%. O tempo médio para conclusão do exame foi de 75 minutos. ChatGPT 3.5 respondeu corretamente 31 questões (31/50) alcançando uma precisão de 62%. O GPT Chat 4 acertou 40 questões (40/50) atingindo uma precisão de 80% e concluiu o exame em 73,49 segundos.

Conclusões: A versão ChatGPT-4 obteve um desempenho superior à mediana dos alunos utilizando 61 vezes menos tempo. ChatGPT-4 alcançou maior precisão que a versão 3.5. A pontuação obtida pelas duas versões do ChatGPT permite passar no exame, pois o limite para aceitá-lo é de 30 respostas corretas.

Downloads

Os dados de download ainda não estão disponíveis.

Referências

Ting DSJ, Tan TF, Ting DSW. ChatGPT in opthalmology: the dawn of a new era ? Eye (Lond) 2024; 38: 4-7.

Raimondi R; Tzoumas N; North East Trainee Research in Ophthalmology Network (NETRiON) et al. Comparative analysis of large language models in the Royal College of Ophthalmologists fellowship exams. Eye (Lond) 2023; 37: 3530-3533.

Kung TH, Cheatham M, Medenilla A et al. Performance of Chat GPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health 2023; 2: e0000198.

Lee P, Bubeck S, Petro J. Benefits, limits, and risks of GPT-4 as an AI chatbot for medicine. N Engl J Med 2023; 388: 1233-1239.

Moshirfar M, Altaf AW, Stoakes IM et al. Artificial intelligence in opthalmology: a comparative analysis of GPT-3.5, GPT-4, and human expertise in answering StatPearls questions. Cureus 2023; 15: e40822.

Takagi S, Watari T, Erabi A, Sakaguchi K. Performance of GPT-3.5 and GPT-4 on the Japanese medical licensing examination: comparison study. JMIR Med Educ 2023; 9: e48002.

Wang H, Wu W, Dou Z et al. Performance and exploration of ChatGPT in medical examination, records and education in Chinese: pave the way for medical AI. Int J Med Inform 2023; 177: 105173.

De Vito E. Inteligencia artificial y chat GPT. ¿Usted leería a un autor artificial? Medicina (B Aires) 2023; 83: 329-332.

Lüthy IA. Inteligencia artificial y aprendizaje de máquina en diagnóstico y tratamiento del cáncer. Medicina (B Aires) 2022; 82: 798-800.