ChatGPT-4: seu desempenho no exame final dos estudos de médico especialista em oftalmologia da Universidade de Buenos Aires
DOI:
https://doi.org/10.70313/2718.7446.v17.n01.286Palavras-chave:
inteligência artificial, ChatGPT-4, educação médica, oftalmologiaResumo
Objetivos: Avaliar o desempenho do chatGPT-4 em um exame final do curso universitário de médico com especialização em Oftalmologia da Universidade de Buenos Aires e compará-lo com o desempenho de dois alunos antes do mesmo exame e com o ChatGPT-3.5.
Material e métodos: Estudo observacional, retrospectivo e analítico. O desempenho de 7 médicos em exame final de pós-graduação de 50 questões com 4 opções de resposta realizado em 8 de setembro de 2023 foi comparado com seu desempenho no mesmo exame do ChatGPT versões 3.5 e 4.
Resultados: A média de acertos dos 7 alunos foi 39 (faixa 33-45), o que representa uma precisão de 78%. O tempo médio para conclusão do exame foi de 75 minutos. ChatGPT 3.5 respondeu corretamente 31 questões (31/50) alcançando uma precisão de 62%. O GPT Chat 4 acertou 40 questões (40/50) atingindo uma precisão de 80% e concluiu o exame em 73,49 segundos.
Conclusões: A versão ChatGPT-4 obteve um desempenho superior à mediana dos alunos utilizando 61 vezes menos tempo. ChatGPT-4 alcançou maior precisão que a versão 3.5. A pontuação obtida pelas duas versões do ChatGPT permite passar no exame, pois o limite para aceitá-lo é de 30 respostas corretas.