Lucía Ortiz de Zárate
Investigadora predoctoral en Ética y Gobernanza de la Inteligencia Artificial en el departamento de Ciencia Política y Relaciones Internacionales de la Universidad Autónoma de Madrid
El estudio aborda, de manera experimental, el potencial de ChatGPT (OpenAI) para realizar el United States Medical Licensing Exam (USMLE). Aprobar este examen es un requisito necesario para adquirir la licencia para ejercer la medicina en Estados Unidos y a través de este se examinan las capacidades de los especialistas médicos para aplicar conocimientos, conceptos y principios que resultan fundamentales para poder ofrecer la atención necesaria a los pacientes.
Lo novedoso del artículo reside, no solo en el hecho de que se trata del primer experimento que se usa para estos fines, sino en los resultados del mismo. Según los responsables de la investigación, ChatGPT se encuentra muy cerca de aprobar este examen, que necesitaría alcanzar, al menos, el 60% de aciertos. El examen usado en el estudio contiene tres tipos de preguntas (respuesta abierta, tipo test sin justificación de respuesta y tipo test con justificación de respuesta). Actualmente, ChatGPT ha alcanzado una media de entre el 52.4 % y el 75 % de aciertos, superando el 36.7% de aciertos conseguidos solo hace pocos meses con modelos anteriores. Estas rápidas mejoras de ChatGPT en pocos meses hacen que los investigadores se muestren optimistas respecto a las posibilidades de esta IA.
Aunque los resultados pueden generar gran interés, el estudio tiene limitaciones importantes que obligan a tomarlos con precaución. Para realizar el examen USMLE, ChatGPT fue testado con 375 preguntas de exámenes de la edición de junio 2022, publicados por la página oficial responsable del examen. En este sentido, habrá que esperar a ver qué resultados se obtienen cuando ChatGPT se aplique a un número mayor de preguntas y, a su vez, sea entrenado con un volumen mayor de datos y con contenido más especializado. Además, los resultados del examen realizado por ChatGPT fueron evaluados por dos médicos. De este modo, es necesario esperar a estudios posteriores que puedan contar con un número mayor de evaluadores cualificados para poder avalar los resultados de esta IA.
Este tipo de estudios evidencian, por un lado, el potencial de la IA para las aplicaciones médicas y, por otro lado, la necesidad de repensar los métodos de evaluación del conocimiento. De cara a la práctica médica, las tecnologías de IA pueden suponer una ayuda muy significativa para los/as médicos/as a la hora de realización de diagnósticos, prescripción de tratamientos y medicamentos, etc. Cambios que también obligan a repensar la relación entre la IA, los/as médicos/as y los pacientes. Del lado de los sistemas de evaluación, no solo en medicina, la aparición y progresiva mejora de sistemas de IA como ChatGPT evidencian la necesidad de repensar los métodos de evaluación del conocimiento y las habilidades (además de contenidos) que necesitan los profesionales del futuro.