Alfonso Valencia
Profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC)
ChatGPT es un sistema computacional de procesamiento del lenguaje natural construido por OpenAI sobre un GPT3.5 (Generative Pretrained Transformer). El GPT ha sido entrenado con gran cantidad de texto para correlacionar las palabras en su contexto, para lo que maneja unos 175 billones de parámetros. ChatGPT ha sido refinado adicionalmente para contestar preguntas encadenando palabras, siguiendo el modelo de correlaciones interno.
ChatGPT ni «razona», ni «piensa», solo devuelve un texto basado en un modelo de probabilidad enorme y muy sofisticado.
El examen tiene tres niveles: a) estudiantes de medicina de segundo año con unas 300 horas de estudio, b) estudiantes de Medicina de cuarto año con unos 2 años de experiencia en servicios rotatorios, y c) estudiantes que han completado más de medio año de educación de posgrado.
El test incluyó tres tipos de preguntas adaptadas para poder presentarlas al sistema:
-
Tipo sugerencia abierta, por ejemplo: «En su opinión, ¿cuál es el motivo de la asimetría pupilar del paciente?»
-
Elección entre varias opciones sin justificación adicional. Un caso típico sería una pregunta como: «¿En este paciente está condición x es causada principalmente por cuál de los siguientes patógenos?»
-
Elección entre varias opciones justificando la respuesta, serían casos como: «¿Cuál de las siguientes es la razón más probable de los síntomas nocturnos del paciente? Justifique la elección hecha».
Los resultados fueron evaluados por dos médicos con experiencia y las discrepancias, evaluadas por un tercer experto.
Resumiendo mucho los resultados podemos decir que las respuestas fueron precisas en una medida que es equivalente al nivel mínimo de los humanos aprobados ese año.
Una serie de observaciones son interesantes:
-
Es sorprendente que en unos pocos meses el sistema ha mejorado de modo significativo sobre los resultados anteriores, en parte porque es mejor y en parte porque en unos meses la cantidad de datos biomédicos ha aumentado considerablemente.
-
El sistema es mejor que otros entrenados solo con textos científicos. La razón tiene que estar en que el modelo estadístico es más completo.
-
Hay una correlación interesante entre la calidad de los resultados (precisión), la calidad de las explicaciones (concordancia) y la capacidad para producir explicaciones no triviales (perspicacia). La explicación puede ser que, cuando el sistema trabaja sobre un caso en el que tiene muchos datos, el modelo de correlación es mejor, lo que produce explicaciones mejores y más coherentes. Esta situación parece que nos deja intuir algo sobre el funcionamiento interno y su dependencia de estructura de los datos.
El estudio es cuidadoso en aspectos claves, como comprobar que las preguntas y respuestas no estaban en la web y no se podían haber usado para entrenar el sistema o que no retenía memoria de respuestas anteriores. También tiene limitaciones como un tamaño de casos limitado (con 350 preguntas: 119, 102 y 122 para cada uno de los niveles del 1 al 3). También representa un escenario limitado puesto que solo trabaja con textos. De hecho, se eliminaron 26 preguntas que contenían imágenes u otra información no textual.
¿Que nos dice todo esto?
-
Los exámenes no deben ser escritos, puesto que es posible contestarlos sin «entender» ni las preguntas ni las repuestas. Es decir, estos exámenes escritos no sirven para valorar los conocimientos de un alumno (máquina o humano), ni su capacidad de respuesta ante un caso real (nula en el caso de la máquina).
-
Los sistemas de procesamiento del lenguaje natural basados en «Transformers» están alcanzando unos niveles de escritura muy impresionantes y básicamente equiparables a los humanos.
-
Los humanos todavía estamos explorando cómo usar estas nuevas herramientas.