Autor/es reacciones

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

El estudio aporta una comprensión más profunda sobre la fiabilidad de los modelos de lenguaje de gran tamaño (LLM), desafiando la suposición de que escalar y ajustar estos modelos siempre mejora su precisión y alineación. Por un lado, observan que, aunque los modelos más grandes y ajustados tienden a ser más estables y a proporcionar respuestas más correctas, también son más propensos a cometer errores graves que pasan desapercibidos, ya que evitan no responder. Por otro lado, identifican un fenómeno que denominan “discordancia de la dificultad” (difficulty discordance phenomenon). Este fenómeno revela que, incluso en los modelos más avanzados, los errores pueden aparecer en cualquier tipo de tarea, sin importar su dificultad. Esto implica que los errores persisten, incluso en tareas consideradas sencillas.  

Desafortunadamente, la revista publica el artículo más de un año después de recibirlo (junio de 2023). De este modo, los LLM analizados en el estudio corresponden a versiones de 2023. Actualmente, ya se disponen de dos nuevas versiones de OpenAI: GPT4o y o1, así como de una nueva versión de Meta: Llama 3. No sería descabellado suponer que las conclusiones del estudio sean extrapolables a GPT4o y Llama 3, dado que ambas versiones mantienen una aproximación técnica similar a la de sus predecesores. Sin embargo, la serie de modelos o1 de OpenAI se basa en un nuevo paradigma de entrenamiento e inferencia, el cual está específicamente diseñado para abordar los tipos de problemas presentes en los conjuntos de prueba utilizados en el estudio. De hecho, al probar manualmente o1-preview con los ejemplos de instrucciones (prompts) descritos en el artículo, ya se observa una mejora significativa en aquellos problemas donde el estudio señala que GPT4 falla. Así, los tiempos de revisión y aceptación en las revistas deberían ajustarse al ritmo de los avances tecnológicos en los LLM, con el fin de evitar que los resultados se publiquen obsoletos. 

ES