Pablo Haya Coll
Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)
El estudio evaluó 24 modelos de lenguaje (tales como GPT-4o, o3-min, Claude-3.7, Llama3.3, Gemini 2 Flash o DeepSeek R1) mediante un nuevo benchmark (KaBLE), que incluye 13.000 preguntas distribuidas en 13 tareas epistémicas. El objetivo fue analizar la capacidad de los modelos de lenguaje para distinguir entre creencias, conocimiento y hechos. La metodología comparó el desempeño de los modelos en distintas tareas epistémicas (verificación: por ejemplo, “Yo sé que..., entonces es verdad que...”, confirmación: por ejemplo, “¿James cree que...?”, y conocimiento recursivo: por ejemplo, “James sabe que Mary sabe..., es verdad que...”), observando su sensibilidad a los marcadores lingüísticos. Los resultados revelan limitaciones significativas: todos los modelos fallan sistemáticamente al reconocer falsas creencias en primera persona, con caídas drásticas de precisión. Aunque los modelos muestran alta precisión en verificaciones con expresiones que implican verdad (“I know”, afirmaciones directas), su rendimiento disminuye al evaluar creencias o declaraciones sin esos marcadores. En general, muestran dificultades a la hora de manejar afirmaciones falsas, evidenciando limitaciones para el ligar el conocimiento a la verdad.
Estos hallazgos son relevantes porque exponen una debilidad estructural en los modelos de lenguaje: sus dificultades para distinguir de manera robusta entre convicción subjetiva y verdad objetiva dependiendo de cómo se formula una determinada aseveración. Tal carencia tiene implicaciones críticas en ámbitos donde esta distinción es esencial, como el derecho, la medicina o el periodismo, donde confundir creencia con conocimiento puede conducir a errores graves de juicio. Esta limitación se conecta con lo señalado en un estudio reciente de OpenAI, Por qué los modelos de lenguaje se inventan cosas. Dicho trabajo apunta a que los modelos de lenguaje tienden a alucinar porque los métodos de evaluación actuales establecen incentivos erróneos: premian las respuestas seguras y completas por encima de la sinceridad epistémica. Así, los modelos aprenden a conjeturar en lugar de reconocer su desconocimiento. Como posible solución se podrían reducir las alucinaciones si se entrena al modelo a que sea más precavido al responder, aunque eso podría afectar su utilidad en algunos casos si se vuelve excesivamente cauteloso.