Autor/es reacciones

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

El artículo pone de manifiesto una limitación importante en el uso de datos sintéticos para entrenar LLM [modelos de lenguaje de gran tamaño]. La idea de utilizar datos generados por un LLM para reentrenar el mismo u otro LLM es muy atractiva, ya que supondría una fuente ilimitada de datos de entrenamiento. Sin embargo, este artículo aporta evidencia de que esta técnica puede llevar a corromper el LLM (‘colapso del modelo’, en palabras de los autores). Este resultado es un aviso sobre la calidad de los datos utilizados en la construcción de estos LLM. A medida que se adoptan más estos LLM, más datos sintéticos terminan en internet, lo que podría afectar hipotéticamente los entrenamientos de versiones futuras. 

Recopilar datos de fuentes fiables que se actualicen con frecuencia se convierte en una prioridad para los proveedores de LLM. No es de extrañar los numerosos acuerdos que empresas como OpenAI están suscribiendo con medios de comunicación y editores. En esta línea, la familia de modelos fundacionales ALIA, financiada por el gobierno español, deberá contar con fuentes de primera calidad para la construcción de estos modelos. 

Con la publicación del Reglamento de Inteligencia Artificial, se añaden aspectos en la calidad de los datos, como la propiedad intelectual, la privacidad y los datos personales, y los sesgos, que deben ser tenidos en cuenta. Tal como nos muestra el artículo, la generación de datos sintéticos no será la solución para obtener datos de calidad.  

ES