Autor/es reacciones

Pablo Haya Coll

Investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC)

Creo que es una buena noticia que pone en valor el PERTE [proyecto estratégico para la recuperación y transformación económica] de nueva economía de la lengua y sirve como carta de presentación del nuevo equipo de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA). Es una acción que alinea los desarrollos en procesamiento del lenguaje natural (PLN) en lengua española y lenguas cooficiales dentro de la Estrategia Nacional de Inteligencia Artificial (ENIA). 

Los modelos lingüísticos de gran tamaño que existen actualmente (también denominados modelos fundacionales o grandes modelos del lenguaje) han sido entrenados con inmensas colecciones de documentos (corpus) principalmente extraídos de páginas web públicas. Estos corpus incluyen documentos en múltiples idiomas, pero con una distribución muy desbalanceada hacia el inglés. Por poner un ejemplo, el proyecto HPLT (financiado por la Unión Europea) ha recopilado y publicado 7 petabytes de documentos extraídos de la web. Cuando ves la distribución hay en torno a 1.000 veces más datos en inglés que en español. Si nos fijamos en las lenguas cooficiales, esta desproporción es mucho más acusada.   

Hay que tener en cuenta que, a pesar de esta desproporción en los datos de entrenamiento, los modelos multilingües funcionan razonablemente bien en español en tareas generalistas. Hay todavía espacio para la mejora y un modelo adaptado al español va a funcionar mejor desde luego. Pero estamos en un momento en que los avances tecnológicos en PLN se producen a velocidad de vértigo, lo cual requiere moverse rápido. 

ES