Autor/es reacciones

Andreas Kaltenbrunner

Investigador líder del grupo AI and Data for Society de la UOC

En principio me parece una iniciativa muy interesante. El impacto seguramente será mayor para las lenguas cooficiales que para el castellano, ya que el porcentaje de contenido en castellano en internet es muy superior al de las otras lenguas cooficiales.  

El 5,6 % del contenido en internet está en castellano, comparado con solo el 0,1% en catalán/valenciano (se puede ver la relación del catalán/valenciano y el castellano aquí). En las otras lenguas cooficiales este porcentaje será aún menor. Es de suponer que la proporción en los datos de entrenamiento de LLMs [modelos de lenguaje de gran tamaño] como GPT será similar. Por tanto, tener LLMs propios en las lenguas del Estado es una iniciativa muy interesante para combatir las desventajas respecto al inglés.  

Sin embargo, no será una tarea fácil por la cantidad de recursos que tienen los competidores como OpenAI y está por ver si enfocándose solo en un conjunto reducido de idiomas no se pierden las posibles sinergias que se tienen entrenado modelos multilingües con más idiomas.  

Otro aspecto muy positivo del anuncio es el enfoque en utilizar código abierto y transparente. Esto va a permitir tener un mayor control sobre los datos de entrenamiento y su procesado y así mitigar potenciales aspectos negativos como el sesgo o la falta de explicatividad (algoritmos de caja negra) de los grandes modelos de lenguajes. 

ES