Nuria Oliver
Directora científica y cofundadora de la Fundación ELLIS Alicante
El anuncio sobre la inversión para la elaboración de un gran modelo de lenguaje en código abierto y transparente en español y las otras lenguas cooficiales es una buena noticia ya que los modelos existentes, incluso aquellos que son multilingües, han sido entrenados con datos mayoritariamente en inglés. Trabajo de investigación reciente apunta a que dichos modelos utilizan representaciones internas basadas en el inglés y, por tanto, el lenguaje que generan en otros idiomas, especialmente si son idiomas con pocos recursos, puede tener sesgos lingüísticos y utilizar expresiones que no son propias de dichos idiomas.
Además, al ser de código abierto, este modelo de lenguaje estará disponible para cualquier persona o institución, facilitando el acceso a herramientas de procesamiento de lenguaje natural para una amplia gama de aplicaciones y usuarios. Asimismo, el código abierto permite involucrar a comunidades más amplias de desarrolladores, investigadores y expertos lingüísticos en la mejora continua del modelo. Tanto desde ELLIS Europa como desde ELLIS Alicante abogamos por el desarrollo de ciencia abierta, incluyendo el desarrollo de sistemas de inteligencia artificial en código abierto.
La transparencia es otra característica clave para contribuir a la confianza en su funcionamiento y sus resultados, así como para fomentar el intercambio de ideas tan necesario para impulsar la innovación. La confianza en estos sistemas es un requisito clave para su uso en la sociedad, especialmente en aplicaciones críticas donde la interpretación correcta del lenguaje es esencial.
Evidentemente, la inclusión de las lenguas cooficiales junto con el español es un paso importante y necesario hacia la preservación y promoción de la diversidad lingüística, un activo tan valioso para nuestra sociedad.
¿Qué aporta respecto a los modelos que ya existen?
Desde ELLIS Europa y ELLIS Alicante creemos que, si aspiramos a que la inteligencia artificial sea socialmente sostenible, hemos de ampliar el acceso a la computación de alto rendimiento —especialmente utilizando energía renovable—, fomentar prácticas de código abierto, invertir en atraer y retener a las mejores mentes y exigir transparencia en la investigación, despliegue y uso de la IA. Este enfoque no solo democratiza el desarrollo de la IA, sino que también contribuye al desarrollo de un ecosistema de IA más seguro y competitivo. En este contexto, es importante desarrollar nuestros propios modelos de lenguaje, abiertos y transparentes, entrenados con datos de calidad que no infrinjan derechos de propiedad intelectual y en nuestros idiomas para minimizar sesgos. Dado el carácter transversal de los grandes modelos de lenguaje, susceptibles de ser utilizados en prácticamente cualquier sector, es de valor estratégico contar con el desarrollo propio de estos modelos. Además, no podemos olvidar que hay más de 480 millones de personas en el mundo cuya lengua materna es el español, siendo el lenguaje oficial de 20 estados soberanos en el mundo. Las oportunidades de tener impacto son, por tanto, inmensas.
¿Cuáles serán sus principales obstáculos?
Desarrollar un gran modelo de lenguaje con un rendimiento competitivo a nivel internacional es una tarea compleja que conlleva varios retos de distinta índole.
En primer lugar, retos de recursos, financiación e impacto medioambiental. La creación de un gran modelo de lenguaje de alta calidad requiere recursos significativos, tanto financieros como computacionales. Es necesario contar con un presupuesto adecuado para la investigación, adquisición de hardware, contratación de personal especializado y otros gastos relacionados. Entiendo que ese obstáculo estaría abordado en base al anuncio del presidente del Gobierno. Los grandes requisitos computacionales tienen impacto directo en el medioambiente ya que el entrenamiento y uso de estos modelos conlleva grandes necesidades energéticas que, si no se utilizan energías renovables, contribuyen a la huella de carbono.
El segundo reto es la obtención de grandes cantidades de datos para su entrenamiento. Recopilar, limpiar y etiquetar estos datos puede ser un desafío en sí mismo, especialmente cuando se trata de lenguas cooficiales con menos recursos. Además, es necesario verificar que los datos utilizados no son datos privados o protegidos por derechos de propiedad intelectual.
El tercer gran reto concierne la necesidad de grandes capacidades de computación. En este sentido, España cuenta con un supercomputador, MareNostrum 5, situado en el Barcelona Supercomputing Center, con lo que esta dificultad estaría solventada.
En cuarto lugar, tenemos el reto del talento. El desarrollo de modelos de lenguaje de vanguardia requiere la participación de expertos en inteligencia artificial, lingüística computacional, aprendizaje automático y otros campos relacionados. Atraer y retener a talento cualificado en estos campos es un reto ya que es un talento escaso en gran demanda a nivel mundial. Precisamente ELLIS Europa y ELLIS Alicante tienen como aspiración poder atraer, retener y contribuir a inspirar a la próxima generación de talento investigador excelente en inteligencia artificial en Europa, ofreciendo un entorno laboral competitivo a nivel mundial.
En quinto lugar, no podemos olvidar que el software es algo vivo, en continua evaluación y mejora. No solamente es necesario someter los modelos a rigurosas pruebas y evaluaciones para garantizar su calidad y rendimiento, sino también planificar un proceso de mejora continua para mantener el modelo actualizado y relevante en un entorno en constante evolución. Es necesario mantenerse al día con los últimos desarrollos y competir en un mundo tecnológico en rápida evolución, lo que puede ser un desafío constante.
Finalmente, no podemos olvidar la dimensión ética. Es crucial abordar los aspectos éticos y mitigar los sesgos, la estereotipación y otro tipo de comportamientos no deseados en el desarrollo de modelos de lenguaje, así como garantizar la preservación de la privacidad y la seguridad. Justamente en ELLIS Alicante tenemos una línea de investigación a este respecto.