Raquel Fernández
Catedrática de Lingüística Computacional y Sistemas de Diálogo en la Universidad de Ámsterdam y vicedirectora de Investigación del Instituto de Lógica, Lenguaje y Computación (ILLC) de la Universidad de Ámsterdam
El artículo presenta un único modelo capaz de traducir de texto escrito a texto escrito, de voz a voz y de texto a voz o de voz a texto entre alrededor de 100 idiomas diferentes. Los sistemas de traducción automática tienden a funcionar razonablemente bien para idiomas que están bien representados en internet (inglés, chino o español, por ejemplo), pero no tanto para idiomas con menos hablantes o menos datos digitales disponibles (como maltés, suajili o urdu). Además, la traducción automática se ha limitado principalmente al texto escrito. El modelo presentado en este artículo (SEAMLESSM4T) supone un avance substancial al incluir la capacidad de traducir hacia y desde el habla (además del texto) y al hacerlo para una gran cantidad de idiomas diferentes.
Como todos los sistemas de IA actuales, los modelos de traducción automática requieren de enormes cantidades de datos para su entrenamiento. En el caso de la traducción, los datos generalmente consisten en pares de oraciones: una oración en un idioma determinado y su traducción a otro idioma, que el modelo usa para aprender. Sin embargo, este tipo de datos emparejados es muy costoso de crear y no está disponible para muchos idiomas. Los autores abordan este problema utilizando un modelo de IA (SONAR) capaz de encontrar oraciones en línea (escritas o habladas) con significados muy similares y usan estas oraciones extraídas automáticamente como si fueran traducciones la una de la otra. Esto les permite crear un conjunto de datos de entrenamiento enorme que es clave para desarrollar un modelo de traducción robusto. Además de ofrecer una mayor cobertura que modelos anteriores, el modelo resultante tiende a generar traducciones de mejor calidad en cuanto a sonido, claridad, y contenido.
Si bien este modelo representa un progreso sustancial en la traducción hablada, traducir a voz sigue siendo más complejo que generar una traducción escrita: el modelo puede generar texto traducido a 96 idiomas, pero actualmente solo puede producir una traducción hablada en 35 idiomas. Además, el habla producida automáticamente puede no siempre ser expresiva y natural. De manera similar, al traducir de voz a texto, el modelo puede tener problemas para procesar el habla en función de factores como el género, el acento o el idioma. La evaluación de las capacidades del modelo también revela que tiende a mostrar sesgo de género; por ejemplo, cuando una oración en el idioma de origen no especifica el género (como en la oración en inglés “I'm a homemaker”, donde la persona que habla puede ser de cualquier género), el modelo tiene una mayor tendencia a producir un cierto género estereotipado al traducir a idiomas con género (por ejemplo, al traducir del inglés al español, puede tener una mayor tendencia a producir “Soy ama de casa” que “Soy amo de casa”).
Finalmente, si bien el modelo tiene el potencial de mejorar la comunicación multilingüe en muchos escenarios cotidianos, aún no permite la traducción en tiempo real o simultánea, es decir, la traducción de una oración a medida que se produce.