martes, 21 de abril de 2026

La IA y los idiomas

 Los chatbots a los que podemos tener acceso han sido desarrollados en idioma inglés y los LLM se han "abastecido" de todo lo que han encontrado en este idioma en internet. Gracias a que el español es muy usado en los Estados Unidos es probable que también los contenidos en nuestro idioma hayan sido tomados en cuenta y la experiencia demuestra que operan bastante bien en él. Pero el caso de los demás idiomas es diferente. El problema no es meramente de traducción: se trata también de la manera de pensar y sentir, es decir del contexto cultural, que influye significativamente en el significado, en la comprensión. Así, los países con diferentes idiomas se van obligados a constituir sus propias bases de datos para sus propios LLM. 

En 2023, la empresa de calificación de medios NewsGuard, de Nueva York, identificó 49 granjas de contenido en siete idiomas diferentes: chino, checo, inglés, francés, portugués, tagalo y tailandés (Deutsche Welle, 11/05/2023). 

Para Latinoamérica se creó LatamGPT, una gran base de datos formada a partir de información de la región. Fue impulsada por el Centro Nacional de Inteligencia Artificial de Chile (Cenia), una corporación privada con financiamiento público con el apoyo de universidades, fundaciones, bibliotecas, entidades gubernamentales y organizaciones de la sociedad civil de países como Chile, Uruguay, Brasil, Colombia, México, Perú, Ecuador y Argentina. Debe permitir la creación de soluciones locales de IA. (Meganoticias, 11/02/26)

Pero otras zonas lingüísticas han desarrollado sus propios modelos de IA generativa y no solo granjas de contenidos. Existen, por ejemplo, múltiples modelos árabes entrenados específicamente con datos nativos en ese idioma desarrollados desde cero. Así, en los Emiratos Árabes Unidos se creó Jais e Inception/Jais 2, considerado uno de los modelos árabes de mayor calidad a nivel mundial. Arabia Saudita también desarrolló su propio modelo, ALLaM.

Corea del Sur también desarrolló varios modelos, en el marco de un programa nacional de IA soberana ("Sovereign IA") orientado a no depender de Estados Unidos o China.

En Francia, la empresa Mistral lanzó "Le Chat", un asistente de IA que puede operar en francés, inglés e italiano, lo cual hace pensar que su centro de datos reúne información en esos idiomas. Está orientado a "facilitar la investigación de mercado y la generación de propuestas impulsada por IA", aunque también puede ser utilizado para otro tipo de consultas, incluso en español, y es comparable a ChatGPT. Su página de inicio en la web y sus ejemplos, sin embargo, son en inglés. 

Es muy conocido y ha tenido gran éxito el chatbot chino DeepSeek. Se puede suponer que la versión local, en mandarín, se abasteció con fuentes en ese idioma, pero la versión inglesa ha sido entrenada y utiliza los mismos datos que los chatbots americanos, como han denunciado Anthropic, Google y OpenAI:

"En febrero Anthropic denunció que tres laboratorios chinos de IA, DeepSeek, Moonshot y MiniMax, estuvieron meses extrayendo las capacidades de Claude a través de 24.000 cuentas falsas y 16 millones de consultas, para entrenar sus propios modelos a un costo muy inferior." (Infobae, 17/04/26)

Ésta es una técnica llamada "destilación": "plantear miles de preguntas al modelo más grande, recopilar sus respuestas y utilizarlas para enseñar a un nuevo modelo a razonar de la misma manera" (Euronews, 26/02/26)


No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.