El Centro Nacional de Inteligencia Artificial (CENIA) presentó en Santiago de Chile Latam-GPT, el primer Gran Modelo de Lenguaje abierto de América Latina y el Caribe. La iniciativa cuenta con el respaldo del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de Chile y la colaboración del Banco de Desarrollo de América Latina y el Caribe (CAF), Amazon Web Services (AWS) y el Data Observatory, además de más de 60 instituciones de 15 países. En total participaron más de 100 profesionales en un proceso que incluyó recolección, curaduría y entrenamiento de datos.
Latam-GPT se basa en la arquitectura Llama 3.1 de 70.000 millones de parámetros, pero fue entrenado con un corpus regional propio que reúne más de 300.000 millones de tokens, equivalentes a unas 230.000 millones de palabras, obtenidos bajo permisos y licencias explícitas. El conjunto de datos fue anonimizado y depurado para eliminar contenidos tóxicos o desinformación, y prioriza áreas como humanidades, ciencias sociales, educación, salud, políticas públicas, economía, medioambiente, artes y pueblos indígenas.
Uno de los diagnósticos que impulsó el proyecto es la baja representación de los idiomas de la región en los grandes modelos globales. Según estimaciones basadas en repositorios abiertos como Common Crawl, el español representa alrededor del 4% y el portugués cerca del 2% de los datos utilizados para entrenar estos sistemas. Esa subrepresentación impacta en la capacidad de los modelos comerciales para comprender matices culturales, contextos históricos y dinámicas políticas latinoamericanas.
A diferencia de soluciones comerciales cerradas, Latam-GPT fue concebido como un bien público de código abierto. El objetivo es que universidades, gobiernos, startups y organizaciones puedan desarrollar aplicaciones propias sobre una base común, transparente y trazable, con potencial de uso en educación, gestión pública e innovación productiva. Según sus impulsores, el modelo podría contribuir a mejorar la productividad de hasta el 50% de la fuerza laboral regional mediante aplicaciones adaptadas a distintos sectores.
Durante la presentación, se contó con la participación del presidente Gabriel Boric y autoridades del ecosistema científico y tecnológico regional. Boric sostuvo que la inteligencia artificial no debe verse solo como una amenaza, sino también como una oportunidad para expresar identidad cultural en el lenguaje tecnológico contemporáneo. En la misma línea, el ministro de Ciencia, Aldo Valle, planteó que la integración regional es una condición para avanzar en soberanía tecnológica con sentido democrático, apoyada en infraestructura de supercómputo, formación y modernización del Estado.
Más allá del lanzamiento, el desafío será sostener una gobernanza regional que garantice actualización, transparencia y acceso equitativo al modelo. Latam-GPT no se presenta como un producto final, sino como una base tecnológica abierta sobre la cual puedan desarrollarse modelos derivados y soluciones adaptadas a las distintas realidades del continente.
