Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

El modelo que piensa mejor que los gigantes, a una fracción de su tamaño

Trillion Labs, una startup coreana con apenas un año de existencia, lanzó Tri-21B-Think: un sistema de razonamiento de 21 mil millones de parámetros que se ubica entre los 30 mejores del mundo, supera en eficiencia a modelos varias veces más grandes y corre en una sola tarjeta gráfica. Es la demostración más elocuente de que la carrera por la cognición computacional no la ganan necesariamente los que más gastan.

Por el equipo editorial · 20 de febrero, 2026

Hay una aritmética perversa que gobierna el desarrollo de sistemas de lenguaje de gran escala: quien más computa, más cuesta; quien más cuesta, más poder acumula. Los laboratorios mejor financiados del planeta construyeron su ventaja sobre esa lógica, entrenando modelos que requieren miles de chips especializados durante meses enteros. Trillion Labs, una startup fundada en Seúl hace apenas un año, acaba de publicar resultados que cuestionan esa ecuación con una elegancia incómoda para los grandes.

Su modelo Tri-21B-Think Preview acaba de escalar al top 30 del ranking global de Artificial Analysis, uno de los organismos de referencia en evaluación independiente de sistemas de lenguaje computacional. Para una firma sin el respaldo de Google, Microsoft o los fondos de capital de riesgo que nutren a los actores establecidos del sector, ese posicionamiento equivale a terminar en el podio de una carrera donde los favoritos llegaron con motores tres veces más grandes. La comunidad técnica que sigue de cerca los rankings de Hugging Face advirtió el salto casi de inmediato.

La aritmética del talento

El modelo base, denominado Tri-21B, fue entrenado desde cero sobre 2,3 billones de tokens, un volumen considerablemente menor al que consumen sistemas comparables. Con apenas 2,95 × 10²³ operaciones de punto flotante, el equipo de Trillion Labs logró superar en rendimiento a modelos como Qwen2.5-32B y Gemma 3 IT 27B, ambos entrenados con entre 8 y 12 veces más recursos computacionales. La eficiencia resultante no es solo un dato técnico: es una declaración filosófica sobre cómo hacer ciencia en un sector donde el derroche se ha normalizado.

En los benchmarks que miden razonamiento general, conocimiento enciclopédico, matemáticas y programación, el sistema obtuvo un promedio del 70,3% en las evaluaciones combinadas de MMLU, KMMLU y Global MMLU, superando al Gemma 3 IT 27B (67,6%) con menos parámetros y marcando una diferencia de eficiencia que ha llamado la atención de investigadores fuera de Corea. La arquitectura empleada, un decodificador de transformer con las técnicas RoPE, SwiGLU y RMSNorm, no inventa nada radicalmente nuevo pero lo combina con una disciplina de entrenamiento que rinde más por cada ciclo de cómputo.

Comparación de precisión promedio en benchmarks MMLU entre modelos de escala similar o superior. Tri-21B alcanza su rendimiento con entre 8 y 12 veces menos recursos computacionales que sus competidores directos.

Que el modelo quepa en una sola unidad de procesamiento gráfico no es un detalle cosmético. En un contexto donde desplegar los sistemas más capaces exige infraestructuras de decenas de miles de dólares, esa portabilidad abre el acceso a organizaciones que no disponen de centros de datos propios. Universidades, organismos públicos, empresas medianas y comunidades de desarrollo independiente pueden ahora considerar opciones que hasta hace poco pertenecían exclusivamente a un puñado de corporaciones con presupuestos estratosféricos.

Datos clave del modelo

Tri-21B-Think Preview obtiene un puntaje de 20 en el Índice de Inteligencia de Artificial Analysis, muy por encima del promedio de 13 entre modelos de tamaño comparable. Su tasa de alucinaciones es del 62%, la más baja registrada entre todos los sistemas coreanos evaluados hasta la fecha. En la prueba τ²-Bench Telecom, que mide la capacidad de operar herramientas en flujos de trabajo autónomos, el modelo alcanza un 93% de rendimiento, una cifra comparable a la de DeepSeek V3.2 y MiniMax M2.5 en esa misma categoría.

Esos números no emergieron del azar. La compañía describió su proceso de preentrenamiento como una apuesta deliberada por la eficiencia antes que por la escala bruta: optimizaron la mezcla de datos de entrenamiento específicamente para capacidades de razonamiento, refinaron el proceso de aprendizaje por refuerzo con foco en matemáticas y uso cotidiano, y construyeron un vocabulario propio de 124.416 entradas, notablemente más amplio que el de muchos modelos equivalentes, para sostener el soporte multilingüe en coreano, inglés y japonés.

El arte de pensar despacio para razonar mejor

Sobre el modelo base, el equipo aplicó aprendizaje por refuerzo para construir la variante pensante. El resultado es un sistema capaz de razonar de manera extendida antes de entregar una respuesta, desarrollando pasos de reflexión en forma de tokens que el usuario puede seguir en tiempo real. Lo que distingue esta implementación de otras propuestas similares es una estructura de retroceso que permite al modelo revisitar etapas anteriores de su proceso deliberativo cuando detecta que el camino elegido no conduce a una solución sólida.

"Más que simplemente generar respuestas, el modelo despliega pasos de pensamiento en forma de tokens durante la resolución de problemas e implementa una estructura de retroceso que le permite volver a pasos anteriores para revisarlos cuando es necesario." Trillion Labs, comunicado técnico de lanzamiento, febrero de 2026

Esa capacidad de autocorrección se basa en un principio que los especialistas llaman escalado en tiempo de inferencia. A diferencia de los modelos convencionales, que generan respuestas en un paso continuo hacia adelante, los sistemas de razonamiento extendido deliberan antes de responder: producen cadenas de pensamiento que pueden abarcar miles de tokens antes de llegar a una conclusión. Cuanto más complejo es el problema planteado, más ciclos de reflexión dedica el sistema, y mejor tiende a ser el resultado.

El volumen de tokens generados durante ese proceso llama la atención incluso entre los evaluadores independientes. Según Artificial Analysis, Tri-21B-Think Preview produjo alrededor de 120 millones de tokens de razonamiento a lo largo de toda la batería de pruebas del Índice de Inteligencia, una cifra que supera ampliamente la mediana de 12 millones registrada entre modelos de tamaño equivalente. Solo K-EXAONE, otro sistema de procedencia coreana, se aproxima a esa magnitud con cerca de 100 millones de tokens de razonamiento.

Esa verbosidad no es un defecto de diseño: es la manifestación visible de un sistema que genuinamente delibera. Los modelos que razonan de forma extendida tienden a ser más confiables en tareas complejas precisamente porque exponen su proceso, lo que facilita la detección de errores tanto por parte del usuario como del propio sistema. La baja tasa de alucinaciones registrada en Tri-21B-Think Preview es coherente con esa lógica: un modelo que se da tiempo para reconsiderar sus propias afirmaciones antes de presentarlas genera menos afirmaciones falsas.

En el terreno de los agentes autónomos, que se está convirtiendo en el campo de batalla más activo del sector, el modelo también entrega resultados que merecen atención. Su puntuación del 93% en τ²-Bench Telecom lo sitúa entre los sistemas de pesos abiertos más capaces para coordinar acciones en flujos de trabajo complejos, una prestación especialmente relevante para organizaciones que buscan automatizar procesos sin depender de servicios gestionados por terceros.

Soberanía algorítmica desde Seúl

El surgimiento de Trillion Labs no ocurre en el vacío. Corea del Sur lleva años construyendo un ecosistema tecnológico que aspira a no depender exclusivamente de las plataformas desarrolladas en Estados Unidos o China. El modelo Tri-21B fue concebido desde sus cimientos con soporte multilingüe para coreano, inglés y japonés, y el equipo publicó todo su trabajo bajo licencia Apache 2.0, lo que permite a cualquier persona descargar, modificar y redistribuir los pesos sin restricciones comerciales.

Esa decisión estratégica de abrir el modelo contrasta con la tendencia de varios laboratorios que, tras un período inicial de transparencia, han optado por cerrar progresivamente el acceso a sus versiones más capaces. La disponibilidad pública de Tri-21B-Think convierte la propuesta de Trillion Labs en un recurso concreto para los movimientos de computación soberana que ganan tracción en Europa, América Latina y el sudeste asiático: comunidades que buscan construir capacidades propias sin transferir el control de sus datos ni crear dependencias críticas hacia actores extranjeros.

El único freno actual: sin acceso directo aún

Tri-21B-Think Preview es un modelo de pesos abiertos bajo licencia Apache 2.0, disponible en Hugging Face. Sin embargo, por el momento no existe un punto de acceso público propio de Trillion Labs: la única forma de utilizarlo es mediante autoalojamiento en infraestructura propia. La compañía ha confirmado que un servicio dedicado de acceso directo está en desarrollo y será lanzado próximamente. Mientras tanto, la comunidad técnica ya está ejecutando pruebas independientes y compartiendo resultados en foros especializados.

La empresa nació con la ambición de entrenar sistemas de gran escala con una fracción del costo habitual, y los resultados publicados hasta ahora sugieren que esa promesa no era pura retórica. Su modelo base logra resultados comparables a Qwen2.5-32B con 8 a 12 veces menos cómputo, una hazaña que en el lenguaje de los investigadores se describe como empujar la frontera de Pareto: obtener más rendimiento por cada unidad de recurso invertido. Es un principio que suena razonable en teoría pero que muy pocos equipos han conseguido demostrar con resultados verificables.

La startup completó su primer año de vida con una familia de modelos que incluye variantes de 7B, 21B y 70B parámetros, todas desarrolladas íntegramente con datos, infraestructura y pila de investigación propios. Ese grado de integración vertical es inusual para una compañía de su tamaño y sugiere que la eficiencia observada en los benchmarks no es un golpe de suerte sino el producto de decisiones de diseño consistentes desde el principio.

El episodio ilustra con precisión una tensión que recorre toda la industria: la brecha entre los laboratorios que acumulan recursos sin límite visible y los equipos que, con menos, demuestran que el ingenio sigue siendo la variable más determinante. Trillion Labs no ha derrotado a ningún gigante. Pero ha lanzado un recordatorio que incomoda a los más grandes: en la carrera por la cognición computacional, el tamaño importa bastante menos de lo que los que más tienen quisieran reconocer.

Referencias

Artificial Analysis. Tri-21B-Think Preview: Intelligence, Performance & Price Analysis. artificialanalysis.ai, febrero de 2026.

Trillion Labs. Tri-Series 7B, 21B y 70B: Tech Report de Preentrenamiento. trillionlabs.co, enero de 2026.

Trillion Labs. Tri-21B: modelo base en Hugging Face. huggingface.co/trillionlabs, septiembre de 2025.

Seoul Economic Daily. Trillion Labs Unveils 'Tri 21B Think,' Ranks in Global Top 30. en.sedaily.com, 19 de febrero de 2026.

Chosun Biz. Trillion Labs Debuts Tri 21B Think, Cracks Global Top 30. biz.chosun.com, 19 de febrero de 2026.

Artificial Analysis. Key benchmarking takeaways for Tri-21B-Think Preview. LinkedIn, 18 de febrero de 2026.

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo