Taalas HC1: el chip que procesa texto 73 veces más rápido que las GPU más potentes de Nvidia

El chip que no ejecuta el modelo

Una empresa de 25 personas en Toronto salió del anonimato con una tecnología que graba los parámetros de modelos de lenguaje directamente en silicio, genera 17.000 tokens por segundo y consume la décima parte de energía que una GPU convencional. La pregunta no es si esto funciona: las pruebas ya están disponibles. La pregunta es qué significa para el mercado de chips más competido de la historia.

Por el equipo editorial | 22 de febrero, 2026

Hay un momento en la historia de los semiconductores en que alguien decide que el problema no es el software que corre sobre el chip, sino el chip en sí. Jim Keller lo hizo con la arquitectura Zen en AMD. Los ingenieros de Google lo hicieron con la TPU. Ahora, un equipo de 25 personas radicado en Toronto acaba de afirmar, con silicio funcional en mano, que la separación entre modelo y hardware es un accidente histórico, no una necesidad técnica.

Hace tres días, Taalas Inc. emergió definitivamente del sigilo. La compañía anunció una Serie B de 169 millones de dólares liderada por Quiet Capital y Fidelity, y presentó su primer producto comercial: el HC1, un chip que no ejecuta el modelo de lenguaje Llama 3.1 8B sobre el hardware. El modelo es el hardware. Sus parámetros, todos y cada uno de los 8.000 millones de pesos de la arquitectura, están grabados en el silicio como si fueran circuitería fija, igual que la lógica de cualquier procesador diseñado para una función inamovible. El resultado son 17.000 tokens por segundo por usuario, una marca que supera en un factor de casi diez a Cerebras, la plataforma que hasta ese momento ostentaba el récord en inferencia especializada, y en alrededor de 73 veces el desempeño de la GPU H200 de Nvidia en la misma tarea.

Para quien no haya visto el sistema en funcionamiento, las cifras resultan difíciles de internalizar. El HC1 puede procesar una historia mensual completa de la Segunda Guerra Mundial en 0,138 segundos, despachando más de 14.000 tokens de una sola pasada. La velocidad es tal que el texto aparece antes de que el ojo humano pueda seguir el desplazamiento en pantalla. Existe un servicio de demostración público en chatjimmy.ai donde cualquier persona puede comprobarlo sin intermediarios. No hay truco: es simplemente lo que ocurre cuando se elimina la principal fuente de latencia en todo sistema de inferencia moderno.

Grabado en piedra: el modelo como circuito fijo

La arquitectura del HC1 parte de una observación que el CEO Ljubisa Bajic, fundador también de Tenstorrent, describe como obvia en retrospectiva pero ignorada durante años: los sistemas de inferencia modernos pasan la mayor parte del tiempo moviendo datos desde la memoria hacia los núcleos de cómputo, no calculando. Cada vez que un modelo necesita acceder a sus pesos, esos valores deben viajar por buses de memoria que, a escala de nanosegundos, representan distancias astronómicas. Taalas eliminó ese desplazamiento por completo.

El HC1 utiliza el proceso de fabricación N6 de TSMC, la generación de 6 nanómetros disponible comercialmente. Lo que no es estándar es cómo se distribuyen los 53.000 millones de transistores del chip: la enorme mayoría está dedicada a memoria ROM altamente densa, donde los pesos del modelo quedan codificados de forma permanente durante la fabricación. Una fracción de memoria SRAM dinámica gestiona las funciones que sí varían en tiempo de ejecución: la ventana de contexto activa (KV cache) y los adaptadores de ajuste fino basados en LoRA. La tarjeta ocupa un factor de forma PCIe estándar, consume alrededor de 200 vatios, es compatible con cualquier servidor Intel o AMD y no requiere refrigeración líquida. Un servidor de diez tarjetas HC1 consume 2.500 vatios totales. Para producir un rendimiento equivalente con GPUs actuales haría falta un rack que demanda entre 120 y 600 kilovatios, con toda la infraestructura de enfriamiento especializado que eso implica.

"Creemos que la fundición 'directo a silicio' de Taalas desbloquea tres avances fundamentales: resetear drásticamente la estructura de costos de la IA hoy, habilitar el próximo crecimiento de 10 a 100 veces en tamaño de modelos, y ejecutar modelos potentes localmente en cualquier dispositivo de consumo. Esta es quizás la misión más importante en computación hoy para la escalabilidad futura de la inteligencia artificial." Matt Humphrey, socio de Quiet Capital, fondo líder de la ronda Serie B

Bajic y sus cofundadores, Drago Ignjatovic y Lejla Bajic, dos de los ingenieros más antiguos de Tenstorrent, pasaron sus carreras anteriores diseñando procesadores en AMD, Nvidia y la propia Tenstorrent. El conocimiento acumulado en esas tres instituciones se nota en la elección deliberada del proceso de fabricación: TSMC N6 no es el nodo más avanzado disponible, pero es considerablemente más barato por milímetro cuadrado y ofrece densidad de memoria suficiente para el objetivo específico. La empresa estima que el HC1 cuesta fabricar aproximadamente una veinteava parte de lo que vale producir una GPU equivalente. Con un equipo de apenas 25 personas que ha gastado solo 30 millones de los más de 200 millones recaudados desde su fundación en 2023, la eficiencia de capital es, cuando menos, notable.

Números que el sector tendrá que responder

Rendimiento comparado en inferencia sobre Llama 3.1 8B: tokens por segundo por usuario según datos públicos disponibles a febrero de 2026.

La comunidad de hardware recibió el lanzamiento con entusiasmo cauteloso y escepticismo razonado. Los benchmarks publicados por Taalas no han sido verificados de forma independiente, y la empresa no ha revelado todavía su estructura de precios. Varios analistas señalan que el rendimiento bruto en tokens por segundo, aunque impresionante, no captura la totalidad del cuadro económico: los operadores de centros de datos también valoran la flexibilidad para cambiar de modelo rápidamente, la capacidad de procesar lotes de múltiples usuarios simultáneos y la madurez del ecosistema de software. En esas tres dimensiones, el HC1 presenta restricciones que sus competidores no tienen.

Al estar el modelo grabado en el chip durante la fabricación, cambiar de arquitectura exige nuevo silicio. El ciclo que Taalas propone para esto es de dos meses desde la decisión de fabricar hasta el chip funcional, un plazo notablemente corto para estándares de la industria, donde los ciclos de diseño suelen medirse en años. La empresa lo logra porque su proceso de conversión de modelo a silicio está altamente automatizado: no hay ingenieros optimizando manualmente cada operación de tensores; hay herramientas que toman los pesos del modelo y los traducen directamente a geometría de chip. Aun así, dos meses son tiempo suficiente para que un modelo de lenguaje evolucione significativamente en el competido paisaje actual.

        El marco competitivo en inferencia especializada: Cerebras construyó su ventaja sobre un chip del tamaño de una oblea entera. Groq la construyó sobre una arquitectura de flujo de datos determinístico. Taalas hace algo distinto: elimina la separación entre almacenamiento y cómputo, convirtiendo la memoria del modelo en la propia lógica de ejecución. Cada enfoque resuelve el mismo cuello de botella fundamental (el movimiento de datos) desde un ángulo diferente, lo que sugiere que el espacio de soluciones óptimas todavía no está cerrado. Esta semana, Nvidia anunció un acuerdo de 20.000 millones de dólares para adquirir propiedad intelectual de Groq, señal de que la compañía dominante del sector no subestima el potencial de estas arquitecturas alternativas.
    

El Llama 3.1 8B que corre en el HC1 usa cuantización de 3 bits, una compresión agresiva que reduce el tamaño de los pesos y los hace caber en el chip, pero introduce potenciales pérdidas de calidad frente a las versiones en punto flotante de 16 bits que corren en GPU. La empresa reconoce ese compromiso y argumenta que para la mayoría de los casos de uso comerciales, la diferencia en calidad de respuesta es imperceptible. Esa afirmación necesita evaluación empírica independiente, aunque no es descabellada: la industria lleva años demostrando que modelos cuantizados agresivamente pueden sostener calidad de producción en tareas específicas y bien delimitadas.

La hoja de ruta y sus incógnitas

La ruta que Taalas ha comunicado públicamente tiene tres etapas. Para el verano de 2026, la empresa planea lanzar una versión del HC1 modificada en dos capas de metal, capaz de alojar el modelo Llama 3.1 con 20.000 millones de parámetros, una escala que ya entra en el territorio de los modelos de razonamiento intermedio. Antes de que termine el año llega la transición a la plataforma HC2, una arquitectura de segunda generación que usará múltiples chips coordinados para lógica y memoria, adoptará representaciones en punto flotante de 4 bits y apuntará a modelos del nivel frontier: posiblemente alguna variante de Llama o DeepSeek, los dos linajes que concentran más atención en el sector en este momento.

HC2 es donde las apuestas se vuelven genuinamente grandes. Los modelos frontier tienen cientos de miles de millones de parámetros; grabarlos en silicio requiere una escala de chip radicalmente mayor o una orquestación de múltiples dados que todavía no existe en el portafolio de la compañía. Taalas no ha dado detalles técnicos sobre cómo pretende resolver esa arquitectura multi-chip, y los analistas coinciden en que es aquí donde el modelo de negocio enfrentará su examen más duro. Fabricar un HC1 optimizado para un solo modelo de 8.000 millones de parámetros es una cosa; hacerlo para un modelo que requiere cientos de veces más silicio, con la misma ventaja de costo y consumo sobre las GPUs, es una propuesta de ingeniería de un orden completamente distinto.

Nada de eso invalida lo que Taalas acaba de mostrar. La idea de grabar un modelo directamente en silicio no era técnicamente imposible antes; era un camino que nadie había recorrido porque el mercado se había organizado alrededor de hardware genérico y software flexible. Bajic y su equipo apostaron a que esa organización no era la única posible, fabricaron el chip, y los números hablan con elocuencia propia. Si los benchmarks independientes confirman lo que la empresa publica, y si el HC2 logra escalar el concepto a modelos de mayor envergadura, el HC1 podría recordarse como el instante en que el paradigma de la inferencia comenzó a cambiar de manos.

Referencias

Freund, Karl. "Taalas Launches Hardcore Chip With 'Insane' AI Inference Performance". Forbes, 19 de febrero de 2026.

The Next Platform. "Taalas Etches AI Models Onto Transistors To Rocket Boost Inference". 19 de febrero de 2026.

MLQ.ai. "Taalas Raises $169M to Develop AI Chips Challenging Nvidia". 19 de febrero de 2026.

Betakit. "Tenstorrent founder reveals new AI chip startup Taalas with $50 million in funding". 4 de marzo de 2024.

The Kaitchup (Substack). "Taalas HC1: Absurdly Fast, Per-User Inference". 19 de febrero de 2026.

Silicon Republic. "Canadian start-up chipmaker Taalas raises $169m". 19 de febrero de 2026.

Awesome Agents AI. "Taalas Exits Stealth With $169 Million to Hardcode AI Models Into Silicon". 19 de febrero de 2026.

EE News Europe. "Tenstorrent founder forms AI startup Taalas, raises $50 million". 10 de marzo de 2024.

Taalas HC1: el chip que procesa texto 73 veces más rápido que las GPU más potentes de Nvidia