Es muy probable que el ordenador que utilizas hoy en tu oficina no esté preparado para el futuro inmediato. La mayoría de los usuarios interactúan actualmente con los Grandes Modelos de Lenguaje (LLMs) a través de interfaces basadas en navegador, enviando sus consultas a centros de datos remotos donde servidores masivos procesan la información. Este modelo funciona bien mientras hay conexión a internet y los servidores están operativos. Sin embargo, una caída del servicio puede dejar a una empresa entera sin su cerebro digital durante horas. Además, existe una resistencia creciente entre usuarios y corporaciones a enviar datos personales o secretos comerciales a una entidad anónima en la nube.
Ejecutar un modelo localmente en tu propio ordenador podría ofrecer beneficios tangibles: latencia cero, una comprensión profunda de tus necesidades personales sin filtros de privacidad externos y la seguridad de que tus datos nunca abandonan el chasis de tu máquina. Sin embargo, para el portátil promedio de más de un año de antigüedad, la capacidad de ejecutar modelos de IA útiles es prácticamente nula. Un equipo con un procesador de cuatro u ocho núcleos, sin gráficos dedicados y con 16 gigabytes de RAM, simplemente no tiene el músculo necesario.
Incluso los portátiles de gama alta actuales luchan. Los modelos de IA más grandes tienen más de un billón de parámetros, lo que requiere cientos de gigabytes de memoria rápida, una cifra impensable para el hardware de consumo actual. Existen versiones más pequeñas de estos modelos, conocidas como SLMs (Small Language Models), pero a menudo sacrifican inteligencia o capacidades multimodales para poder funcionar. Esto representa un cuello de botella crítico para la adopción masiva de la IA. Para hacer posible la IA local, el hardware dentro de nuestros portátiles y el software que corre sobre él necesitan algo más que una actualización incremental; necesitan una reinvención total desde los cimientos.
Las NPUs entran en el chat: La carrera armamentística del silicio
La forma más evidente de potenciar el rendimiento de la IA en un PC es añadir un cerebro especializado. Aquí entra la Unidad de Procesamiento Neuronal, o NPU. A diferencia de la CPU (Unidad Central de Procesamiento), que es un generalista diseñado para ejecutar cualquier tipo de instrucción secuencial, o la GPU (Unidad de Procesamiento Gráfico), diseñada para renderizar píxeles en paralelo, la NPU es un especialista matemático. Es un chip diseñado específicamente para las operaciones de multiplicación de matrices en las que se basan la mayoría de los modelos de IA.
Las GPUs ya eran buenas en tareas paralelizadas, razón por la cual se convirtieron en el estándar para los centros de datos de IA. Sin embargo, las NPUs llevan esta especialización un paso más allá. Al eliminar la circuitería necesaria para gráficos 3D y centrarse solo en tensores (arrays multidimensionales de números), las NPUs son drásticamente más eficientes energéticamente. Esto es vital para la tecnología portátil, donde la duración de la batería es sagrada. Además, las NPUs suelen ofrecer un mejor soporte para la aritmética de baja precisión (como INT8 o FP4), que los modelos de IA utilizan para reducir sus necesidades computacionales sin perder demasiada exactitud.
🚀 La carrera de los TOPS (Trillions of Operations Per Second)
El punto de partida (2023): Antes de la llegada del chip Snapdragon X de Qualcomm, las NPUs en portátiles eran una curiosidad exótica que apenas alcanzaba los 10 TOPS.
El estándar actual (2024-2025): La competencia se ha disparado. AMD e Intel han lanzado chips que compiten directamente con Qualcomm, ofreciendo entre 40 y 50 TOPS. Esto es suficiente para ejecutar características como Windows Recall o la eliminación generativa de objetos en fotos.
El futuro inmediato: El próximo "Pro Max Plus AI PC" de Dell promete un NPU Qualcomm AI 100 que alcanzará hasta 350 TOPS. Esto representa una mejora de 35 veces en rendimiento en solo dos años. La proyección sugiere que pronto veremos NPUs capaces de miles de TOPS en dispositivos de consumo.
Steven Bathiche, miembro técnico de Microsoft, explica que la estructura completa de la NPU está diseñada alrededor del tipo de dato tensor. Esto permite pasar de una CPU que maneja unos pocos billones de operaciones a una NPU diseñada para manejar cargas de trabajo masivas de manera eficiente. Pero la IA no vive solo de NPUs. Vinesh Sukumar, jefe de gestión de productos de IA en Qualcomm, señala que tareas como la generación y manipulación de imágenes siguen requiriendo la fuerza bruta de una GPU potente.
Equilibrio de poderes: No todo es NPU
Tener una NPU más rápida permitirá procesar más "tokens por segundo", lo que se traduce en una experiencia más fluida al conversar con un asistente de IA. Pero Mike Clark, ingeniero de diseño corporativo en AMD, advierte que no se puede apostar todo a la NPU. La IA no es un reemplazo de la computación tradicional, sino una adición. Un PC todavía necesita ser excelente en baja latencia, manejo de tipos de datos pequeños y ramificación de código, tareas donde la CPU sigue siendo el rey indiscutible.
Además, la CPU es a menudo la encargada de "preparar los datos" antes de enviarlos a la NPU o GPU. Si la CPU es débil, se convierte en un cuello de botella que deja a los aceleradores de IA esperando ociosos. Por otro lado, las NPUs deben competir o cooperar con las GPUs discretas de gama alta. Una Nvidia GeForce RTX 5090 puede ofrecer hasta 3.352 TOPS de rendimiento de IA, dejando atrás a cualquier NPU integrada. Sin embargo, hay un precio a pagar: el consumo de energía. Esa tarjeta gráfica puede consumir hasta 175 vatios en un portátil, drenando la batería en minutos. La NPU, en cambio, está diseñada para ser un "corredor de fondo", operando eficientemente a baja potencia para tareas siempre activas, como un asistente personal que escucha comandos o indexa tu actividad en segundo plano.
⚠️ El dilema de la energía
El problema: Las cargas de trabajo de IA, a diferencia de la renderización de un video corto, tienden a ser continuas. Un asistente personal siempre activo o un sistema de seguridad local requieren procesamiento constante.
La solución: Delegar estas tareas persistentes a la NPU permite que el sistema permanezca en un estado de bajo consumo, reservando la GPU de alta potencia solo para momentos de generación intensiva o juegos.
La memoria unificada: Rompiendo los muros de hace 25 años
Insertar una NPU junto a la CPU y la GPU es una mejora necesaria, pero no suficiente. La IA está forzando un cambio aún más fundamental en la arquitectura del PC: la memoria. La mayoría de los ordenadores modernos tienen una arquitectura de memoria dividida, una decisión de diseño que se tomó hace más de 25 años. Típicamente, hay un grupo de memoria del sistema (RAM) para la CPU y otro grupo separado de memoria gráfica (VRAM) dedicada exclusivamente a la GPU, conectados por un bus.
Para la IA, esto es un desastre. Los modelos grandes requieren cantidades masivas de memoria y necesitan cargar el modelo completo a la vez. Mover datos entre la memoria del sistema y la memoria de la GPU a través del bus PCI Express es lento e ineficiente energéticamente. Joe Macri, director de tecnología de AMD, explica que este "baile de datos" aumenta el consumo de energía y conduce a una experiencia de usuario lenta.
La solución que está ganando tracción es la arquitectura de memoria unificada, popularizada recientemente por los chips de Apple Silicon. En este diseño, todos los recursos del sistema (CPU, GPU, NPU) acceden al mismo grupo masivo de memoria a través de un bus de interconexión rápido. AMD está siguiendo este camino con su nueva línea Ryzen AI Max, presentada en CES 2025. Estos chips colocan los núcleos de CPU, GPU y NPU en una sola pieza de silicio con acceso compartido a hasta 128 GB de memoria del sistema. Esto elimina la necesidad de copiar datos de un lado a otro.
Intel y Nvidia también se están uniendo a esta fiesta, aunque de una manera inesperada, anunciando una alianza para vender chips que emparejan núcleos de Intel con núcleos de Nvidia, probablemente utilizando una arquitectura de memoria unificada. Esto marca el fin de la era de los componentes discretos y el comienzo de la era de los "Super-SoC" (System on Chip). Sin embargo, esto tiene un costo para el consumidor: la reparabilidad. Estos chips integrados suelen soldar la memoria y los procesadores en un solo paquete, haciendo imposible actualizar la RAM o reemplazar una tarjeta gráfica defectuosa individualmente.
Microsoft reescribe Windows para la era local
El hardware es inútil sin software que sepa usarlo. Aunque macOS tiene una excelente arquitectura de memoria unificada, sus GPUs no son tan capaces como las mejores de PC, y sus herramientas de desarrollo de IA son menos adoptadas. Esto ha dejado una ventana de oportunidad que Microsoft está decidida a aprovechar. En su conferencia Build 2025, la compañía reveló "Windows AI Foundry Local", una pila de ejecución que incluye un catálogo de miles de modelos de lenguaje de código abierto optimizados (de Meta, Mistral, Nvidia, etc.).
Cuando un desarrollador implementa un modelo en su aplicación, Windows se encarga de la "fontanería" difícil. El tiempo de ejecución de Windows ML dirige automáticamente las tareas de IA al hardware más adecuado en ese milisegundo: ¿es una tarea pequeña de fondo? A la NPU. ¿Es una generación de imagen pesada? A la GPU. Esto libera a los desarrolladores de tener que optimizar manualmente para cada chip.
Además, Microsoft ha introducido soporte para tecnologías avanzadas como LoRA (Low-Rank Adaptation) y RAG (Retrieval-Augmented Generation) directamente en el sistema operativo. Esto permite que las aplicaciones personalicen cómo responde un modelo de IA basándose en datos locales específicos del usuario, sin tener que reentrenar el modelo completo. Es la democratización de la IA personalizada.
Hacia la AGI en tu mochila
La rápida evolución del hardware de PC capaz de IA representa más que una simple actualización incremental de especificaciones; señala un cambio de paradigma en la industria informática que probablemente borrará los últimos vestigios de las arquitecturas diseñadas en los años 80 y 90. La combinación de NPUs cada vez más potentes, memorias unificadas masivas y técnicas de optimización de software sofisticadas está cerrando la brecha de rendimiento entre la IA local y la IA en la nube a un ritmo que ha sorprendido incluso a los expertos de la industria.
Este cambio empujará a los diseñadores de chips hacia una integración aún mayor. El objetivo final, según Mahesh Subramony de AMD, es que los usuarios lleven "una mini estación de trabajo en la mano", eliminando la necesidad de recurrir a la nube para cargas de trabajo de alta computación. Qualcomm es aún más ambicioso: Vinesh Sukumar cree que los portátiles de consumo asequibles deberían aspirar a ejecutar Inteligencia General Artificial (AGI) completa. "Quiero una AGI completa corriendo en dispositivos Qualcomm", afirmó. "Eso es por lo que estamos presionando".
Estamos presenciando el renacimiento del PC. Ya no es solo una máquina de escribir glorificada o un terminal de acceso a internet; se está convirtiendo en un nodo de inteligencia autónomo. La próxima vez que compres un portátil, no preguntarás por los gigahertzios, sino por los billones de operaciones por segundo y si tiene suficiente memoria unificada para albergar a tu asistente digital personal.
Referenciass
Microsoft Build 2025 Keynote: Anuncios sobre Windows AI Foundry Local y la integración de NPUs en el sistema operativo.
AMD Press Release (CES 2025): Detalles técnicos sobre la arquitectura Ryzen AI Max y la memoria unificada.
Qualcomm Snapdragon Summit: Especificaciones de los chips Snapdragon X y la hoja de ruta de rendimiento de las NPUs.
Intel Architecture Day: Información sobre la alianza con Nvidia y el futuro de los procesadores cliente para IA.



