Asistimos a una era de asombro digital casi cotidiano. Pedimos a una máquina que imagine «un astronauta montando a caballo en Marte, al estilo de Rembrandt» y, en segundos, una imagen fotorrealista que jamás ha existido aparece en nuestra pantalla. Solicitamos…
Menos parámetros, más poder: la arquitectura experta de ERNIE
El gigante tecnológico chino lanza ERNIE, una arquitectura multimodal que activa solo 3.000 millones de parámetros pero iguala o vence a GPT-5 y Gemini en tareas críticas empresariales. Su estrategia dual de código abierto y modelos propietarios redefine las reglas…
OmniVideoBench y el futuro de la comprensión multimodal
La inteligencia artificial ha experimentado una transformación radical en los últimos años, pasando de procesar información de un solo tipo a integrar y comprender simultáneamente múltiples flujos de datos. Este salto cualitativo, conocido como inteligencia multimodal, permite a las máquinas analizar…
InternVL 3.5: ve mejor, piensa mejor, gasta menos
Por Javier Ruiz, Periodista Especializado en Inteligencia Artificial y Tecnología Emergente, para Mundo IA Menos tokens, más cabeza en InternVL 3.5 El equipo de Shanghai AI Lab presentó InternVL 3.5: una familia de modelos multimodales abiertos que mejora el razonamiento…
OpenAI estrena O3 y O4‑mini: la nueva generación que lleva la visión multimodal a ChatGPT gratis
La Revolución Multimodal Llega Gratis a ChatGPT con Visión Avanzada OpenAI, la reconocida organización detrás de ChatGPT, ha dado un paso significativo en la evolución de la inteligencia artificial con el anuncio de dos nuevos modelos de lenguaje avanzados: O3 (Omni…
Gemini 2.5 Pro está aquí con números más grandes y excelentes vibraciones
Llega Gemini 2.5 Pro: Más Potencia y Mejores Capacidades para la IA de Google El panorama de la inteligencia artificial está en constante ebullición, y Google acaba de añadir más leña al fuego con el anuncio de su nuevo modelo insignia:…







