Un solo modelo para ver, pensar y comprender Investigadores de Hong Kong y Beijing presentan OneThinker, una arquitectura que unifica diez tareas de comprensión visual bajo un único sistema capaz de razonar explícitamente sobre imágenes y videos, desde resolver ecuaciones geométricas hasta seguir objetos en movimiento fotograma a fotograma Por el equipo editorial | 4…
Infinity-RoPE: la tecnología que permite crear películas eternas en casa
Investigadores de Virginia Tech y la compañía Fal introducen un marco revolucionario que permite generar videos de duración ilimitada con control preciso de las acciones y transiciones cinematográficas, superando las barreras de memoria y coherencia que limitaban a los modelos…
El fin de las alucinaciones visuales en la generación de diagramas técnicos
La ciencia moderna se enfrenta a una paradoja monumental. Jamás en la historia de la humanidad habíamos generado conocimiento a una velocidad tan vertiginosa, y sin embargo, la capacidad para sintetizar, comunicar y visualizar esos hallazgos no ha evolucionado al mismo…
Nano Banana Pro: La IA que por fin sabe escribir dentro de las fotos
Bajo un nombre deliberadamente absurdo se esconde la tecnología de renderizado más seria de 2025. Google DeepMind ha lanzado un modelo capaz de generar texto legible, coherente y tipográficamente perfecto dentro de imágenes complejas, cerrando la última brecha que separaba…
Adiós a la supremacía del texto: el paradigma visual en ARC
En los corredores de la investigación en inteligencia artificial, resuena desde hace años una pregunta fundamental, casi filosófica: ¿qué es la verdadera inteligencia? Más allá de la asombrosa capacidad de los modelos actuales para predecir la siguiente palabra en una…
Tu sintaxis errática derrota a la supercomputación
Mientras Silicon Valley construye fortalezas digitales para cazar IAs con IAs, un equipo de Northeastern University demuestra que la verdadera distinción entre hombre y máquina no radica en la potencia de cálculo, sino en la gloriosa y caótica imperfección de…
El «grounding» visual: agentes digitales que conectan palabras con píxeles
En los laboratorios de Mila, el prestigioso instituto de inteligencia artificial de Quebec, un equipo de investigadores ha logrado algo que parecía reservado exclusivamente a los seres humanos: enseñar a una máquina a reconocer y manipular con precisión los…
SIMA 2: El agente de Google DeepMind que razona y aprende en mundos virtuales
La integración de Gemini transforma a SIMA de un seguidor de instrucciones básico a un compañero de juego que piensa, explica sus razonamientos y se mejora a sí mismo, marcando un hito crucial en el camino hacia la Inteligencia Artificial…
V-Thinker y la caja de herramientas visuales
El actual panteón de inteligencias artificiales nos ha acostumbrado a una suerte de milagro cotidiano. Sistemas que, con una simple instrucción de texto, pueden generar imágenes fotorrealistas, componer sinfonías o describir con una precisión asombrosa el contenido de una fotografía. Hemos…










