Suscríbete a MUNDO IA

Categoría: Benchmarks

Google_AI_Studio_2026-01-09T05_32_25.335Z

Google Gemini explota de 5.7% a 21.5% mientras ChatGPT pierde 22 puntos: el mapa completo del tráfico real

ChatGPT pierde 22 puntos de market share en un año mientras Gemini explota: el mapa del tráfico real en IA generativa El Global AI Tracker de SimilarWeb revela que ChatGPT pasó de dominar el 86.7% del tráfico web en enero de 2025 a apenas el 64.5% en enero de 2026. Gemini de Google saltó del…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2026-01-09T03_52_18.544Z

Open LLM Leaderboard revela la verdad: el tamaño ya no predice el rendimiento

Cuando crecer deja de ser suficiente: la nueva generación de modelos que derrota a los gigantes La foto de familia de los modelos en 2026 ya no se ordena por quién es más grande, sino por quién hace más con menos. Claude 3.5 Sonnet, GPT-4o y Gemini 1.5 Pro dominan benchmarks, pero modelos abiertos compactos…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2026-01-02T17_35_25.802Z

Tres etapas hasta la singularidad: estamos en la primera y solo quedan meses

El modelo que predice cuándo la IA se automejorará sin ayuda humana Un marco técnico desarrollado por investigadores de seguridad de IA modela matemáticamente el momento en que los sistemas algorítmicos superarán completamente a los programadores humanos, desencadenando bucles de retroalimentación donde cada generación de modelos diseña la siguiente más rápido que la anterior. El…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
2fe63f12-9dd8-49dd-a421-e242f7c6b52a

El modelo que piensa durante minutos antes de responder destroza récords

La nueva aristocracia del lenguaje: modelos que gobiernan el ranking global Gemini 3 Pro destrona a los campeones establecidos mientras una revolución de código abierto desde China redistribuye el poder en el ecosistema algorítmico. El tablero de clasificación de LMArena revela una jerarquía en constante mutación donde arquitecturas multimodales, ventanas de contexto masivas y capacidades…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
326792e6-f47f-4f47-848d-f048f07e2529

Poetiq superó el rendimiento humano en razonamiento y liberó el secreto gratis

Un equipo de seis personas creó un sistema de IA que supera a humanos en razonamiento abstracto Poetiq, una startup formada por ex investigadores de Google DeepMind, desarrolló un sistema que resuelve mejor que el humano promedio problemas de lógica visual que nunca había visto antes. El logro ocurrió en noviembre de 2025 sobre ARC-AGI-2,…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2025-12-23T04_10_47.548Z

El experimento prohibido: Lo que pasa cuando la IA ignora la realidad

Existe una disonancia cognitiva fundamental en nuestra interacción contemporánea con la inteligencia artificial. Si le solicitamos a uno de los modelos de lenguaje más avanzados, como GPT-4 o Claude 3, que redacte un soneto sobre la melancolía de la lluvia al estilo isabelino, el resultado será indistinguible de la obra de un poeta humano competente….

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2025-12-18T03_44_06.263Z

FrontierScience: el test que revela cuán lejos está la IA de ser científica real

GPT-5.2 aprobó el 77% de problemas tipo Olimpiada pero apenas el 25% de tareas de investigación real, revelando una brecha enorme entre resolver ejercicios estructurados y enfrentar desafíos científicos abiertos. Mientras tanto, el mismo modelo mejoró un protocolo de clonación de ADN 79 veces en laboratorio real, demostrando que la IA puede optimizar procedimientos experimentales…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
98c00b6e-501a-4501-954c-195477f6ae8a

El techo del 70%: por qué el benchmark FACTS es una alarma para la IA empresarial

El techo del 70%: por qué el benchmark FACTS es una alarma para la IA empresarial BENCHMARKS / FACTUALIDAD IA 2025 El techo del 70%: por qué el benchmark FACTS es una alarma para la IA empresarial Google y Kaggle acaban de ponerle número a algo que muchos equipos intuían: incluso los mejores modelos de…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2025-12-12T04_28_19.058Z

Nomos 1: El «David» del Open Source que humilló a los gigantes en matemáticas

Nomos 1: La Revolución Matemática del Open Source REPORTE ESPECIAL / NOUS RESEARCH Nomos 1: El «David» del Open Source que humilló a los gigantes en matemáticas Un modelo de código abierto de apenas 30B de parámetros ha logrado lo imposible: superar a casi todos los humanos en el examen de matemáticas más difícil del…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Screenshot 2025-12-11 at 19-05-04 oai

GPT-5.2 «Thinking»: El contraataque que deja a Gemini en el espejo retrovisor

LANZAMIENTO OFICIAL / DIC 2025 GPT-5.2 «Thinking»: El Contraataque que Deja a Gemini en el Espejo Retrovisor Tras semanas de especulación y un «Código Rojo» interno, OpenAI ha liberado su respuesta directa al empuje de Gemini 3. Los benchmarks oficiales muestran…

Leer Más