Google da un paso hacia la IA general con su nuevo modelo del mundo Genie 3

Aug 6, 2025 - 12:00
Google da un paso hacia la IA general con su nuevo modelo del mundo Genie 3

Google DeepMind presentó Genie 3, un modelo del mundo (world model) capaz de generar entornos 3D en tiempo real a partir de una imagen o de una indicación de texto. La compañía sostiene que este nuevo algoritmo no solo amplía las posibilidades de crear experiencias educativas, creativas y enfocadas en videojuegos, sino que también representa un paso importante hacia la inteligencia artificial general, aquella que busca igualar o superar las habilidades cognitivas humanas.

The Black Box Lab, una agencia de desarrollo de negocios, explica que los modelos mundiales son algoritmos que construyen representaciones internas de un entorno, lo que permite a las soluciones de IA simular eventos y predecir resultados futuros basados en dichas emulaciones. Este enfoque busca replicar los procesos de razonamiento humano para dotar a las máquinas de una comprensión más profunda del contexto físico.

Según un artículo de TechCrunch, un modelo generativo entrenado con años de video puede identificar con precisión que una pelota de baloncesto rebota, pero carece de la capacidad para entender por qué ocurre. En cambio, un modelo del mundo posee “una comprensión básica” de las causas del rebote, lo que le permite representar el fenómeno y anticipar movimientos futuros con mayor exactitud.


Grupo de robots trabajando simultáneamente con computadoras
Qué es el Model Context Protocol (MCP) y cuál es su papel en el desarrollo de la inteligencia artificial

La IA se hará más inteligente no a punta de fuerza bruta, sino gracias a la distribución del trabajo. En esta entrega de PROMPTING abordamos el rol clave del MCP para el futuro.


Google lleva tiempo destinando importantes recursos a la investigación de esta tecnología. A finales del año pasado, la empresa presentó Genie 2, un modelo capaz de crear mundos interactivos a partir de imágenes. En enero, Google formó un equipo especializado en desarrollar modelos del mundo, liderado por Tim Brooks, quien fuera codirector del proyecto Sora de OpenAI.

Con Genie 3, la compañía alcanza su mayor avance en este campo: se trata del primer modelo del mundo de Google que permite la interacción en tiempo real y mejora notablemente la consistencia y el realismo respecto a su predecesor.

El nuevo algoritmo genera automáticamente entornos virtuales en 3D que los usuarios o agentes de IA pueden explorar “durante varios minutos”. Aunque los desarrolladores no precisan una duración exacta, esta extensión supone un gran salto respecto a los 10 a 20 segundos que ofrecía Genie 2.

Las simulaciones se producen a una resolución de 720 píxeles y 24 fotogramas por segundo. Además, son compatibles con “eventos mundiales con indicaciones”, lo que significa que pueden modificarse mediante comandos que cambien aspectos como el clima o la inclusión de nuevos personajes en la escena.

X content

This content can also be viewed on the site it originates from.

El equipo de Google destaca que una de las mejoras más relevantes de Genie 3 es la capacidad de mantener las características físicas de los espacios durante aproximadamente un minuto. Esto implica que, si un usuario se aleja de una escena y regresa a ella dentro de ese lapso, elementos como un automóvil estacionado, un cuadro colgado o la escritura en una pizarra permanecerán intactos.

Los desarrolladores señalan que alcanzar un alto nivel de control e interactividad en tiempo real requirió avances técnicos significativos. “Durante la generación autorregresiva de cada fotograma, el modelo debe considerar la trayectoria previa, que se acumula con el tiempo. Por ejemplo, si el usuario vuelve a un lugar después de un minuto, el modelo debe recuperar la información correspondiente de hace un minuto. Para mantener la interactividad en tiempo real, este cálculo debe repetirse varias veces por segundo en respuesta a las nuevas entradas”, explican.

Aun con estas mejoras, el sistema presenta limitaciones. Aunque Genie 3 puede “recordar” detalles y permitir recorridos más prolongados, los desarrolladores reconocen que lo ideal sería lograr coherencia durante horas. El modelo tampoco es capaz de reproducir entornos del mundo real y, para añadir texto dentro de las simulaciones, las frases deben incluirse en la indicación inicial que genera el mundo. Como ocurre con otros modelos de IA, también puede presentar alucinaciones y producir elementos incorrectos.

Pese a estas restricciones, Google sostiene que Genie 3 es un avance hacia la inteligencia artificial general. Su capacidad para simular entornos coherentes y físicamente plausibles permite entrenar agentes de IA de propósito general, obligándolos a adaptarse, esforzarse y aprender de la experiencia, de manera similar a los humanos en el mundo físico. “Genie 3 no solo proporciona un espacio amplio para entrenar agentes como robots y sistemas autónomos, sino que también facilita evaluar su rendimiento y detectar debilidades”, explica la empresa.

Actualmente, Genie 3 se encuentra disponible en versión beta para un grupo limitado de académicos, investigadores y creadores de contenido. Con ello, Google busca obtener retroalimentación que le ayude a identificar posibles riesgos del modelo y diseñar medidas para mitigarlos de forma adecuada.