Gemini Robotics de Google DeepMind lleva la IA al mundo físico

Google DeepMind presentó dos nuevos modelos de inteligencia artificial (IA), basados ​​en Gemini 2.0, que sientan las bases para una nueva generación de robots.

El primero es Gemini Robotics, un modelo avanzado de visión-lenguaje-acción desarrollado sobre Gemini 2.0, con la incorporación de acciones físicas como nueva modalidad de salida para el control directo de robots. 

El segundo es Gemini Robotics-ER, un modelo de Gemini con comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando las capacidades de razonamiento incorporado (ER) de Gemini.

Ambos modelos permiten que diversos robots realicen una gama de tareas reales más amplia que nunca. Asimismo, el gigante tecnológico se asoció con Apptronik para desarrollar la próxima generación de robots humanoides con Gemini 2.0.

Gemini Robotics: un avanzado modelo de visión-lenguaje-acción

Para ser útiles y ayudar a las personas, los modelos de IA para robótica necesitan tres cualidades principales: 

  • Tienen que ser capaces de adaptarse a diferentes situaciones
  • Tienen que ser interactivos, lo que significa que pueden entender y responder rápidamente a instrucciones o cambios en su entorno
  • Tienen que ser diestros: que puedan hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos y dedos, como manipular objetos con cuidado

Gemini Robotics representa un paso sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general, según Google DeepMind.

Pilares para construir un robot útil

  • Generalidad: Gemini Robotics aprovecha su comprensión del mundo para generalizar situaciones novedosas y resolver una amplia variedad de tareas de forma inmediata, incluyendo tareas nunca antes vistas en el entrenamiento. También es experto en el manejo de nuevos objetos, diversas instrucciones y nuevos entornos
  • Interactividad: para operar en nuestro mundo físico y dinámico, los robots deben poder interactuar sin problemas con las personas y su entorno y adaptarse a los cambios sobre la marcha. Gracias a su base Gemini 2.0, Gemini Robotics es intuitivamente interactivo. Aprovecha las capacidades avanzadas de comprensión del lenguaje de Gemini y puede comprender y responder a comandos expresados ​​en lenguaje cotidiano y en diferentes idiomas
  • Destreza: el tercer pilar clave para construir un robot útil es la destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras sorprendentemente finas y aún resultan demasiado difíciles para los robots. En cambio, Gemini Robotics puede abordar tareas extremadamente complejas de varios pasos que requieren una manipulación precisa
  • Realizaciones múltiples: finalmente, dado que los robots vienen en todas las formas y tamaños, Gemini Robotics también fue diseñado para adaptarse fácilmente a diferentes tipos de robots

Gemini Robotics-ER ayuda a mejorar la comprensión del mundo

Google presentó un modelo avanzado de visión y lenguaje llamado Gemini Robotics-ER (abreviatura de «razonamiento incorporado»). 

Este modelo mejora la comprensión del mundo de Gemini de maneras necesarias para la robótica, centrándose especialmente en el razonamiento espacial, y permite a los expertos en robótica conectarlo con sus controladores de bajo nivel existentes.

Gemini Robotics-ER mejora considerablemente las capacidades existentes de Gemini 2.0, como el apuntamiento y la detección 3D. Al combinar el razonamiento espacial con las capacidades de programación de Gemini, Gemini Robotics-ER puede implementar capacidades completamente nuevas sobre la marcha. 

Por ejemplo, al mostrarle una taza de café, el modelo puede intuir un agarre adecuado con dos dedos para agarrarla por el asa y una trayectoria segura para acercarse a ella.

Gemini Robotics-ER puede realizar todos los pasos necesarios para controlar un robot desde el primer momento, incluyendo percepción, estimación de estado, comprensión espacial, planificación y generación de código. 

En este entorno integral, el modelo alcanza una tasa de éxito entre el doble y el triple en comparación con Gemini 2.0. Y cuando la generación de código no es suficiente, Gemini Robotics-ER puede incluso aprovechar el potencial del aprendizaje en contexto, siguiendo los patrones de unas pocas demostraciones humanas para ofrecer una solución.

No dejes de leer: Novedades en Google Chrome: descubre estas cuatro nuevas funcionalidades


Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy

Instagram

X (Twitter)

TikTok

YouTube

Más del Autor

Artículos Relacionados

Últimas publicaiones

Meta destaca entre las empresas más sostenibles por sus centros de datos

La compañía tecnológica Meta destacó entre las 250 empresas más sostenibles del mundo en 2025, debido a la construcción de centros de datos sostenibles,...

Meta elimina cuentas de menores en Australia por nueva ley de redes sociales

Meta anunció el jueves 4 de diciembre de 2025 que comenzó a eliminar las cuentas de menores de 16 años en las redes sociales...

Healthify lanza actualización de su asistente Ria: usuarios podrán conversar por voz

La empresa tecnológica dedicada al área de la salud, Healthify, que está respaldada por la firma Khosla, lanzó esta semana una actualización de su...

Tendencias de búsqueda en Google 2025: Gemini, deportes y noticias

Google reveló en un informe cuáles fueron las tendencias de búsqueda más populares a escala global durante el año 2025, donde los protagonistas fueron...

Sam Altman declara «código rojo» en OpenAI para optimizar ChatGPT

El CEO de OpenAI, Sam Altman, declaró una alerta de “código rojo” en la compañía estadounidense para mejorar con rapidez las funciones de personalización...