Gemini Robotics de Google DeepMind lleva la IA al mundo físico

Google DeepMind presentó dos nuevos modelos de inteligencia artificial (IA), basados ​​en Gemini 2.0, que sientan las bases para una nueva generación de robots.

El primero es Gemini Robotics, un modelo avanzado de visión-lenguaje-acción desarrollado sobre Gemini 2.0, con la incorporación de acciones físicas como nueva modalidad de salida para el control directo de robots. 

El segundo es Gemini Robotics-ER, un modelo de Gemini con comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando las capacidades de razonamiento incorporado (ER) de Gemini.

Ambos modelos permiten que diversos robots realicen una gama de tareas reales más amplia que nunca. Asimismo, el gigante tecnológico se asoció con Apptronik para desarrollar la próxima generación de robots humanoides con Gemini 2.0.

Gemini Robotics: un avanzado modelo de visión-lenguaje-acción

Para ser útiles y ayudar a las personas, los modelos de IA para robótica necesitan tres cualidades principales: 

  • Tienen que ser capaces de adaptarse a diferentes situaciones
  • Tienen que ser interactivos, lo que significa que pueden entender y responder rápidamente a instrucciones o cambios en su entorno
  • Tienen que ser diestros: que puedan hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos y dedos, como manipular objetos con cuidado

Gemini Robotics representa un paso sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general, según Google DeepMind.

Pilares para construir un robot útil

  • Generalidad: Gemini Robotics aprovecha su comprensión del mundo para generalizar situaciones novedosas y resolver una amplia variedad de tareas de forma inmediata, incluyendo tareas nunca antes vistas en el entrenamiento. También es experto en el manejo de nuevos objetos, diversas instrucciones y nuevos entornos
  • Interactividad: para operar en nuestro mundo físico y dinámico, los robots deben poder interactuar sin problemas con las personas y su entorno y adaptarse a los cambios sobre la marcha. Gracias a su base Gemini 2.0, Gemini Robotics es intuitivamente interactivo. Aprovecha las capacidades avanzadas de comprensión del lenguaje de Gemini y puede comprender y responder a comandos expresados ​​en lenguaje cotidiano y en diferentes idiomas
  • Destreza: el tercer pilar clave para construir un robot útil es la destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras sorprendentemente finas y aún resultan demasiado difíciles para los robots. En cambio, Gemini Robotics puede abordar tareas extremadamente complejas de varios pasos que requieren una manipulación precisa
  • Realizaciones múltiples: finalmente, dado que los robots vienen en todas las formas y tamaños, Gemini Robotics también fue diseñado para adaptarse fácilmente a diferentes tipos de robots

Gemini Robotics-ER ayuda a mejorar la comprensión del mundo

Google presentó un modelo avanzado de visión y lenguaje llamado Gemini Robotics-ER (abreviatura de «razonamiento incorporado»). 

Este modelo mejora la comprensión del mundo de Gemini de maneras necesarias para la robótica, centrándose especialmente en el razonamiento espacial, y permite a los expertos en robótica conectarlo con sus controladores de bajo nivel existentes.

Gemini Robotics-ER mejora considerablemente las capacidades existentes de Gemini 2.0, como el apuntamiento y la detección 3D. Al combinar el razonamiento espacial con las capacidades de programación de Gemini, Gemini Robotics-ER puede implementar capacidades completamente nuevas sobre la marcha. 

Por ejemplo, al mostrarle una taza de café, el modelo puede intuir un agarre adecuado con dos dedos para agarrarla por el asa y una trayectoria segura para acercarse a ella.

Gemini Robotics-ER puede realizar todos los pasos necesarios para controlar un robot desde el primer momento, incluyendo percepción, estimación de estado, comprensión espacial, planificación y generación de código. 

En este entorno integral, el modelo alcanza una tasa de éxito entre el doble y el triple en comparación con Gemini 2.0. Y cuando la generación de código no es suficiente, Gemini Robotics-ER puede incluso aprovechar el potencial del aprendizaje en contexto, siguiendo los patrones de unas pocas demostraciones humanas para ofrecer una solución.

No dejes de leer: Novedades en Google Chrome: descubre estas cuatro nuevas funcionalidades


Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy

Instagram

X (Twitter)

TikTok

YouTube

Más del Autor

Artículos Relacionados

Últimas publicaiones

OnePlus 16 busca conquistar la cima de la fotografía con zoom de 200 MP

De acuerdo con información compartida por Android Authority y el reconocido filtrador Digital Chat Station, el OnePlus 16 está probando un sensor de 200...

Google potencia Workspace: nuevas funciones de IA para optimizar tu trabajo

Google anunció este martes nuevas funciones de IA basadas en Gemini para Workspace. Es decir, para su espacio de trabajo integrado por Documentos, Hojas...

Lentes con IA y pagos biométricos, el secreto de Xiaomi para ignorar la billetera

El mercado de las lentes inteligentes con IA ha dejado de ser una promesa para convertirse en un aliado de la electrónica de consumo...

X potencia a los creadores con novedades exclusivas en sus suscripciones

La compañía X, propiedad de Elon Musk, está renovando la oferta de suscripciones para creadores de contenido en la red social con novedades exclusivas....

El Samsung Galaxy S26 Ultra gana el premio Best in Show en los GLOMO 2026

La Asociación GSM (GSMA) que organiza los Global Mobile Awards (GLOMO Awards) le otorgó el premio Best in Show al nuevo smartphone Galaxy S26...