Gemini Robotics de Google DeepMind lleva la IA al mundo físico

Google DeepMind presentó dos nuevos modelos de inteligencia artificial (IA), basados ​​en Gemini 2.0, que sientan las bases para una nueva generación de robots.

El primero es Gemini Robotics, un modelo avanzado de visión-lenguaje-acción desarrollado sobre Gemini 2.0, con la incorporación de acciones físicas como nueva modalidad de salida para el control directo de robots. 

El segundo es Gemini Robotics-ER, un modelo de Gemini con comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando las capacidades de razonamiento incorporado (ER) de Gemini.

Ambos modelos permiten que diversos robots realicen una gama de tareas reales más amplia que nunca. Asimismo, el gigante tecnológico se asoció con Apptronik para desarrollar la próxima generación de robots humanoides con Gemini 2.0.

Gemini Robotics: un avanzado modelo de visión-lenguaje-acción

Para ser útiles y ayudar a las personas, los modelos de IA para robótica necesitan tres cualidades principales: 

  • Tienen que ser capaces de adaptarse a diferentes situaciones
  • Tienen que ser interactivos, lo que significa que pueden entender y responder rápidamente a instrucciones o cambios en su entorno
  • Tienen que ser diestros: que puedan hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos y dedos, como manipular objetos con cuidado

Gemini Robotics representa un paso sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general, según Google DeepMind.

Pilares para construir un robot útil

  • Generalidad: Gemini Robotics aprovecha su comprensión del mundo para generalizar situaciones novedosas y resolver una amplia variedad de tareas de forma inmediata, incluyendo tareas nunca antes vistas en el entrenamiento. También es experto en el manejo de nuevos objetos, diversas instrucciones y nuevos entornos
  • Interactividad: para operar en nuestro mundo físico y dinámico, los robots deben poder interactuar sin problemas con las personas y su entorno y adaptarse a los cambios sobre la marcha. Gracias a su base Gemini 2.0, Gemini Robotics es intuitivamente interactivo. Aprovecha las capacidades avanzadas de comprensión del lenguaje de Gemini y puede comprender y responder a comandos expresados ​​en lenguaje cotidiano y en diferentes idiomas
  • Destreza: el tercer pilar clave para construir un robot útil es la destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras sorprendentemente finas y aún resultan demasiado difíciles para los robots. En cambio, Gemini Robotics puede abordar tareas extremadamente complejas de varios pasos que requieren una manipulación precisa
  • Realizaciones múltiples: finalmente, dado que los robots vienen en todas las formas y tamaños, Gemini Robotics también fue diseñado para adaptarse fácilmente a diferentes tipos de robots

Gemini Robotics-ER ayuda a mejorar la comprensión del mundo

Google presentó un modelo avanzado de visión y lenguaje llamado Gemini Robotics-ER (abreviatura de «razonamiento incorporado»). 

Este modelo mejora la comprensión del mundo de Gemini de maneras necesarias para la robótica, centrándose especialmente en el razonamiento espacial, y permite a los expertos en robótica conectarlo con sus controladores de bajo nivel existentes.

Gemini Robotics-ER mejora considerablemente las capacidades existentes de Gemini 2.0, como el apuntamiento y la detección 3D. Al combinar el razonamiento espacial con las capacidades de programación de Gemini, Gemini Robotics-ER puede implementar capacidades completamente nuevas sobre la marcha. 

Por ejemplo, al mostrarle una taza de café, el modelo puede intuir un agarre adecuado con dos dedos para agarrarla por el asa y una trayectoria segura para acercarse a ella.

Gemini Robotics-ER puede realizar todos los pasos necesarios para controlar un robot desde el primer momento, incluyendo percepción, estimación de estado, comprensión espacial, planificación y generación de código. 

En este entorno integral, el modelo alcanza una tasa de éxito entre el doble y el triple en comparación con Gemini 2.0. Y cuando la generación de código no es suficiente, Gemini Robotics-ER puede incluso aprovechar el potencial del aprendizaje en contexto, siguiendo los patrones de unas pocas demostraciones humanas para ofrecer una solución.

No dejes de leer: Novedades en Google Chrome: descubre estas cuatro nuevas funcionalidades

Más del Autor

Artículos Relacionados

Últimas publicaiones

JBL Grip: descubre el altavoz portátil ideal para personas aventureras

La marca JBL presentó a Grip, su nuevo altavoz Bluetooth portátil, diseñado para que el usuario pueda llevarla a todas partes y escuchar música...

Los videojuegos más estresantes, medidos por el aumento de los latidos por minuto

Jugar videojuegos puede ser una actividad recreativa que termina siendo mentalmente demandante, ¿pero te has preguntado alguna vez qué títulos son los más estrés...

WordPress dio a conocer la herramienta de IA Telex AI, ¿de qué se trata?

El CMS WordPress presentó Telex AI, una herramienta experimental basada en inteligencia artificial (IA) diseñada para simplificar la creación de bloques personalizados para su...

Estos fueron los cinco mejores gadgets presentados en el primer semestre del año

Los gadgets son dispositivos tecnológicos que cumplen una función específica según sea el producto, pero el punto en común es que facilitan algún aspecto...

Samsung Odyssey G7: los nuevos monitores para una mejor experiencia de juego

Samsung presentó sus nuevos monitores gaming Odyssey G7 de 37” y 40”, unos dispositivos creados para ofrecer a los usuarios una experiencia de juego...