Gemini Robotics de Google DeepMind lleva la IA al mundo físico

Google DeepMind presentó dos nuevos modelos de inteligencia artificial (IA), basados en Gemini 2.0, que sientan las bases para una nueva generación de robots.

El primero es Gemini Robotics, un modelo avanzado de visión-lenguaje-acción desarrollado sobre Gemini 2.0, con la incorporación de acciones físicas como nueva modalidad de salida para el control directo de robots.

El segundo es Gemini Robotics-ER, un modelo de Gemini con comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando las capacidades de razonamiento incorporado (ER) de Gemini.

Ambos modelos permiten que diversos robots realicen una gama de tareas reales más amplia que nunca. Asimismo, el gigante tecnológico se asoció con Apptronik para desarrollar la próxima generación de robots humanoides con Gemini 2.0.

Gemini Robotics: un avanzado modelo de visión-lenguaje-acción

Para ser útiles y ayudar a las personas, los modelos de IA para robótica necesitan tres cualidades principales:

Tienen que ser capaces de adaptarse a diferentes situaciones
Tienen que ser interactivos, lo que significa que pueden entender y responder rápidamente a instrucciones o cambios en su entorno
Tienen que ser diestros: que puedan hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos y dedos, como manipular objetos con cuidado

Gemini Robotics representa un paso sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general, según Google DeepMind.

Pilares para construir un robot útil

Generalidad: Gemini Robotics aprovecha su comprensión del mundo para generalizar situaciones novedosas y resolver una amplia variedad de tareas de forma inmediata, incluyendo tareas nunca antes vistas en el entrenamiento. También es experto en el manejo de nuevos objetos, diversas instrucciones y nuevos entornos
Interactividad: para operar en nuestro mundo físico y dinámico, los robots deben poder interactuar sin problemas con las personas y su entorno y adaptarse a los cambios sobre la marcha. Gracias a su base Gemini 2.0, Gemini Robotics es intuitivamente interactivo. Aprovecha las capacidades avanzadas de comprensión del lenguaje de Gemini y puede comprender y responder a comandos expresados en lenguaje cotidiano y en diferentes idiomas
Destreza: el tercer pilar clave para construir un robot útil es la destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras sorprendentemente finas y aún resultan demasiado difíciles para los robots. En cambio, Gemini Robotics puede abordar tareas extremadamente complejas de varios pasos que requieren una manipulación precisa
Realizaciones múltiples: finalmente, dado que los robots vienen en todas las formas y tamaños, Gemini Robotics también fue diseñado para adaptarse fácilmente a diferentes tipos de robots

Gemini Robotics-ER ayuda a mejorar la comprensión del mundo

Google presentó un modelo avanzado de visión y lenguaje llamado Gemini Robotics-ER (abreviatura de «razonamiento incorporado»).

Este modelo mejora la comprensión del mundo de Gemini de maneras necesarias para la robótica, centrándose especialmente en el razonamiento espacial, y permite a los expertos en robótica conectarlo con sus controladores de bajo nivel existentes.

Gemini Robotics-ER mejora considerablemente las capacidades existentes de Gemini 2.0, como el apuntamiento y la detección 3D. Al combinar el razonamiento espacial con las capacidades de programación de Gemini, Gemini Robotics-ER puede implementar capacidades completamente nuevas sobre la marcha.

Por ejemplo, al mostrarle una taza de café, el modelo puede intuir un agarre adecuado con dos dedos para agarrarla por el asa y una trayectoria segura para acercarse a ella.

Gemini Robotics-ER puede realizar todos los pasos necesarios para controlar un robot desde el primer momento, incluyendo percepción, estimación de estado, comprensión espacial, planificación y generación de código.

En este entorno integral, el modelo alcanza una tasa de éxito entre el doble y el triple en comparación con Gemini 2.0. Y cuando la generación de código no es suficiente, Gemini Robotics-ER puede incluso aprovechar el potencial del aprendizaje en contexto, siguiendo los patrones de unas pocas demostraciones humanas para ofrecer una solución.

No dejes de leer: Novedades en Google Chrome: descubre estas cuatro nuevas funcionalidades

Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy