Gemini AI está haciendo que los robots de Google sean más inteligentes

Google está utilizando su potente modelo de lenguaje Gemini AI para entrenar a sus robots, dotándolos de nuevas habilidades de navegación y comprensión del lenguaje natural.

Relacionados

El poder de la IA en la investigación científica: superbacterias reveladas

Ciencia

Presentación del iPhone 16e: características, especificaciones y precio en España.

Dispositivos

Cupra Tavascan: el SUV eléctrico emblemático del futuro automotriz.

Electromovilidad

Google ha lanzado una nueva versión de su modelo de inteligencia artificial, Gemini 1.5 Pro, que promete mejorar significativamente la interacción entre humanos y robots. Esta tecnología avanzada está diseñada para facilitar tareas cotidianas mediante instrucciones en lenguaje natural.

Descripción del Avance

Un equipo de investigadores de DeepMind, la división de inteligencia artificial de Google, ha publicado un nuevo artículo de investigación sobre Gemini 1.5 Pro, destacando sus capacidades mejoradas. Este modelo permite a los robots interactuar de forma más intuitiva con los usuarios.

Proceso de Entrenamiento

El entrenamiento de los robots con Gemini 1.5 Pro se lleva a cabo de la siguiente manera:

Filmación del Entorno: Se graba un video del entorno donde se moverá el robot, como una casa u oficina.
Análisis del Video: Gemini 1.5 Pro “observa” el video para aprender sobre el entorno, identificando objetos, ubicaciones y relaciones espaciales.
Instrucciones en Lenguaje Natural: Los usuarios pueden dar instrucciones al robot en lenguaje natural, como “tráeme una cerveza del refrigerador” o “¿dónde está mi teléfono?”.
Navegación y Tarea: El robot utiliza la información del video y las instrucciones del usuario para navegar y completar la tarea.

Resultados Prometedores

Pruebas con RT-2

Los investigadores de DeepMind han probado esta tecnología con un robot llamado RT-2, y los resultados son prometedores:

Precisión en Tareas: El robot pudo completar correctamente más del 90% de las instrucciones de los usuarios en un área de operaciones de más de 9,000 pies cuadrados.
Planificación de Tareas Complejas: Se observó “evidencia preliminar” de que Gemini 1.5 Pro permite al robot planificar cómo realizar tareas más complejas. Por ejemplo, si un usuario le pide al robot que le traiga una Coca-Cola, el robot sabe que debe ir al refrigerador, buscarla y luego informar al usuario.

Limitaciones Actuales

Aunque las demostraciones en video son impresionantes, la tecnología aún está en sus primeras etapas de desarrollo. Según el artículo de investigación:

Tiempo de Procesamiento: El robot tarda entre 10 y 30 segundos en procesar cada instrucción, lo cual puede parecer lento para un uso cotidiano.

Futuro de la Interacción Humano-Robot

A pesar de las limitaciones actuales, el trabajo de DeepMind representa un avance significativo en el desarrollo de robots que pueden interactuar con los humanos de manera natural y eficiente. Es posible que pase un tiempo antes de que estos robots sean parte de nuestras vidas diarias, pero sin duda tienen el potencial de hacernos la vida más fácil y eficiente.

Gemini AI está haciendo que los robots de Google sean más inteligentes

Relacionados

El poder de la IA en la investigación científica: superbacterias reveladas

Presentación del iPhone 16e: características, especificaciones y precio en España.

Cupra Tavascan: el SUV eléctrico emblemático del futuro automotriz.

Descripción del Avance

Proceso de Entrenamiento

Resultados Prometedores

Pruebas con RT-2

Limitaciones Actuales

Futuro de la Interacción Humano-Robot

Podría Interesarte

Santander y Google lanzan curso gratuito en inteligencia artificial y productividad

Dos móviles de gama media con diseño de gama alta

Qué son las páginas web AMP, cómo funcionan y qué ventajas y desventajas tienen

Técnica Espacial para Identificar Deepfakes en Internet