Google está utilizando su potente modelo de lenguaje Gemini AI para entrenar a sus robots, dotándolos de nuevas habilidades de navegación y comprensión del lenguaje natural.
Google ha lanzado una nueva versión de su modelo de inteligencia artificial, Gemini 1.5 Pro, que promete mejorar significativamente la interacción entre humanos y robots. Esta tecnología avanzada está diseñada para facilitar tareas cotidianas mediante instrucciones en lenguaje natural.
Descripción del Avance
Un equipo de investigadores de DeepMind, la división de inteligencia artificial de Google, ha publicado un nuevo artículo de investigación sobre Gemini 1.5 Pro, destacando sus capacidades mejoradas. Este modelo permite a los robots interactuar de forma más intuitiva con los usuarios.
Proceso de Entrenamiento
El entrenamiento de los robots con Gemini 1.5 Pro se lleva a cabo de la siguiente manera:
- Filmación del Entorno: Se graba un video del entorno donde se moverá el robot, como una casa u oficina.
- Análisis del Video: Gemini 1.5 Pro “observa” el video para aprender sobre el entorno, identificando objetos, ubicaciones y relaciones espaciales.
- Instrucciones en Lenguaje Natural: Los usuarios pueden dar instrucciones al robot en lenguaje natural, como “tráeme una cerveza del refrigerador” o “¿dónde está mi teléfono?”.
- Navegación y Tarea: El robot utiliza la información del video y las instrucciones del usuario para navegar y completar la tarea.
Resultados Prometedores
Pruebas con RT-2
Los investigadores de DeepMind han probado esta tecnología con un robot llamado RT-2, y los resultados son prometedores:
- Precisión en Tareas: El robot pudo completar correctamente más del 90% de las instrucciones de los usuarios en un área de operaciones de más de 9,000 pies cuadrados.
- Planificación de Tareas Complejas: Se observó “evidencia preliminar” de que Gemini 1.5 Pro permite al robot planificar cómo realizar tareas más complejas. Por ejemplo, si un usuario le pide al robot que le traiga una Coca-Cola, el robot sabe que debe ir al refrigerador, buscarla y luego informar al usuario.
Limitaciones Actuales
Aunque las demostraciones en video son impresionantes, la tecnología aún está en sus primeras etapas de desarrollo. Según el artículo de investigación:
- Tiempo de Procesamiento: El robot tarda entre 10 y 30 segundos en procesar cada instrucción, lo cual puede parecer lento para un uso cotidiano.
Futuro de la Interacción Humano-Robot
A pesar de las limitaciones actuales, el trabajo de DeepMind representa un avance significativo en el desarrollo de robots que pueden interactuar con los humanos de manera natural y eficiente. Es posible que pase un tiempo antes de que estos robots sean parte de nuestras vidas diarias, pero sin duda tienen el potencial de hacernos la vida más fácil y eficiente.