Publicidad

Google consigue construir robots más inteligentes gracias a los nuevos lenguajes de inteligencia artificial

Se está produciendo una revolución silenciosa en la robótica, una que aprovecha los avances recientes en los llamados grandes modelos de lenguaje utilizados por ChatGPT, Bard y otros chatbots

Compartir esta noticia
Los robots PaLM-SayCan de Google utilizan modelos de lenguaje de inteligencia artificial para comprender que recoger una esponja es útil para alguien que necesita ayuda con una bebida derramada
Los robots PaLM-SayCan de Google utilizan modelos de lenguaje de inteligencia artificial para comprender que recoger una esponja es útil para alguien que necesita ayuda con una bebida derramada
Foto: Stephen Shankland/CNET

Este contenido es exclusivo para nuestros suscriptores.
Kevin Roose / The New York Times
Un robot con un solo brazo estaba parado frente a una mesa. Sobre la mesa había tres figuritas de plástico: un león, una ballena y un dinosaurio. Un ingeniero le dio una instrucción al robot: “Recoge al animal extinto”. El robot zumbó por un momento, luego su brazo se extendió y su garra se abrió y descendió. Agarró al dinosaurio.

Hasta hace muy poco, esta demostración, de la que fui testigo durante una entrevista en un podcast en la división de robótica de Google en Mountain View, California, la semana pasada, hubiera sido imposible. Los robots no podían manipular de manera confiable objetos que nunca antes habían visto, y ciertamente no eran capaces de dar el salto lógico de "animal extinto" a "dinosaurio de plástico". 

Pero se está produciendo una revolución silenciosa en la robótica, una que aprovecha los avances recientes en los llamados grandes modelos de lenguaje, el mismo tipo de sistema de inteligencia artificial que impulsa a ChatGPT, Bard y otros chatbots

Google ha comenzado recientemente a conectar modelos de lenguaje de última generación en sus robots, dándoles el equivalente a cerebros artificiales. El proyecto secreto ha hecho que los robots sean mucho más inteligentes y les ha dado nuevos poderes de comprensión y resolución de problemas.

Oficinas de Google.
Oficinas de Google.
Foto: AFP

Tuve un vistazo de ese progreso durante una demostración privada del último modelo de robótica de Google, llamado RT-2. El modelo, que se dio a conocer el viernes pasado, equivale a un primer paso hacia lo que los ejecutivos de Google describieron como un gran salto en la forma en que se construyen y programan los robots.

 “Tuvimos que reconsiderar todo nuestro programa de investigación como resultado de este cambio”, dijo Vincent Vanhoucke, director de robótica de Google DeepMind. “Muchas de las cosas en las que estábamos trabajando antes se han invalidado por completo”.

Los robots aún no alcanzan la destreza a nivel humano y fallan en algunas tareas básicas, pero el uso de modelos de lenguaje de IA por parte de Google para brindarles a los robots nuevas habilidades de razonamiento e improvisación representa un avance prometedor, dijo Ken Goldberg, profesor de robótica en la Universidad de California. Berkeley.

“Lo que es muy impresionante es cómo vincula la semántica con los robots”, dijo. “Eso es muy emocionante para la robótica”.

Para comprender la magnitud de esto, ayuda saber un poco sobre cómo se han construido los robots convencionalmente.

Durante años, la forma en que los ingenieros de Google y otras empresas entrenaron a los robots para realizar una tarea mecánica (dar la vuelta a una hamburguesa, por ejemplo) fue programándolos con una lista específica de instrucciones. (Baje la espátula 6,5 pulgadas, deslícela hacia adelante hasta que encuentre resistencia, levántela 4,2 pulgadas, gírela 180 grados y así sucesivamente). Luego, los robots practicarían la tarea una y otra vez, y los ingenieros ajustarían las instrucciones cada vez hasta que entendieran bien.

Este enfoque funcionó para ciertos usos limitados. Pero entrenar robots de esta manera es lento y laborioso. Requiere recopilar muchos datos de pruebas del mundo real. Y si querías enseñarle a un robot a hacer algo nuevo, por ejemplo, darle la vuelta a un panqueque en lugar de una hamburguesa, generalmente tenías que reprogramarlo desde cero.

En parte debido a estas limitaciones, los robots de hardware han mejorado menos rápidamente que sus hermanos basados en software. OpenAI, el fabricante de ChatGPT, disolvió su equipo de robótica en 2021, citando un progreso lento y la falta de datos de capacitación de alta calidad. En 2017, la empresa matriz de Google, Alphabet, vendió Boston Dynamics, una empresa de robótica que había adquirido, al conglomerado tecnológico japonés SoftBank. (Boston Dynamics ahora es propiedad de Hyundai y parece existir principalmente para producir videos virales de robots humanoides que realizan aterradoras proezas de agilidad).

Una nueva idea

En los últimos años, los investigadores de Google tuvieron una idea. ¿Qué pasaría si, en lugar de programarse para tareas específicas una por una, los robots pudieran usar un modelo de lenguaje de IA, uno que haya sido entrenado en vastas franjas de texto de Internet, para aprender nuevas habilidades por sí mismos?

“Comenzamos a jugar con estos modelos de lenguaje hace unos dos años, y luego nos dimos cuenta de que tienen mucho conocimiento”, dijo Karol Hausman, científica investigadora de Google. “Entonces comenzamos a conectarlos a robots”.

El primer intento de Google de unir modelos de lenguaje y robots físicos fue un proyecto de investigación llamado PaLM-SayCan, que se reveló el año pasado. Generó algo de atención, pero su utilidad fue limitada. Los robots carecían de la capacidad de interpretar imágenes, una habilidad crucial si quieres que puedan navegar por el mundo. Podían escribir instrucciones paso a paso para diferentes tareas, pero no podían convertir esos pasos en acciones.

Robot con inteligencia artificial
Robot con inteligencia artificial.

 El nuevo modelo de robótica de Google, RT-2, puede hacer precisamente eso. Es lo que la compañía llama un modelo de "visión-lenguaje-acción", o un sistema de inteligencia artificial que tiene la capacidad no solo de ver y analizar el mundo que lo rodea, sino también de decirle a un robot cómo moverse.

Lo hace traduciendo los movimientos del robot en una serie de números, un proceso llamado tokenización, e incorporando esos tokens en los mismos datos de entrenamiento que el modelo de lenguaje. Eventualmente, así como ChatGPT o Bard aprenden a adivinar qué palabras deben aparecer a continuación en un poema o un ensayo de historia, RT-2 puede aprender a adivinar cómo debe moverse el brazo de un robot para recoger una pelota o arrojar una lata de refresco vacía a la basura.

 “En otras palabras, este modelo puede aprender a hablar como robot”, dijo Hausman.

Algunas fallas

En una demostración de una hora, que tuvo lugar en la cocina de una oficina de Google llena de objetos de una tienda de dólar, mi coanfitrión de podcast y yo vimos a RT-2 realizar una serie de tareas impresionantes. Uno estaba siguiendo con éxito instrucciones complejas como "mueva el Volkswagen a la bandera alemana", lo que hizo RT-2 al encontrar y enganchar un autobús VW modelo y colocarlo en una bandera alemana en miniatura a varios pies de distancia.

También demostró ser capaz de seguir instrucciones en idiomas distintos al inglés e incluso de hacer conexiones abstractas entre conceptos relacionados. Una vez, cuando quería que RT-2 recogiera una pelota de fútbol, le dije que "recogera a Lionel Messi". RT-2 lo hizo bien en el primer intento.

El robot no era perfecto. Identificó incorrectamente el sabor de una lata de LaCroix colocada sobre la mesa frente a él. (La lata era limón; RT-2 supuso naranja). En otra ocasión, cuando se le preguntó qué tipo de fruta había en una mesa, el robot simplemente respondió: "Blanco". (Era una banana). Un portavoz de Google dijo que el robot había usado una respuesta almacenada en caché a la pregunta de un probador anterior porque su Wi-Fi se había ido brevemente.

Google no tiene planes inmediatos de vender robots RT-2 o lanzarlos más ampliamente, pero sus investigadores creen que estas nuevas máquinas equipadas con lenguaje eventualmente serán útiles para algo más que trucos de salón. Los robots con modelos de lenguaje incorporados podrían colocarse en almacenes, usarse en medicina o incluso implementarse como asistentes domésticos: doblar la ropa, descargar el lavavajillas o recoger cosas de la casa, dijeron.

“Esto realmente abre el uso de robots en entornos donde hay personas”, dijo Vanhoucke. “En entornos de oficina, en entornos domésticos, en todos los lugares donde hay muchas tareas físicas que deben realizarse”.

¿Encontraste un error?

Reportar

Temas relacionados

premium

Te puede interesar

Publicidad

Publicidad