Este nuevo desafío de robótica podría acercarnos a la IA a nivel humano


Desde las primeras décadas de la inteligencia artificial, los robots humanoides han sido un elemento básico de los libros, películas y dibujos animados de ciencia ficción. Sin embargo, después de décadas de investigación y desarrollo en IA, todavía no tenemos nada que se acerque a Rosey the Robot de los Supersónicos.

Esto se debe a que muchas de nuestras habilidades motoras y de planificación intuitiva, cosas que damos por sentado, son mucho más complicadas de lo que pensamos. Navegar por zonas desconocidas, encontrar y recoger objetos, elegir rutas y planificar tareas son hazañas complicadas que solo apreciamos cuando intentamos convertirlas en programas informáticos.

Desarrollar robots que puedan sentir físicamente el mundo e interactuar con su entorno es el ámbito de la inteligencia artificial incorporada, uno de los objetivos largamente buscados por los científicos de IA. Y aunque el progreso en el campo todavía está muy lejos de las capacidades de los seres humanos y los animales, los logros son notables.

En un desarrollo reciente en IA incorporada, los científicos de IBM, el Instituto de Tecnología de Massachusetts y la Universidad de Stanford desarrollaron un nuevo desafío que ayudará a evaluar la capacidad de los agentes de IA para encontrar caminos, interactuar con objetos y planificar tareas de manera eficiente. Titulado «Desafío de transporte de ThreeDWorld, ”La prueba es un entorno virtual que se presentará en el Taller de IA incorporada durante la Conferencia sobre Visión por Computador y Reconocimiento de Patrones, realizada en línea en junio.

Ninguna técnica de IA actual se acerca a resolver el TDW Transport Challenge. Pero los resultados de la competencia pueden ayudar a encontrar nuevas direcciones para el futuro de la IA incorporada y la investigación robótica.

Aprendizaje reforzado en entornos virtuales

En el corazón de la mayoría de las aplicaciones robóticas se encuentra aprendizaje reforzado, una rama del aprendizaje automático que se basa en acciones, estados y recompensas. Un agente de aprendizaje por refuerzo recibe un conjunto de acciones que puede aplicar a su entorno para obtener recompensas o alcanzar una determinada meta. Estas acciones crean cambios en el estado del agente y el medio ambiente. El agente de RL recibe recompensas en función de cómo sus acciones lo acercan a su objetivo.

Los agentes de RL generalmente comienzan sin saber nada sobre su entorno y seleccionan acciones aleatorias. A medida que reciben retroalimentación de su entorno, aprenden secuencias de acciones que pueden maximizar sus recompensas.

Este esquema se utiliza no solo en robótica, sino en muchas otras aplicaciones, como automóviles autónomos y recomendación de contenido. El aprendizaje por refuerzo también ha ayudado a los investigadores dominar juegos complicados como Go, StarCraft 2 y DOTA.

La creación de modelos de aprendizaje por refuerzo presenta varios desafíos. Uno de ellos es diseñar el conjunto correcto de estados, recompensas y acciones, lo que puede ser muy difícil en aplicaciones como la robótica, donde los agentes enfrentan un entorno continuo que se ve afectado por factores complicados como la gravedad, el viento y las interacciones físicas con otros. objetos (en contraste, entornos como el ajedrez y el Go tienen estados y acciones muy discretos).

Otro desafío es la recopilación de datos de entrenamiento. Los agentes de aprendizaje por refuerzo necesitan entrenarse con datos de millones de episodios de interacciones con sus entornos. Esta restricción puede ralentizar las aplicaciones de robótica porque deben recopilar sus datos del mundo físico en lugar de los videojuegos y los juegos de mesa, que se pueden jugar en rápida sucesión en varias computadoras.

Para superar esta barrera, los investigadores de IA han intentado crear entornos simulados para aplicaciones de aprendizaje por refuerzo. Hoy en día, los automóviles autónomos y la robótica a menudo utilizan entornos simulados como una parte importante de su régimen de entrenamiento.

«Los modelos de entrenamiento que utilizan robots reales pueden ser costosos y, a veces, implican consideraciones de seguridad», dijo Chuang Gan, miembro principal del personal de investigación del MIT-IBM Watson AI Lab. TechTalks. «Como resultado, ha habido una tendencia hacia la incorporación de simuladores, como el que ofrece el TDW-Transport Challenge, para entrenar y evaluar algoritmos de IA».

Pero replicar la dinámica exacta del mundo físico es extremadamente difícil, y la mayoría de los entornos simulados son una aproximación aproximada de lo que enfrentaría un agente de aprendizaje reforzado en el mundo real. Para abordar esta limitación, el equipo de TDW Transport Challenge ha hecho todo lo posible para que el entorno de prueba sea lo más realista posible.

El medio ambiente está construido sobre el Plataforma ThreeDWorld, que los autores describen como «una plataforma de simulación de mundo virtual de uso general que admite tanto la reproducción de imágenes casi realistas como la foto, la reproducción de sonido basada en la física y las interacciones físicas realistas entre objetos y agentes».

«Nuestro objetivo era utilizar un simulador de entorno virtual físico más avanzado para definir una nueva tarea de IA incorporada que requiera que un agente cambie los estados de múltiples objetos bajo restricciones físicas realistas», escriben los investigadores en un documento de acompañamiento.

Planificación de tareas y movimientos

Las pruebas de aprendizaje por refuerzo tienen diferentes grados de dificultad. La mayoría de las pruebas actuales involucran tareas de navegación, donde un agente de RL debe encontrar su camino a través de un entorno virtual basado en entradas visuales y de audio.

El TDW Transport Challenge, por otro lado, enfrenta a los agentes de aprendizaje por refuerzo con problemas de “planificación de tareas y movimientos” (TAMP). TAMP requiere que el agente no solo encuentre rutas de movimiento óptimas, sino que también cambie el estado de los objetos para lograr su objetivo.

El desafío tiene lugar en una casa de varias habitaciones adornada con muebles, objetos y contenedores. El agente de aprendizaje por refuerzo ve el entorno desde una perspectiva en primera persona y debe encontrar uno o varios objetos de las habitaciones y reunirlos en un destino específico. El agente es un robot de dos brazos, por lo que solo puede transportar dos objetos a la vez. Alternativamente, puede utilizar un contenedor para transportar varios objetos y reducir el número de viajes que tiene que hacer.

En cada paso, el agente de RL puede elegir una de varias acciones, como girar, avanzar o levantar un objeto. El agente recibe una recompensa si realiza la tarea de transferencia en un número limitado de pasos.

Si bien este parece ser el tipo de problema que cualquier niño podría resolver sin mucho entrenamiento, de hecho es una tarea complicada para los sistemas de IA actuales. El programa de aprendizaje reforzado debe encontrar el equilibrio adecuado entre explorar las habitaciones, encontrar caminos óptimos hacia el destino, elegir entre llevar objetos solos o en contenedores y hacer todo esto dentro del presupuesto de paso designado.

«A través del TDW-Transport Challenge, estamos proponiendo un nuevo desafío de IA incorporado», dijo Gan. «Específicamente, un agente robótico debe tomar acciones para mover y cambiar el estado de una gran cantidad de objetos en un entorno virtual fotográfico y físicamente realista que sigue siendo un objetivo complejo en robótica».

Resumen de desafíos para agentes de IA

En ThreeDWorld Transport Challenge, el agente de IA puede ver el mundo a través de mapas de color, profundidad y segmentación.

Si bien TDW es un entorno simulado muy complejo, los diseñadores aún han resumido algunos de los desafíos que enfrentarían los robots en el mundo real. El agente robot virtual, apodado Magnebot, tiene dos brazos con nueve grados de libertad con articulaciones en el hombro, el codo y la muñeca. Sin embargo, las manos del robot son imanes y pueden coger cualquier objeto sin necesidad de manipularlo con los dedos. que en sí misma es una tarea muy desafiante.

Vista en primera persona del desafío TDW

El agente también percibe el entorno de tres formas diferentes, un marco de color RGB, un mapa de profundidad y un mapa de segmentación que muestra cada objeto por separado en colores fuertes. Los mapas de profundidad y segmentación facilitan al agente de IA leer las dimensiones de la escena y diferenciar los objetos cuando se ven desde ángulos incómodos.

Para evitar confusiones, los problemas se plantean en una estructura simple (p. Ej., «Jarrón: 2, cuenco: 2, jarra: 1; cama») en lugar de comandos de lenguaje sueltos (p. Ej., «Coge dos cuencos, un par de jarrones, y la jarra en el dormitorio, y ponlos todos sobre la cama ”).

Y para simplificar el estado y el espacio de acción, los investigadores han limitado la navegación del Magnebot a movimientos de 25 centímetros y rotaciones de 15 grados.

Estas simplificaciones permiten a los desarrolladores centrarse en los problemas de navegación y planificación de tareas que los agentes de IA deben superar en el entorno TDW.

Gan dijo TechTalks que a pesar de los niveles de abstracción introducidos en TDW, el robot aún necesita abordar los siguientes desafíos:

  • La sinergia entre navegación e interacción: El agente no puede moverse para agarrar un objeto si este objeto no está en la vista egocéntrica, o si el camino directo hacia él está obstruido.
  • Interacción consciente de la física: el agarre puede fallar si el brazo del agente no puede alcanzar un objeto.
  • Navegación consciente de la física: colisión con obstáculos pueden provocar la caída de objetos y obstaculizar significativamente la eficiencia del transporte.

Esto hace que uno aprecie la complejidad de la visión y la agencia humanas. La próxima vez que vaya a un supermercado, considere la facilidad con la que puede orientarse por los pasillos, distinguir la diferencia entre los diferentes productos, alcanzar y recoger diferentes artículos, colocarlos en su canasta o carrito y elegir su camino de manera eficiente. camino. Y está haciendo todo esto sin acceso a segmentación y mapas de profundidad y leyendo elementos de una nota escrita a mano arrugada en su bolsillo.

El aprendizaje por refuerzo profundo puro no es suficiente

Los experimentos muestran que los modelos híbridos de IA que combinan el aprendizaje por refuerzo con planificadores simbólicos son más adecuados para resolver el desafío del transporte de ThreeDWorld

El TDW-Transport Challenge está en proceso de aceptar presentaciones. Mientras tanto, los autores del artículo ya han probado el entorno con varias técnicas conocidas de aprendizaje por refuerzo. Sus hallazgos muestran que el aprendizaje por refuerzo puro es muy deficiente para resolver desafíos de planificación de tareas y movimientos. Un enfoque de aprendizaje por refuerzo puro requiere que el agente de IA desarrolle su comportamiento desde cero, comenzando con acciones aleatorias y refinando gradualmente su política para cumplir con los objetivos en el número especificado de pasos.

Planificador de alto nivel de TDW Transport Challenge

Según los experimentos de los investigadores, los enfoques de aprendizaje por refuerzo puro apenas lograron alcanzar un éxito superior al 10 por ciento en las pruebas TDW.

«Creemos que esto refleja la complejidad de la interacción física y el gran espacio de búsqueda de exploración de nuestro punto de referencia», escribieron los investigadores. “En comparación con las tareas de navegación semántica y de navegación de punto-objetivo anteriores, donde el agente solo necesita navegar a coordenadas u objetos específicos en la escena, el desafío ThreeDWorld Transport requiere que los agentes se muevan y cambien el estado físico de los objetos en el entorno (es decir, , planificación de tareas y movimientos), en los que los modelos de extremo a extremo podrían quedarse cortos «.

Cuando los investigadores intentaron modelos de IA híbridos, donde se combinó un agente de aprendizaje reforzado con un planificador de alto nivel basado en reglas, vieron un aumento considerable en el rendimiento del sistema.

«Este entorno se puede utilizar para entrenar modelos de RL que se quedan cortos en este tipo de tareas y requieren habilidades explícitas de razonamiento y planificación», dijo Gan. “A través del TDW-Transport Challenge, esperamos demostrar que un modelo híbrido neuro-simbólico puede mejorar este problema y demostrar un desempeño más sólido «.

Sin embargo, el problema sigue sin resolverse en gran medida, e incluso los sistemas híbridos de mejor rendimiento tuvieron tasas de éxito de alrededor del 50 por ciento. «Nuestra tarea propuesta es muy desafiante y podría usarse como un punto de referencia para rastrear el progreso de la IA incorporada en escenas físicamente realistas», escribieron los investigadores.

Los robots móviles se están convirtiendo en un área candente de investigación y aplicaciones. Según Gan, varias fábricas inteligentes y de fabricación ya han expresado interés en utilizar el entorno TDW para sus aplicaciones del mundo real. Será interesante ver si el TDW Transport Challenge ayudará a marcar el comienzo de nuevas innovaciones en el campo.

«Esperamos que TDW-Transport Challenge pueda ayudar a avanzar en la investigación sobre agentes robóticos de asistencia en almacenes y entornos domésticos», dijo Gan.

Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo original aquí.





Fuente: TNW

Compartir:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para fines de afiliación y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad