Desacreditando los misterios del aprendizaje por refuerzo profundo


El aprendizaje por refuerzo profundo es una de las ramas más interesantes de la inteligencia artificial. Está detrás de algunos de los logros más notables de la comunidad de IA, incluidos vencer a campeones humanos en juegos de mesa y videojuegos, coches autónomos, robótica y Diseño de hardware de IA.

El aprendizaje por refuerzo profundo aprovecha la capacidad de aprendizaje de las redes neuronales profundas para abordar problemas que eran demasiado complejos para las técnicas clásicas de RL. Aprendizaje por refuerzo profundo es mucho más complicado que las otras ramas del aprendizaje automático. Pero en esta publicación, intentaré desmitificarlo sin entrar en detalles técnicos.

Estados, recompensas y acciones

En el corazón de cada aprendizaje reforzado problema son un agente y un medio ambiente. El entorno proporciona información sobre el estado del sistema. El agente observa estos estados e interactúa con el entorno tomando acciones. Las acciones pueden ser discretas (p. Ej., Accionar un interruptor) o continuas (p. Ej., Girar una perilla). Estas acciones hacen que el medio ambiente pase a un nuevo estado. Y en función de si el nuevo estado es relevante para el objetivo del sistema, el agente recibe una recompensa (la recompensa también puede ser cero o negativa si aleja al agente de su objetivo).

Aprendizaje reforzado

Cada ciclo de estado-acción-recompensa se llama paso. El sistema de aprendizaje por refuerzo continúa iterando a través de ciclos hasta que alcanza el estado deseado o hasta que expira un número máximo de pasos. Esta serie de pasos se llama episodio. Al comienzo de cada episodio, el entorno se establece en un estado inicial y la recompensa del agente se restablece a cero.

El objetivo del aprendizaje por refuerzo es capacitar al agente para que realice acciones que maximicen sus recompensas. La función de acción del agente se denomina política. Un agente suele necesitar muchos episodios para aprender una buena política. Para problemas más simples, algunos cientos de episodios pueden ser suficientes para que el agente aprenda una política decente. Para problemas más complejos, el agente puede necesitar millones de episodios de entrenamiento.

Hay matices más sutiles en los sistemas de aprendizaje por refuerzo. Por ejemplo, un entorno RL puede ser determinista o no determinista. En entornos deterministas, ejecutar una secuencia de pares de acción de estado varias veces siempre produce el mismo resultado. Por el contrario, en los problemas de RL no deterministas, el estado del medio ambiente puede cambiar a partir de cosas distintas de las acciones del agente (por ejemplo, el paso del tiempo, el clima, otros agentes en el medio ambiente).

Aplicaciones de aprendizaje por refuerzo

aplicaciones de aprendizaje de refuerzo profundo

Para comprender mejor los componentes del aprendizaje por refuerzo, consideremos algunos ejemplos.

Ajedrez: Aquí, el medio ambiente es el tablero de ajedrez y el estado del medio ambiente es la ubicación de las piezas de ajedrez en el tablero. El agente de RL puede ser uno de los jugadores (alternativamente, ambos jugadores pueden ser agentes de RL entrenando por separado en el mismo entorno). Cada partida de ajedrez es un episodio. El episodio comienza en un estado inicial, con piezas blancas y negras alineadas en los bordes del tablero. En cada paso, el agente observa el tablero (el estado) y mueve una de sus piezas (realiza una acción), lo que hace que el entorno pase a un nuevo estado. El agente recibe una recompensa por alcanzar el estado de jaque mate y cero recompensas de lo contrario. Uno de los desafíos clave del ajedrez es que el agente no recibe ninguna recompensa antes de hacer jaque mate al oponente, lo que dificulta el aprendizaje.

Fuga de Atari: Breakout es un juego en el que el jugador controla una paleta. Hay una bola moviéndose por la pantalla. Cada vez que golpea la paleta, rebota hacia la parte superior de la pantalla, donde se han dispuesto filas de ladrillos. Cada vez que la paleta golpea un ladrillo, el ladrillo se destruye y la pelota rebota. En Breakout, el entorno es la pantalla del juego. El estado es la ubicación de la paleta y los ladrillos, y la ubicación y velocidad de la pelota. Las acciones que puede realizar el agente son moverse a la izquierda, moverse a la derecha o no moverse en absoluto. El agente recibe una recompensa positiva cada vez que la pelota golpea un ladrillo y una recompensa negativa si la pelota pasa por la paleta y llega al final de la pantalla.

Automóviles autónomos: En conducción autónoma, el agente es el automóvil y el medio ambiente es el mundo por el que navega el automóvil. El agente de RL observa el estado del medio ambiente a través de cámaras, lidars y otros sensores. El agente puede realizar acciones de navegación como acelerar, pisar el freno, girar a la izquierda o derecha o no hacer nada. El agente de RL es recompensado por permanecer en la carretera, evitar colisiones, cumplir con las normas de conducción y mantener el rumbo.

Funciones de aprendizaje por refuerzo

laberinto-refuerzo-aprendizaje

Básicamente, el objetivo del aprendizaje por refuerzo es asignar estados a acciones de una manera que maximice las recompensas. Pero, ¿qué aprende exactamente el agente de RL?

Hay tres categorías de algoritmos de aprendizaje para sistemas RL:

Algoritmos basados ​​en políticas: Este es el tipo de optimización más general. Una política asigna estados a acciones. Un agente de RL que aprende una política puede crear una trayectoria de acciones que conduzcan del estado actual al objetivo.

Por ejemplo, considere un agente que está optimizando una política para navegar a través de un laberinto y llegar a la salida. Primero, comienza haciendo movimientos aleatorios, por los cuales no recibe recompensas. En uno de los episodios, finalmente llega a la salida y recibe la recompensa de salida. Vuelve sobre su trayectoria y reajusta la recompensa de cada par estado-acción en función de qué tan cerca llevó al agente del objetivo final. En el siguiente episodio, el agente de RL comprende mejor qué acciones tomar en cada estado. Ajusta gradualmente la política hasta que converge en una solución óptima.

REFORZAR es un algoritmo popular basado en políticas. La ventaja de las funciones basadas en políticas es que se pueden aplicar a todo tipo de problemas de aprendizaje por refuerzo. La desventaja de los algoritmos basados ​​en políticas es que no son eficientes en la muestra y requieren mucha capacitación antes de converger en soluciones óptimas.

Algoritmos basados ​​en valores: Las funciones basadas en valores aprenden a evaluar el valor de estados y acciones. Las funciones basadas en valores ayudan al agente de RL a evaluar el posible rendimiento futuro del estado y las acciones actuales.

Hay dos variaciones de las funciones basadas en valores: valores Q y valores V. Las funciones Q estiman el rendimiento esperado de los pares estado-acción. Las funciones V solo estiman el valor de los estados. Las funciones Q son más comunes porque es más fácil transformar pares de acción de estado en una política de RL.

Dos algoritmos populares basados ​​en valores son SARSA y DQN. Los algoritmos basados ​​en valores son más eficientes en muestras que el RL basado en políticas. Su limitación es que solo son aplicables a espacios de acción discretos (a menos que les haga algunos cambios).

Algoritmos basados ​​en modelos: Los algoritmos basados ​​en modelos adoptan un enfoque diferente para el aprendizaje por refuerzo. En lugar de evaluar el valor de los estados y las acciones, intentan predecir el estado del entorno dado el estado y la acción actuales. El aprendizaje por refuerzo basado en modelos permite al agente simular diferentes trayectorias antes de realizar cualquier acción.

Los enfoques basados ​​en modelos proporcionan al agente previsión y reducen la necesidad de recopilar datos manualmente. Esto puede resultar muy ventajoso en aplicaciones en las que la recopilación de datos de entrenamiento y experiencia es costosa y lenta (por ejemplo, robótica y automóviles autónomos).

Pero el desafío clave del aprendizaje por refuerzo basado en modelos es que la creación de un modelo realista del entorno puede ser muy dificil. Los entornos no deterministas, como el mundo real, son muy difíciles de modelar. En algunos casos, los desarrolladores logran crear simulaciones que se aproximan al entorno real. Pero incluso aprender modelos de estos entornos simulados termina siendo muy difícil.

No obstante, los algoritmos basados ​​en modelos se han vuelto populares en problemas deterministas como el ajedrez y el Go. Monte-Carlo Tree Search (MTCS) es un método popular basado en modelos que se puede aplicar a entornos deterministas.

Métodos combinados: Para superar las deficiencias de cada categoría de algoritmos de aprendizaje por refuerzo, los científicos han desarrollado algoritmos que combinan elementos de diferentes tipos de funciones de aprendizaje. Por ejemplo, los algoritmos Actor-Critic combinan las fortalezas de las funciones basadas en políticas y basadas en valores. Estos algoritmos utilizan la retroalimentación de una función de valor (el crítico) para guiar al aprendiz de políticas (el actor) en la dirección correcta, lo que da como resultado un sistema más eficiente en la muestra.

¿Por qué el aprendizaje por refuerzo profundo?

deep-neural-network-AI

Hasta ahora, no hemos dicho nada sobre las redes neuronales profundas. De hecho, puede implementar todos los algoritmos mencionados anteriormente de la forma que desee. Por ejemplo, Q-aprendizaje, un tipo clásico de algoritmo de aprendizaje por refuerzo, crea una tabla de valores de estado-acción-recompensa a medida que el agente interactúa con el entorno. Estos métodos funcionan bien cuando se trata de un entorno muy simple donde el número de estados y acciones es muy pequeño.

Pero cuando se trata de un entorno complejo, donde la cantidad combinada de acciones y estados puede alcanzar un número enorme, o cuando el entorno no es determinista y puede tener estados virtualmente ilimitados, evaluar cada posible par estado-acción se vuelve imposible.

En estos casos, necesitará una función de aproximación que pueda aprender políticas óptimas basadas en datos limitados. Y esto es lo que redes neuronales artificiales hacer. Dada la arquitectura y la función de optimización adecuadas, una red neuronal profunda puede aprender una política óptima sin pasar por todos los estados posibles de un sistema. Los agentes de aprendizaje por refuerzo profundo todavía necesitan grandes cantidades de datos (por ejemplo, miles de horas de juego en Dota y StarCraft), pero pueden abordar problemas que eran imposibles de resolver con los sistemas clásicos de aprendizaje por refuerzo.

Por ejemplo, un modelo de RL profundo puede usar redes neuronales convolucionales para extraer información de estado de datos visuales como imágenes de cámaras y gráficos de videojuegos. Y redes neuronales recurrentes Puede extraer información útil de secuencias de fotogramas, como hacia dónde se dirige una pelota o si un automóvil está estacionado o en movimiento. Esta compleja capacidad de aprendizaje puede ayudar a los agentes de RL a comprender entornos más complejos y asignar sus estados a las acciones.

El aprendizaje por refuerzo profundo es comparable a aprendizaje automático supervisado. El modelo genera acciones y, en base a la retroalimentación del entorno, ajusta sus parámetros. Sin embargo, el aprendizaje por refuerzo profundo también tiene algunos desafíos únicos que lo hacen diferente del aprendizaje supervisado tradicional.

A diferencia de los problemas de aprendizaje supervisado, donde el modelo tiene un conjunto de datos etiquetados, el agente de RL solo tiene acceso al resultado de sus propias experiencias. Es posible que pueda aprender una política óptima basada en las experiencias que recopila en diferentes episodios de capacitación. Pero también podría pasar por alto muchas otras trayectorias óptimas que podrían haber conducido a mejores políticas. El aprendizaje por refuerzo también necesita evaluar las trayectorias de los pares estado-acción, lo cual es mucho más difícil de aprender que los problemas de aprendizaje supervisados ​​donde cada ejemplo de entrenamiento se empareja con su resultado esperado.

Esta complejidad adicional aumenta los requisitos de datos de los modelos de aprendizaje por refuerzo profundo. Pero a diferencia del aprendizaje supervisado, donde los datos de entrenamiento se pueden seleccionar y preparar con anticipación, los modelos de aprendizaje de refuerzo profundo recopilan sus datos durante el entrenamiento. En algunos tipos de algoritmos de RL, los datos recopilados en un episodio deben descartarse posteriormente y no se pueden utilizar para acelerar aún más el proceso de ajuste del modelo en episodios futuros.

Aprendizaje por refuerzo profundo e IA general

Refuerzo-aprendizaje-inteligencia-artificial

La comunidad de IA está dividida sobre hasta dónde puede impulsar el aprendizaje por refuerzo profundo. Algunos científicos creen que con la arquitectura RL correcta, puede abordar cualquier tipo de problema, incluida la inteligencia artificial general. El aprendizaje por refuerzo es el mismo algoritmo que dio lugar a la inteligencia natural, creen estos científicos, y con suficiente tiempo y energía y las recompensas adecuadas, podemos recrear la inteligencia a nivel humano.

Otros piensan que el aprendizaje por refuerzo no aborda algunos de los problemas más fundamentales de la inteligencia artificial. A pesar de todos sus beneficios, los agentes de aprendizaje por refuerzo profundo necesitan que los problemas estén bien definidos y no pueden descubrir nuevos problemas y soluciones por sí mismos, cree este segundo grupo.

En cualquier caso, lo que no se puede negar es que el aprendizaje por refuerzo profundo ha ayudado a resolver algunos desafíos muy complicados y seguirá siendo un importante campo de interés e investigación para la comunidad de IA por el momento.

Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo original aquí.



Fuente: TNW

Compartir:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para fines de afiliación y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad