La mayoría de los anuncios que ve se eligen mediante un modelo de aprendizaje por refuerzo. Así es como funciona


Todos los días, las agencias de publicidad digital publican miles de millones de anuncios en sitios web de noticias, motores de búsqueda, redes sociales, sitios web de transmisión de video y otras plataformas. Y todos quieren responder la misma pregunta: ¿cuál de los muchos anuncios que tienen en su catálogo es más probable que atraiga a un determinado espectador? Encontrar la respuesta correcta a esta pregunta puede tener un gran impacto en los ingresos cuando se trata de cientos de sitios web, miles de anuncios y millones de visitantes.

Afortunadamente (para las agencias de publicidad, al menos), aprendizaje reforzado, la rama de la inteligencia artificial que se ha hecho famosa por masterización de juegos de mesa y video, proporciona una solución. Los modelos de aprendizaje por refuerzo buscan maximizar las recompensas. En el caso de los anuncios en línea, el modelo RL intentará encontrar el anuncio en el que es más probable que los usuarios hagan clic.

La industria de la publicidad digital genera cientos de miles de millones de dólares cada año y proporciona un interesante caso de estudio sobre los poderes del aprendizaje por refuerzo.

Pruebas ingenuas A / B / n

Para comprender mejor cómo el aprendizaje por refuerzo optimiza los anuncios, considere un escenario muy simple: usted es el propietario de un sitio web de noticias. Para pagar los costos de alojamiento y personal, ha firmado un contrato con una empresa para publicar sus anuncios en su sitio web. La compañía le ha proporcionado cinco anuncios diferentes y le pagará un dólar cada vez que un visitante haga clic en uno de los anuncios.

Su primer objetivo es encontrar el anuncio que genera la mayor cantidad de clics. En la jerga publicitaria, querrá maximizar su tasa de clics (CTR). El CTR es la proporción de clics sobre el número de anuncios mostrados, también llamado impresiones. Por ejemplo, si 1000 impresiones de anuncios le dan tres clics, su CTR será 3/1000 = 0.003 o 0.3%.

Antes de resolver el problema del aprendizaje por refuerzo, analicemos las pruebas A / B, la técnica estándar para comparar el rendimiento de dos soluciones de la competencia (A y B), como diferentes diseños de páginas web, recomendaciones de productos o anuncios. Cuando se trata de más de dos alternativas, se denomina prueba A / B / n.

[Leer:[Read:¿Cómo se construye un dispositivo que admita mascotas? Preguntamos a expertos y dueños de animales]

En las pruebas A / B / n, los sujetos del experimento se dividen aleatoriamente en grupos separados y a cada uno se le proporciona una de las soluciones disponibles. En nuestro caso, esto significa que mostraremos aleatoriamente uno de los cinco anuncios a cada nuevo visitante de nuestro sitio web y evaluaremos los resultados.

distribución normal

Digamos que ejecutamos nuestra prueba A / B / n para 100,000 iteraciones, aproximadamente 20,000 impresiones por anuncio. Aquí está la proporción de clics sobre impresiones de nuestros anuncios:

Anuncio 1:80 / 20.000 = CTR de 0,40%

Anuncio 2: 70/20 000 = CTR del 0,35%

Anuncio 3:90 / 20.000 = CTR del 0,45%

Anuncio 4:62 / 20.000 = CTR del 0,31%

Anuncio 5:50 / 20.000 = CTR del 0,25%

Nuestras 100.000 impresiones de anuncios generaron $ 352 en ingresos con un CTR promedio de 0.35%. Más importante aún, descubrimos que el anuncio número 3 funciona mejor que los demás, y seguiremos usándolo para el resto de nuestros espectadores. Con el anuncio de peor rendimiento (anuncio número 2), nuestros ingresos habrían sido de 250 dólares. Con el anuncio de mejor rendimiento (anuncio número 3), nuestros ingresos habrían sido de 450 dólares. Entonces, nuestra prueba A / B / n nos proporcionó el promedio de los ingresos mínimos y máximos y arrojó el conocimiento muy valioso de las tasas de CTR que buscamos.

Los anuncios digitales tienen tasas de conversión muy bajas. En nuestro ejemplo, existe una sutil diferencia del 0,2% entre nuestros anuncios con mejor y peor rendimiento. Pero esta diferencia puede tener un impacto significativo a escala. Con 1,000 impresiones, el anuncio número 3 generará $ 2 adicionales en comparación con el anuncio número 5. Con un millón de impresiones, esta diferencia se convertirá en $ 2,000. Cuando publica miles de millones de anuncios, un sutil 0,2% puede tener un gran impacto en los ingresos.

Por lo tanto, encontrar estas sutiles diferencias es muy importante en la optimización de anuncios. El problema con las pruebas A / B / n es que no es muy eficiente para encontrar estas diferencias. Trata a todos los anuncios por igual y debe ejecutar cada anuncio decenas de miles de veces hasta que descubra sus diferencias con un nivel de confianza confiable. Esto puede resultar en una pérdida de ingresos, especialmente cuando tiene un catálogo más grande de anuncios.

Otro problema con las pruebas clásicas A / B / n es que son estáticas. Una vez que encuentre el anuncio óptimo, tendrá que ceñirse a él. Si el entorno cambia debido a un nuevo factor (estacionalidad, tendencias de noticias, etc.) y hace que uno de los otros anuncios tenga un CTR potencialmente más alto, no lo sabrá a menos que ejecute la prueba A / B / n por todas partes. otra vez.

¿Qué pasaría si pudiéramos cambiar las pruebas A / B / n para hacerlas más eficientes y dinámicas?

Aquí es donde entra en juego el aprendizaje por refuerzo. Un agente de aprendizaje por refuerzo comienza sin saber nada sobre las acciones, recompensas y sanciones de su entorno. El agente debe encontrar una forma de maximizar sus recompensas.

En nuestro caso, las acciones del agente de RL son uno de los cinco anuncios que se muestran. El agente de RL recibirá un punto de recompensa cada vez que un usuario haga clic en un anuncio. Debe encontrar una forma de maximizar los clics en los anuncios.

El bandido de múltiples brazos

bandido de múltiples brazos