Por qué la IA se esfuerza por comprender la causa y el efecto


Cuando observa la siguiente secuencia breve de video, puede hacer inferencias sobre las relaciones causales entre diferentes elementos. Por ejemplo, puede ver el bate y el brazo del jugador de béisbol moviéndose al unísono, pero también sabe que es el brazo del jugador el que está causando el movimiento del bate y no al revés. Tampoco es necesario que le digan que el bate está causando el cambio repentino en la dirección de la pelota.

Del mismo modo, puede pensar en contrafactuales, como lo que sucedería si la pelota volara un poco más alto y no golpeara el bate.

bate de béisbol golpeando la pelota

Tales inferencias nos llegan a los humanos de manera intuitiva. Los aprendemos a una edad muy temprana, sin que nadie nos instruya explícitamente y simplemente observando el mundo. Pero para aprendizaje automático algoritmos, que han logrado superar a los humanos en tareas complicadas como el go y el ajedrez, la causalidad sigue siendo un desafío. Algoritmos de aprendizaje automático, especialmente redes neuronales profundas, son especialmente buenos para descubrir patrones sutiles en grandes conjuntos de datos. Pueden transcribir audio en tiempo real, etiquetar miles de imágenes y fotogramas de video por segundo y examinar radiografías y resonancias magnéticas en busca de patrones cancerosos. Pero luchan por hacer inferencias causales simples como las que acabamos de ver en el video de béisbol anterior.

en un papel titulado «Hacia el aprendizaje de la representación causal», los investigadores del Instituto Max Planck de Sistemas Inteligentes, el Instituto de Algoritmos de Aprendizaje de Montreal (Mila) y Google Research, analizan los desafíos que surgen de la falta de representaciones causales en los modelos de aprendizaje automático y brindan instrucciones para creando sistemas de inteligencia artificial que puedan aprender representaciones causales.

Este es uno de los varios esfuerzos que tienen como objetivo explorar y resolver la falta de causalidad del aprendizaje automático, que puede ser clave para superar algunos de los los principales desafíos que enfrenta el campo hoy.

Datos independientes e idénticamente distribuidos

¿Por qué los modelos de aprendizaje automático no pueden generalizar más allá de sus dominios estrechos y datos de entrenamiento?

«El aprendizaje automático a menudo ignora la información que los animales utilizan en gran medida: intervenciones en el mundo, cambios de dominio, estructura temporal; en general, consideramos estos factores como una molestia y tratamos de eliminarlos», escriben los autores del artículo de aprendizaje de representación causal. “De acuerdo con esto, la mayoría de los éxitos actuales del aprendizaje automático se reducen al reconocimiento de patrones a gran escala en independientes e idénticamente distribuidos (i.i.d.) datos. «

i.i.d. es un término que se utiliza con frecuencia en el aprendizaje automático. Supone que las observaciones aleatorias en un espacio de problemas no dependen unas de otras y tienen una probabilidad constante de ocurrir. El ejemplo más simple de i.i.d. es lanzar una moneda o un dado. El resultado de cada nuevo lanzamiento o lanzamiento es independiente de los anteriores y la probabilidad de cada resultado permanece constante.

Cuando se trata de áreas más complicadas como visión por computador, los ingenieros de aprendizaje automático intentan convertir el problema en un i.i.d. dominio mediante el entrenamiento del modelo en corpus de ejemplos muy grandes. El supuesto es que, con suficientes ejemplos, el modelo de aprendizaje automático podrá codificar la distribución general del problema en sus parámetros. Pero en el mundo real, las distribuciones a menudo cambian debido a factores que no se pueden considerar ni controlar en los datos de entrenamiento. Por ejemplo, redes neuronales convolucionales entrenados en millones de imágenes pueden fallar cuando ven objetos bajo nuevas condiciones de iluminación o desde ángulos ligeramente diferentes o contra nuevos fondos.

Imágenes de ImageNet frente a imágenes de ObjectNet