¿Cuál es la diferencia entre los ojos humanos y la visión por computadora?


Desde los primeros años de la inteligencia artificial, los científicos han soñado con crear computadoras que puedan «ver» el mundo. Como la visión juega un papel clave en muchas cosas que hacemos todos los días, descifrar el código de visión por computador parecía ser uno de los principales pasos hacia el desarrollo de la inteligencia artificial general.

Pero al igual que muchos otros objetivos de la inteligencia artificial, la visión por computadora ha demostrado ser más fácil de decir que de hacer. En 1966, los científicos del MIT lanzaron “El proyecto de visión de verano, ”Un esfuerzo de dos meses para crear un sistema informático que pudiera identificar objetos y áreas de fondo en imágenes. Pero se necesitó mucho más que unas vacaciones de verano para lograr esos objetivos. De hecho, no fue hasta principios de la década de 2010 que los clasificadores de imágenes y los detectores de objetos fueron lo suficientemente flexibles y confiables para usarse en las aplicaciones principales.

En las últimas décadas, los avances en aprendizaje automático y la neurociencia han contribuido a lograr grandes avances en la visión por computadora. Pero todavía nos queda un largo camino por recorrer antes de que podamos construir sistemas de inteligencia artificial que vean el mundo como nosotros.

Visión biológica y por computadora, un libro del profesor de la Universidad de Medicina de Harvard, Gabriel Kreiman, ofrece un relato accesible de cómo los humanos y los animales procesan los datos visuales y hasta dónde hemos llegado para replicar estas funciones en las computadoras.

El libro de Kreiman ayuda a comprender las diferencias entre la visión biológica y la visión por computadora. El libro detalla cómo miles de millones de años de evolución nos han equipado con un complicado sistema de procesamiento visual, y cómo estudiarlo ha ayudado a inspirar mejores algoritmos de visión por computadora. Kreiman también analiza lo que separa a los sistemas de visión por computadora contemporáneos de sus contrapartes biológicas.

Aunque recomendaría una lectura completa de Visión biológica y por computadora Para cualquiera que esté interesado en el campo, he intentado aquí (con algo de ayuda del propio Gabriel) presentar algunas de mis conclusiones clave del libro.

Diferencias de hardware

cerebro vs circuitos integrados

En la introducción a Visión biológica y por computadoraKreiman escribe: “Estoy particularmente entusiasmado con la conexión de circuitos biológicos y computacionales. La visión biológica es el producto de millones de años de evolución. No hay razón para reinventar la rueda al desarrollar modelos computacionales. Podemos aprender de cómo la biología resuelve los problemas de visión y usar las soluciones como inspiración para construir mejores algoritmos «.

Y de hecho, el estudio de la corteza visual ha sido una gran fuente de inspiración para la visión por computadora y la inteligencia artificial. Pero antes de poder digitalizar la visión, los científicos tuvieron que superar la enorme brecha de hardware entre la visión biológica y la visión por computadora. La visión biológica se ejecuta en una red interconectada de células corticales y neuronas orgánicas. La visión por computadora, por otro lado, se ejecuta en chips electrónicos compuestos por transistores.

Por lo tanto, una teoría de la visión debe definirse a un nivel que se pueda implementar en las computadoras de una manera que sea comparable a los seres vivos. Kreiman llama a esto la “resolución Ricitos de Oro”, un nivel de abstracción que no es ni demasiado detallado ni demasiado simplificado.

Por ejemplo, los primeros esfuerzos en visión por computadora intentaron abordar la visión por computadora a un nivel muy abstracto, de una manera que ignoraba cómo los cerebros humanos y animales reconocen los patrones visuales. Estos enfoques han demostrado ser muy frágiles e ineficaces. Por otro lado, estudiar y simular cerebros a nivel molecular demostraría ser computacionalmente ineficiente.

«No soy un gran admirador de lo que llamo ‘copiar la biología'», dijo Kreiman. TechTalks. “Hay muchos aspectos de la biología que pueden y deben abstraerse. Probablemente no necesitemos unidades con 20.000 proteínas y un citoplasma y geometrías dendríticas complejas. Eso sería demasiado detalle biológico. Por otro lado, no podemos simplemente estudiar el comportamiento, eso no es suficiente detalle «.

En Visión biológica y computarizada, Kreiman define la escala Ricitos de Oro de los circuitos neocorticales como actividades neuronales por milisegundo. Los avances en la neurociencia y la tecnología médica han hecho posible estudiar las actividades de las neuronas individuales con una granularidad de milisegundos.

Y los resultados de esos estudios han ayudado a desarrollar diferentes tipos de redes neuronales artificiales, Algoritmos de IA que simulan libremente el funcionamiento de las áreas corticales del cerebro de los mamíferos. En los últimos años, las redes neuronales han demostrado ser el algoritmo más eficiente para el reconocimiento de patrones en datos visuales y se han convertido en el componente clave de muchos aplicaciones de visión artificial.

Diferencias de arquitectura

Las últimas décadas han visto una gran cantidad de trabajo innovador en el campo de aprendizaje profundo, que ha ayudado a las computadoras a imitar algunas de las funciones de la visión biológica. Capas convolucionales, inspirados en estudios realizados en la corteza visual animal, son muy eficientes para encontrar patrones en datos visuales. La agrupación de capas ayuda a generalizar la salida de una capa convolucional y la hace menos sensible al desplazamiento de patrones visuales. Apilados uno encima del otro, los bloques de capas convolucionales y agrupadas pueden ir desde encontrar pequeños patrones (esquinas, bordes, etc.) hasta objetos complejos (caras, sillas, automóviles, etc.).

Pero todavía existe un desajuste entre la arquitectura de alto nivel de las redes neuronales artificiales y lo que sabemos sobre la corteza visual de los mamíferos.

«La palabra ‘capas’ es, desafortunadamente, un poco ambigua», dijo Kreiman. “En ciencias de la computación, la gente usa capas para connotar las diferentes etapas de procesamiento (y una capa es en su mayoría análoga a un área del cerebro). En biología, cada región del cerebro contiene seis capas corticales (y subdivisiones). Mi corazonada es que la estructura de seis capas (cuya conectividad a veces se denomina microcircuito canónico) es bastante crucial. No está claro qué aspectos de este circuito deberíamos incluir en las redes neuronales. Algunos pueden argumentar que los aspectos del motivo de seis capas ya están incorporados (por ejemplo, operaciones de normalización). Pero probablemente falte una enorme riqueza «.

Además, como Kreiman destaca en Visión biológica y por computadora, la información en el cerebro se mueve en varias direcciones. Las señales de luz se mueven desde la retina a la corteza temporal inferior a las capas V1, V2 y otras capas de la corteza visual. Pero cada capa también proporciona retroalimentación a sus predecesoras. Y dentro de cada capa, las neuronas interactúan y pasan información entre sí. Todas estas interacciones e interconexiones ayudan al cerebro a llenar los vacíos en la información visual y a hacer inferencias cuando tiene información incompleta.

Por el contrario, en las redes neuronales artificiales, los datos generalmente se mueven en una sola dirección. Las redes neuronales convolucionales son «redes de alimentación», lo que significa que la información solo va desde la capa de entrada a las capas superiores y de salida.

Existe un mecanismo de retroalimentación llamado «retropropagación», que ayuda a corregir errores y ajustar los parámetros de las redes neuronales. Pero la retropropagación es computacionalmente costosa y solo se usa durante el entrenamiento de redes neuronales. Y no está claro si la retropropagación corresponde directamente a los mecanismos de retroalimentación de las capas corticales.

Por otro lado, redes neuronales recurrentes, que combinan la salida de capas superiores con la entrada de sus capas anteriores, todavía tienen un uso limitado en la visión por computadora.

corteza visual frente a redes neuronales

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para fines de afiliación y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad