Cómo los CAPTCHA podrían mostrar si un algoritmo se está acercando a AGI


La creación de máquinas que tengan las capacidades generales de resolución de problemas del cerebro humano ha sido el grano sagrado de los científicos de inteligencia artificial durante décadas. Y a pesar de los tremendos avances en varios campos de la informática, inteligencia general artificial todavía elude a los investigadores.

Nuestros métodos de IA actuales requieren una gran cantidad de datos o una gran cantidad de reglas codificadas a mano, y solo son adecuado para dominios muy estrechos. AGI, por otro lado, debería poder realizar múltiples tareas con pocos datos e instrucciones específicas.

Si bien los enfoques para crear AGI han cambiado y evolucionado a lo largo de las décadas, una cosa se ha mantenido constante: el cerebro humano es una prueba de que la inteligencia general existe. El cerebro puede resolver problemas de una manera flexible y eficiente en cuanto a datos.

Y si podemos descubrir cómo el cerebro humano analiza la información y resuelve problemas, podríamos tener un plan para lo que más tarde podría convertirse en IA general.

Estudiar los mecanismos del cerebro es el foco de la neurociencia, un campo que se ha entrelazado cada vez más con la inteligencia artificial en las últimas décadas. La colaboración entre neurocientíficos e informáticos ha dado lugar a tremendos avances en IA y puede ser fundamental para lograr AGI.

en un papel publicado en la revista científica revisada por pares Fronteras en neurociencia, los científicos de Vicarious, una empresa de inteligencia artificial con sede en San Francisco, brindan información y un marco sobre cómo el cerebro humano extrae y procesa información del mundo, y cómo este proceso se diferencia de las tecnologías de inteligencia artificial actuales.

Si bien no es el primer trabajo que explora el sinergias entre neurociencia e IA, el artículo ofrece una perspectiva interesante sobre la inteligencia orgánica.

Dirigidos por el investigador de inteligencia artificial y neurociencia Dileep George, los científicos Vicarious extraen lecciones de las pruebas CAPTCHA para presentar pistas sobre los mecanismos de procesamiento de información del cerebro.

¿Cómo desarrolla la mente el sentido común?

“El aprendizaje eficiente y la generalización efectiva provienen de sesgos inductivos, y construir Inteligencia General Artificial (AGI) es un ejercicio para encontrar el conjunto correcto de sesgos inductivos que hacen posible el aprendizaje rápido y al mismo tiempo son lo suficientemente generales como para ser ampliamente aplicables en tareas en las que los humanos sobresalen. ”Escriben los investigadores Vicarious AI.

Los cerebros humanos y animales son una prueba de que existen tales sesgos. Todo cerebro ha evolucionado y optimizado para resolver problemas específicos del cuerpo que ocupa de forma flexible.

Pero en lugar de aplicar ingeniería inversa a los circuitos del cerebro, los investigadores sugieren observar los mecanismos de la mente desde una perspectiva funcional. La investigación muestra que los humanos le deben a sus superiores y inteligencia generalizable a la neocorteza, la capa externa de su cerebro que se encuentra en los mamíferos.

“Funcionalmente, la neocorteza, en combinación con el sistema hipocampal, es responsable de la internalización de la experiencia externa, mediante la construcción de ricos modelos causales del mundo. En humanos y otros mamíferos, estos modelos permiten la percepción, la acción, la memoria, la planificación y la imaginación ”, escriben los investigadores.

Construyendo modelos ricos del mundo es lo que nos permite razonar sobre causas y efectos, lidiar con escenarios hipotéticos del tipo «qué pasaría si» y resolver diferentes problemas sin ser instruidos en cada caso. Este es un requisito clave de la inteligencia general.

“Desde el momento en que nacemos, comenzamos a usar nuestros sentidos para construir un modelo coherente del mundo. A medida que crecemos, refinamos constantemente nuestro modelo y accedemos a él sin esfuerzo a medida que avanzamos en nuestras vidas ”, escriben los investigadores de IA.

Por ejemplo, sin haber visto nunca un partido de béisbol, puede mirar la siguiente escena y razonar sobre qué causa que la pelota cambie de dirección y qué sucedería si la pelota volara más bajo o más alto que el bate. Esto se debe a que tenemos una sólida comprensión de cómo funciona el mundo y cómo los objetos interactúan entre sí.

bate de béisbol golpeando la pelota

“El sentido común surge de la destilación de la experiencia pasada en una representación a la que se puede acceder con un nivel de detalle apropiado en cualquier escenario dado”, escriben los autores del artículo. Y esto es exactamente lo que falta en las tecnologías de IA actuales.

Pero aprendizaje profundo, la rama principal actual de la IA que a menudo se compara con el cerebro, se parece más a la forma burda de inteligencia que se encuentra en organismos muy básicos, observan los investigadores. La red neuronal profunda puede optimizar sus parámetros para tareas muy limitadas, como detectar nódulos cancerosos en tomografías computarizadas, convertir voz en texto o vencer a profesionales en videojuegos complicados. Pero carecen de las ricas capacidades de construcción de modelos del cerebro humano.

Un ejemplo en el que los autores del artículo han centrado su investigación son los CAPTCHA. Los algoritmos de aprendizaje profundo se pueden entrenar para resolver los desafíos de CAPTCHA, pero requieren millones de ejemplos etiquetados y no pueden lidiar con situaciones que se desvíen de sus ejemplos de entrenamiento.

captcha

Y aunque los científicos continúan haciendo avances incrementales creando redes neuronales más grandes, no ha habido ningún avance importante en la creación de modelos que puedan generalizar sus capacidades.

“La lección de la historia evolutiva es que la inteligencia general se logró mediante el advenimiento de la nueva arquitectura, la neocorteza, que permitió construir modelos ricos del mundo, no mediante una aglomeración de circuitos especializados”, escriben los investigadores de IA. «Lo que separa las redes de funciones específicas del cerebro de los mamíferos es la capacidad de formar modelos internos ricos que se pueden consultar de diversas formas».

Aprendiendo del cerebro

En su artículo, los investigadores de IA presentan un marco triangular para comprender el comportamiento inteligente a través de propiedades conocidas del mundo, la estructura física del cerebro y algoritmos. Explicar las observaciones desde los tres ángulos puede proporcionar una mejor guía para crear algoritmos de IA con capacidades generales de resolución de problemas.

“La estrategia de triangulación consiste en utilizar esta correspondencia mundo-cerebro-computación: cuando observamos una propiedad del cerebro, ¿podemos relacionar esa propiedad con un principio organizativo del mundo? ¿Se puede representar esa propiedad en un marco computacional para producir generalizaciones y eficiencia de aprendizaje / inferencia? » escriben los autores del artículo.

estrategia de triangulación
La estrategia de triangulación utiliza propiedades conocidas del mundo, la estructura física del cerebro y algoritmos para interpretar el comportamiento inteligente.

Los investigadores señalan además que los modelos puros de aprendizaje automático se ocupan de algoritmos y datos sin considerar los conocimientos adquiridos del cerebro.

Una de las propiedades clave del cerebro es un «modelo generativo» que nos permite visualizar internamente las cosas y razonar sobre el mundo a nivel abstracto y conceptual. Este modelo generativo nos ayuda a llenar los vacíos en las escenas visuales y razonar sobre el lenguaje natural. Por ejemplo, cuando escuchas la frase «Sally clavó un clavo en el piso», automáticamente imaginas el proceso y no necesitas que te digan explícitamente que Sally estaba sosteniendo el clavo verticalmente.

El objetivo del modelo generativo no es recrear una escena fotorrealista. En cambio, debería poder componer la escena en términos de sus componentes y sus relaciones.

Un algoritmo de IA que tenga tales propiedades podría realizar tareas como clasificación (qué objeto contiene una escena), segmentación (qué píxeles pertenecen a qué objeto), razonamiento de oclusión (detectar objetos que están parcialmente ocluidos), razonamiento y más. Los sistemas de aprendizaje profundo actuales pueden capacitarse para realizar una, pero no todas estas tareas.

La red cortical recursiva (RCN)

Dileep George y Miguel Lázaro-Gredilla, dos de los autores del artículo, formaban parte de un grupo de investigadores de IA que desarrollaron el Red cortical recursiva (RCN) en 2017. RCN extrae conocimientos de la neurociencia y maneja el reconocimiento, la segmentación y el razonamiento de una manera unificada.

Según las pruebas que los investigadores realizaron en ese momento, los RCN pudieron resolver CAPTCHA basados ​​en texto con un pequeño conjunto de datos de entrenamiento y con mucha más flexibilidad que los modelos de aprendizaje profundo.

Los investigadores obtuvieron conocimientos de la neurociencia y del mundo para desarrollar el algoritmo RCN. Por ejemplo, los experimentos muestran que el sistema visual humano prioriza las formas y los contornos sobre las texturas. Y esto se debe a que los objetos generalmente mantienen su forma, incluso si su color y textura cambian bajo diferentes condiciones de iluminación.

El sesgo de su mente por la forma y los contornos es la razón por la que no necesita ejemplos etiquetados para reconocer los siguientes objetos extraños.

formas y contornos

“La factorización de la superficie del contorno podría ser un principio general que utiliza la corteza para tratar las señales naturales, y este sesgo podría haber sido algo descubierto por la evolución”, observan los investigadores.

Las redes neuronales profundas, por otro lado, tienen otros sesgos. Por ejemplo, un red neuronal convolucional se puede entrenar para detectar códigos QR con una precisión muy alta, una hazaña que está más allá de las capacidades de la mayoría de los humanos. Pero el mismo modelo de aprendizaje profundo entrenado para detectar objetos en imágenes tendría dificultades cuando se enfrenta a muchas situaciones del mundo real.

“Un código QR no es una señal natural del tipo hacia el que el sistema visual humano tiene un sesgo innato”, observan los investigadores de IA, y agregan que las capacidades de las CNN para clasificar códigos QR podrían ser indicativas de su falta de sesgos similares a los humanos.

Otra propiedad interesante discutida en el artículo es la composición jerárquica. El sistema visual humano tiende a ver el mundo como una composición de objetos anidados. Esta es también una propiedad clave del mundo. Por ejemplo, los árboles se componen de ramas, hojas y raíces, independientemente de la forma de cada componente. Y podemos distinguir estas partes incluso en un árbol que estamos viendo por primera vez. Otros investigadores de IA, incluido el pionero del aprendizaje profundo Geoffrey Hinton, están explorando la composición jerárquica como un medio para generalizar las capacidades de visión por computadora.

“Al reflejar la estructura jerárquica del mundo, la corteza visual puede tener la ventaja de construir gradualmente representaciones invariantes de objetos reutilizando representaciones invariantes para partes de objetos. La organización jerárquica también es adecuada para algoritmos de inferencia y aprendizaje eficientes ”, escriben los autores.

También cabe destacar la sensibilidad de nuestro sistema visual al contexto y al nivel de detalle. Nos ocupamos de la alta variabilidad del mundo a través de mecanismos de retroalimentación que tienen en cuenta las características locales y globales. Por ejemplo, es difícil detectar cuál es la siguiente foto …

parches aleatorios de píxeles?

… pero cuando se ve el mismo parche de píxeles contra otros detalles circundantes, podemos entender qué representa la imagen.

helado

“Es probable que cualquier observación local sobre el mundo sea ambigua debido a todos los factores de variación que lo afectan y, por lo tanto, la información sensorial local debe integrarse y reinterpretarse en el contexto de un todo coherente. Se requieren conexiones de retroalimentación para esto ”, escriben los investigadores de IA.

El contexto y la retroalimentación pueden resolver muchos otros problemas, como la resolución de oclusiones en CAPTCHA.

resolución de oclusión
Los mecanismos de retroalimentación nos permiten resolver la oclusión en captchas.

Si bien el objetivo a largo plazo es AGI, RCN, que se ha creado sobre la base de estos principios, ya se utiliza en varios dominios. “Estamos implementando RCN en robots en almacenes y fábricas. Vicarious ofrece robots como un servicio para resolver problemas de selección, embalaje y ensamblaje en entornos de alto cambio ”, dijo George. TechTalks en comentarios escritos, agregando que la eficiencia de datos de RCN es una gran ventaja.

Poniendolo todo junto

El trabajo presentado por los investigadores de Vicarious es uno de varios esfuerzos que tienen como objetivo encontrar caminos para codificar la verdadera inteligencia. Otro artículo publicado a principios de este año discutió el “materia oscura de la visión por computadora”En términos de funcionalidad intuitiva, física, intención, causalidad y utilidad (FPICU).

También hay desarrollos interesantes en las pruebas y la medición del nivel de inteligencia en los sistemas de IA, incluida la Corpus de razonamiento abstracto (ARC) por Francois Chollet, el creador de la biblioteca de aprendizaje profundo de Keras. ARC desafía a los sistemas de IA para que aprendan a resolver problemas en el nivel abstracto con muy pocos ejemplos.

Dileep George y sus colegas sugieren que resolver CAPTCHA de una manera flexible y eficiente en cuanto a datos sería una buena señal de que un algoritmo de IA puede resolver múltiples tareas y nos está acercando al objetivo final de AGI.

“Resolver captchas basados ​​en texto fue un problema de desafío del mundo real seleccionado para evaluar RCN porque los captchas ejemplifican la fuerte generalización que buscamos en nuestros modelos: la gente puede resolver nuevos estilos de captcha sin un entrenamiento específico de estilo”, escriben los investigadores.

George y sus colegas extenderán su investigación a otros dominios. “Estamos extendiendo RCN a dominios temporales, y luego lo acoplamos con el aprendizaje de conceptos y finalmente el lenguaje. También estamos ampliando las situaciones en las que se aplica RCN en robótica ”, dice.

Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo original aquí.

Publicado el 26 de noviembre de 2020-11: 00 UTC





Fuente: TNW

Compartir:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para fines de afiliación y para mostrarte publicidad relacionada con tus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Al hacer clic en el botón Aceptar, aceptas el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad