En el verano de 1956, 10 científicos se reunieron en Dartmouth College y inventó la inteligencia artificial. Investigadores de campos como las matemáticas, la ingeniería, la psicología, la economía y las ciencias políticas se unieron para descubrir si podían describir el aprendizaje y el pensamiento humano con tanta precisión que pudieran replicarse con una máquina. Apenas una década después, estos mismos científicos contribuyeron a avances dramáticos en robótica, procesamiento de lenguaje natural y visión artificial.
Aunque ha pasado mucho tiempo desde entonces, la robótica, el procesamiento del lenguaje natural y la visión por computadora siguen siendo algunas de las áreas de investigación más candentes hasta el día de hoy. Se podría decir que estamos enfocados en enseñar a la IA a moverse como un humano, hablar como un humano y ver como un humano.
El caso para hacer esto es claro: con IA, queremos máquinas para automatizar tareas como conducir, leer contratos legales o comprar comestibles. Y queremos que estas tareas se realicen de manera más rápida, segura y exhaustiva de lo que los humanos jamás podrían hacerlo. De esta manera, los humanos tendrán más tiempo para actividades divertidas, mientras que las máquinas se encargarán de las tareas aburridas de nuestras vidas.
Sin embargo, los investigadores reconocen cada vez más que la IA, cuando se modela según el pensamiento humano, podría heredar sesgos humanos. Este problema se manifiesta en Amazon algoritmo de reclutamiento, que es famosa por discriminar a las mujeres, y el gobierno de EE. UU. Algoritmo COMPAS, que castiga desproporcionadamente a los negros. Una miríada de otros ejemplos hablan más del problema del sesgo en la IA.
En ambos casos, el problema comenzó con un conjunto de datos defectuoso. La mayoría de los empleados de Amazon eran hombres y muchas de las personas encarceladas eran negras. Aunque esas estadísticas son el resultado de sesgos culturales generalizados, el algoritmo no tenía forma de saberlo. En cambio, concluyó que debería replicar los datos que recibió, lo que exacerba los sesgos incrustados en los datos.
Las correcciones manuales pueden eliminar estos sesgos, pero conllevan riesgos. Si no se implementan correctamente, las correcciones bien intencionadas pueden empeorar algunos sesgos o incluso introducir otros nuevos. Sin embargo, los desarrollos recientes con respecto a los algoritmos de IA están haciendo que estos sesgos sean cada vez menos significativos. Los ingenieros deberían adoptar estos nuevos hallazgos. Los nuevos métodos limitan el riesgo de sesgo que contamina los resultados, ya sea del conjunto de datos o de los propios ingenieros. Además, las técnicas emergentes significan que los propios ingenieros tendrán que interferir menos con la IA, eliminando tareas más aburridas y repetitivas.
Cuando el conocimiento humano es el rey
Imagine el siguiente escenario: tiene un gran conjunto de datos de personas de diferentes ámbitos de la vida, rastreando si han tenido COVID o no. Las etiquetas COVID/no-COVID han sido ingresadas por humanos, ya sean médicos, enfermeras o farmacéuticos. Los proveedores de atención médica podrían estar interesados en predecir si es probable que una nueva entrada ya haya tenido COVID.
El aprendizaje automático supervisado es útil para abordar este tipo de problema. Un algoritmo puede tomar todos los datos y comenzar a comprender cómo las diferentes variables, como la ocupación de una persona, los ingresos brutos, el estado familiar, la raza o el código postal, influyen en si contrajo la enfermedad o no. El algoritmo puede estimar qué tan probable es, por ejemplo, que una enfermera latina con tres niños de Nueva York ya haya tenido COVID. Como consecuencia, la fecha de su vacunación o las primas de su seguro pueden ajustarse para salvar más vidas mediante la asignación eficiente de recursos limitados.
Este proceso suena extremadamente útil a primera vista, pero hay trampas. Por ejemplo, un proveedor de atención médica con exceso de trabajo podría haber etiquetado incorrectamente los puntos de datos, lo que daría lugar a errores en el conjunto de datos y, en última instancia, a conclusiones poco fiables. Este tipo de errores es especialmente dañino en el mercado de trabajo y sistema penitenciario antes mencionado.
El aprendizaje automático supervisado parece una solución ideal para muchos problemas. Pero los humanos están demasiado involucrados en el proceso de creación de datos para hacer de esto una panacea. En un mundo que aún sufre desigualdades raciales y de género, los prejuicios humanos son generalizados y dañinos. La IA que depende de tanta participación humana siempre corre el riesgo de incorporar estos sesgos.

Cuando los datos son el rey
Afortunadamente, existe otra solución que puede dejar atrás las etiquetas hechas por humanos y solo trabajar con datos que son, al menos de alguna manera, objetivos. En el ejemplo del predictor de COVID, podría tener sentido eliminar las etiquetas COVID / no-COVID hechas por humanos. Por un lado, los datos pueden ser incorrectos debido a un error humano. Otro problema importante es que los datos pueden estar incompletos. Las personas de nivel socioeconómico más bajo tienden a tener menos acceso a los recursos de diagnóstico, lo que significa que es posible que ya hayan tenido COVID pero nunca hayan dado positivo. Esta ausencia puede sesgar el conjunto de datos.
Por lo tanto, para que los resultados sean más confiables para las aseguradoras o proveedores de vacunas, podría ser útil eliminar la etiqueta. Un modelo de aprendizaje automático no supervisado ahora seguiría adelante y agruparía los datos, por ejemplo, por código postal o por la ocupación de una persona. De esta manera, se obtienen varios grupos diferentes. Luego, el modelo puede asignar fácilmente una nueva entrada a uno de estos grupos.
Posteriormente, se pueden cotejar estos datos agrupados con otros datos más fiables como el exceso de mortalidad en una zona geográfica o dentro de una profesión. De esta manera, se obtiene una probabilidad sobre si alguien ha tenido COVID o no, independientemente de que algunas personas puedan tener más acceso a las pruebas que otras.
Por supuesto, esto aún requiere algo de trabajo manual porque un científico de datos necesita hacer coincidir los datos agrupados con los datos sobre el exceso de mortalidad. Sin embargo, los resultados pueden ser mucho más confiables para las aseguradoras o proveedores de vacunas.
Máquinas de envío en una caza de recompensas
Una vez más, todo esto está muy bien, pero todavía está dejando la reparación de los datos de la vacuna o la póliza de seguro a la persona en el otro extremo del proceso. En el caso de las vacunas, la persona a cargo puede decidir vacunar a las personas de color más tarde porque tienden a usar el sistema de salud con menos frecuencia, por lo que es menos probable que los hospitales se desborden si se enferman. No hace falta decir que esta sería una política injusta basada en suposiciones racistas.
Dejar las decisiones en manos de la máquina puede ayudar a eludir los sesgos arraigados en los tomadores de decisiones. Este es el concepto detrás del aprendizaje por refuerzo. Proporciona el mismo conjunto de datos que antes, sin las etiquetas hechas por humanos, ya que podrían sesgar los resultados. También le proporciona información sobre pólizas de seguro o cómo funcionan las vacunas. Finalmente, elige algunos objetivos clave, como evitar el uso excesivo de los recursos del hospital, la equidad social, etc.
En el aprendizaje por refuerzo, la máquina es recompensada si encuentra una póliza de seguro o una fecha de vacunación que cumpla con los objetivos clave. Entrenándose en el conjunto de datos, encuentra políticas o fechas de vacunas que optimizan estos objetivos.
Este proceso elimina aún más la necesidad de la entrada de datos humanos o la toma de decisiones. Aunque todavía está lejos de ser perfecto, este tipo de modelo no solo podría tomar decisiones importantes de manera más rápida y fácil, sino también más justas y libres de intolerancia humana.

Reducir aún más el sesgo humano
Cualquier científico de datos le dirá que no todos los modelos de aprendizaje automático, ya sea supervisado, no supervisado o de refuerzo, se adaptan bien a todos los problemas. Por ejemplo, un proveedor de seguros podría querer obtener las probabilidades de que una persona haya tenido COVID o no, pero desearía averiguar las pólizas por sí mismo. Esto cambia el problema y hace inadecuado el aprendizaje por refuerzo.
Afortunadamente, existen algunas prácticas comunes que contribuyen en gran medida a obtener resultados imparciales, incluso cuando la elección del modelo es limitada. La mayoría de estos se basan en el conjunto de datos.
En primer lugar, cegar los datos no confiables es una buena idea cuando tiene razones para sospechar que un punto de datos en particular puede estar indebidamente influenciado por las desigualdades existentes. Por ejemplo, dado que sabemos que la etiqueta COVID / no-COVID puede ser inexacta por una variedad de razones, omitirla podría generar resultados más precisos.
Sin embargo, esta táctica no debe confundirse con el cegamiento de datos confidenciales. Por ejemplo, se podría optar por cegar los datos de raza para evitar la discriminación. Sin embargo, esto podría hacer más daño que bien, porque la máquina podría aprender algo sobre los códigos postales y las pólizas de seguro. Y los códigos postales están, en muchos casos, fuertemente correlacionados con la raza. El resultado es que una enfermera latina de Nueva York y una enfermera blanca de Ohio con datos idénticos podrían terminar con diferentes pólizas de seguro, lo que podría resultar injusto.
Para asegurarse de que esto no suceda, se pueden agregar pesos a los datos de la carrera. Un modelo de aprendizaje automático podría concluir rápidamente que los latinos contraen COVID con más frecuencia. En consecuencia, podría solicitar mayores cotizaciones de seguro a este segmento de la población para compensar este riesgo. Al dar a los latinos pesos ligeramente más favorables que a los blancos, uno puede compensar de tal manera que una latina y una enfermera blanca terminen obteniendo la misma póliza de seguro.
Sin embargo, se debe usar el método de ponderación con cuidado, ya que puede sesgar fácilmente los resultados para grupos pequeños. Imagine, por ejemplo, que en nuestro conjunto de datos de COVID, solo hay unos pocos nativos americanos. Por casualidad, todos estos nativos americanos son taxistas. El modelo podría haber sacado algunas conclusiones sobre los taxistas y su seguro médico óptimo en otras partes del conjunto de datos. Si el peso de los nativos americanos es exagerado, entonces un nuevo nativo americano puede terminar obteniendo la póliza para los taxistas, aunque es posible que tengan una ocupación diferente.
Eliminar manualmente el sesgo de un modelo imperfecto es extremadamente complicado y requiere muchas pruebas, sentido común y decencia humana. Además, es solo una solución temporal. A más largo plazo, deberíamos dejar de lado la intromisión humana y el sesgo que la acompaña. En cambio, deberíamos aceptar el hecho de que las máquinas no son tan horribles e injustas como los humanos si se las deja solas con los objetivos correctos por los cuales trabajar.
La IA centrada en el ser humano es asombrosa, pero no debemos olvidar que los humanos son defectuosos
Hacer que la IA se mueva, hable y piense como un ser humano es un objetivo honorable. Pero los humanos también dicen y piensan cosas horribles, especialmente hacia los grupos desfavorecidos. Dejar que un equipo de científicos de datos humanos filtre todas las fuentes de sesgo humano e ignorancia es una tarea demasiado grande, especialmente si el equipo no es lo suficientemente diverso.
Las máquinas, por otro lado, no han crecido en una sociedad de disparidades raciales y económicas. Simplemente toman los datos disponibles y hacen lo que se supone que deben hacer con ellos. Por supuesto, pueden producir una mala salida si el conjunto de datos es malo o si los humanos defectuosos intervienen demasiado. Pero muchas de estas fallas en los conjuntos de datos pueden compensarse con mejores modelos.
La IA, en este momento, es poderosa pero todavía tiene un sesgo humano con demasiada frecuencia. La IA centrada en el ser humano no desaparecerá porque hay tantas tareas mundanas que la IA podría quitarles las manos a los humanos. Pero no debemos olvidar que muchas veces podemos lograr mejores resultados si dejamos que las máquinas hagan lo suyo.
Este artículo se publicó originalmente en Built In. Puedes leerlo aquí.