El 14 de febrero, un investigador que estaba frustrado con la reproducción de los resultados de un artículo de investigación de aprendizaje automático abrió una cuenta de Reddit con el nombre de usuario ContributionSecure14 y publicó el r / MachineLearning subreddit: “Acabo de pasar una semana implementando un documento como línea de base y no pude reproducir los resultados. Hoy, después de buscar en Google, me di cuenta de que algunos otros tampoco pudieron reproducir los resultados. ¿Existe una lista de esos documentos? Ahorrará a la gente mucho tiempo y esfuerzo «.
La publicación tocó un nervio con otros usuarios en r / MachineLearning, que es la comunidad de Reddit más grande para el aprendizaje automático.
«Es más fácil compilar una lista de reproducibles …», respondió un usuario.
“Probablemente, entre el 50% y el 75% de todos los papeles no son reproducibles. Es triste, pero es cierto «, escribió otro usuario. “Piénselo, la mayoría de los artículos están ‘optimizados’ para participar en una conferencia. La mayoría de las veces, los autores saben que un artículo que intentan presentar en una conferencia no es muy bueno. Así que no tienen que preocuparse por la reproducibilidad porque nadie intentará reproducirlos «.
Algunos otros usuarios publicaron enlaces a documentos de aprendizaje automático que no habían implementado y expresaron su frustración porque la implementación del código no es un requisito en las conferencias de aprendizaje automático.
Al día siguiente, ContributionSecure14 creó «Papeles sin código, ”Un sitio web que tiene como objetivo crear una lista centralizada de artículos de aprendizaje automático que no se pueden implementar.
«No estoy seguro de si esta es la mejor o la peor idea, pero pensé que sería útil recopilar una lista de artículos que la gente ha intentado reproducir y ha fallado», ContributionSecure14 escribió en r / MachineLearning. “Esto les dará a los autores la oportunidad de publicar su código, proporcionar sugerencias o rescindir el artículo. Mi esperanza es que esto incentive una cultura de investigación de AA más saludable en torno a no publicar trabajos irreproducibles «.
Reproducir los resultados de los trabajos de aprendizaje automático
Aprendizaje automático Los investigadores publican artículos con regularidad en plataformas en línea como arXiv y OpenReview. Estos artículos describen conceptos y técnicas que destacan nuevos desafíos en los sistemas de aprendizaje automático o presentan nuevas formas de resolver problemas conocidos. Muchos de estos artículos llegan a las principales conferencias de inteligencia artificial como NeurIPS, ICML, ICLR y CVPR.
Tener un código fuente para acompañar un trabajo de investigación ayuda mucho a verificar la validez de una técnica de aprendizaje automático y construir sobre ella. Pero esto no es un requisito para las conferencias de aprendizaje automático. Como resultado, muchos estudiantes e investigadores que leen estos artículos tienen dificultades para reproducir sus resultados.
«El trabajo irreproducible desperdicia el tiempo y el esfuerzo de investigadores bien intencionados, y los autores deben esforzarse por garantizar que exista al menos una implementación pública de su trabajo», dijo ContributionSecure14, que prefirió permanecer en el anonimato. TechTalks en comentarios escritos. «Publicar un artículo con resultados empíricos en el dominio público no tiene sentido si otros no pueden basarse en el artículo o utilizarlo como referencia».
Pero ContributionSecure14 también reconoce que a veces existen razones legítimas para que los investigadores de aprendizaje automático no publiquen su código. Por ejemplo, algunos autores pueden entrenar sus modelos en la infraestructura interna o utilizar grandes conjuntos de datos internos para la formación previa. En tales casos, los investigadores no tienen la libertad de publicar el código o los datos junto con su artículo debido a la política de la empresa.
“Si los autores publican un artículo sin código debido a tales circunstancias, personalmente creo que tienen la responsabilidad académica de trabajar en estrecha colaboración con otros investigadores que intentan reproducir su artículo”, dice ContributionSecure14. “No tiene sentido publicar el artículo en el dominio público si otros no pueden construir a partir de él. Debería haber al menos una implementación de referencia disponible públicamente para que otros la construyan o la utilicen como línea de base «.
En algunos casos, incluso si los autores publican tanto el código fuente como los datos en su artículo, otros investigadores de aprendizaje automático todavía luchan por reproducir los resultados. Esto puede deberse a varias razones. Por ejemplo, los autores pueden seleccionar los mejores resultados de varios experimentos y presentarlos como logros de vanguardia. En otros casos, los investigadores podrían haber utilizado trucos como ajustar los parámetros de su modelo de aprendizaje automático al conjunto de datos de prueba para mejorar los resultados. En tales casos, incluso si los resultados son reproducibles, no son relevantes, porque el modelo de aprendizaje automático se ha sobreajustado a condiciones específicas y no funcionará bien con datos nunca antes vistos.
“Creo que es necesario tener un código reproducible como requisito previo para verificar de forma independiente la validez de los resultados declarados en el documento, pero [code alone is] no es suficiente ”, dijo ContributionSecure14.
Esfuerzos para la reproducibilidad del aprendizaje automático
El problema de la reproducibilidad no se limita a los pequeños equipos de investigación de aprendizaje automático. Incluso las grandes empresas de tecnología que gastan millones de dólares en investigación de IA cada año a menudo no logran validar los resultados de sus trabajos. En octubre de 2020, un grupo de 31 científicos escribió un artículo conjunto en Naturaleza, criticando la falta de transparencia y reproducibilidad en un artículo sobre el uso de IA en imágenes médicas, publicado por un grupo de investigadores de IA en Google. «[The] La ausencia de métodos y códigos informáticos suficientemente documentados en los que se basa el estudio socava efectivamente su valor científico. Esta deficiencia limita la evidencia requerida para que otros validen prospectivamente e implementen clínicamente tales tecnologías ”, escribieron los autores. «El progreso científico depende de la capacidad de los investigadores independientes para analizar los resultados de un estudio de investigación, reproducir los resultados principales del estudio utilizando sus materiales y aprovecharlos en estudios futuros».
En los últimos años, se ha prestado una atención cada vez mayor a la crisis de reproducibilidad de la IA. El trabajo notable en este sentido incluye los esfuerzos de Joelle Pineau, científica de aprendizaje automático en la Universidad McGill de Montreal y Facebook AI, quien ha estado presionando por la transparencia y reproducibilidad de la investigación del aprendizaje automático en conferencias como NeurIPS.
“Una mejor reproducibilidad significa que es mucho más fácil construir en papel. A menudo, el proceso de revisión es corto y limitado, y el verdadero impacto de un artículo es algo que veremos mucho más tarde. El documento sigue vivo y, como comunidad, tenemos la oportunidad de basarnos en el trabajo, examinar el código, tener un ojo crítico sobre cuáles son las contribuciones ”, dijo Pineau. dijo Naturaleza en una entrevista en 2019.
En NeurIPS, Pineau ha ayudado a desarrollar estándares y procesos que pueden ayudar a los investigadores y revisores a evaluar la reproducibilidad de los artículos de aprendizaje automático. Sus esfuerzos han dado como resultado un aumento en el envío de código y datos en NeurIPS.
Otro proyecto interesante es Papeles con código (de donde Papers Without Code recibe su nombre), un sitio web que proporciona implementaciones para trabajos de investigación científica publicados y presentados en diferentes lugares. Papers With Code alberga actualmente la implementación de más de 40.000 artículos de investigación sobre aprendizaje automático.
“PapersWithCode juega un papel importante a la hora de destacar los documentos que son reproducibles. Sin embargo, no aborda el problema de los papeles no reproducibles ”, dijo ContributionSecure14.
Cuando un artículo de investigación sobre aprendizaje automático no incluye el código de implementación, otros investigadores que lo lean deben intentar implementarlo por sí mismos, un proceso no trivial que puede llevar varias semanas y, en última instancia, resultar en un fracaso.
«Si no logran implementarlo con éxito, pueden comunicarse con los autores (que pueden no responder) o simplemente darse por vencidos», dijo ContributionSecure14. «Esto puede sucederle a varios investigadores que no están al tanto de los intentos anteriores o en curso de reproducir el artículo, lo que resulta en muchas semanas de productividad desperdiciada en conjunto».
Papeles sin código
Papers Without Code incluye un página de envío, donde los investigadores pueden enviar artículos de aprendizaje automático no reproducibles junto con los detalles de sus esfuerzos, como cuánto tiempo dedicaron a intentar reproducir los resultados. Si un envío es válido, Papers Without Code se pondrá en contacto con los autores originales del artículo y solicitará una aclaración o la publicación de los detalles de implementación. Si los autores no responden a tiempo, el artículo se agregará a la lista de artículos de aprendizaje automático irreproducibles.
“PapersWithoutCode resuelve el problema de centralizar la información sobre intentos anteriores o en curso de reproducir un artículo y permite a los investigadores (incluido el autor original) unirse e implementar una implementación pública”, dijo ContributionSecure14. “Una vez que el artículo se ha reproducido con éxito, se puede publicar en PapersWithCode o GitHub, donde otros investigadores pueden usarlo. En ese sentido, diría que los objetivos de PapersWithoutCode son sinérgicos con eso o con PapersWithCode y la comunidad de ML en general «.
La esperanza es que Papers Without Code ayude a establecer una cultura que incentive la reproducibilidad en la investigación del aprendizaje automático. Hasta ahora, el sitio web ha recibido más de 10 solicitudes y un autor ya se ha comprometido a cargar su código.
«Me doy cuenta de que este puede ser un tema controvertido en el mundo académico y que la máxima prioridad es proteger la reputación de los autores al mismo tiempo que se sirve a la comunidad de ML más amplia», dijo ContributionSecure14.
Papers Without Code puede convertirse en un centro para crear un diálogo entre los autores originales de los artículos de aprendizaje automático y los investigadores que intentan reproducir su trabajo.
“En lugar de ser una lista estática de trabajo irreproducible, la esperanza es crear un entorno en el que los investigadores puedan colaborar para reproducir un artículo”, dijo ContributionSecure14.
Investigación reproducible sobre aprendizaje automático
Por ejemplo, si está trabajando en una investigación que se basa en el trabajo realizado en otro documento, debe probar el código o el modelo de aprendizaje automático usted mismo.
“No se base en afirmaciones o ‘ideas’ que podrían ser infundadas solo porque el documento lo dice », dice ContributionSecure14, y agrega que esto incluye trabajos de laboratorios grandes o trabajos que hayan sido aceptados en una conferencia de renombre.
Otro buen recurso es el del profesor Pineau «Lista de verificación de reproducibilidad del aprendizaje automático. » La lista de verificación proporciona pautas claras sobre cómo hacer que la descripción, el código y los datos de un documento de aprendizaje automático sean claros y reproducibles para otros investigadores.
ContributionSecure14 cree que los investigadores de aprendizaje automático pueden desempeñar un papel crucial en la promoción de una cultura de reproducibilidad.
“Hay mucha presión para publicar a expensas de la profundidad académica y la reproducibilidad y no hay muchos controles y contrapesos para prevenir este comportamiento”, dijo ContributionSecure14. «La única forma en que esto cambiará es si la generación actual y futura de investigadores de ML priorizan la calidad sobre la cantidad en su propia investigación».
Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo original aquí.
Publicado el 6 de marzo de 2021-09: 00 UTC