Por qué el entrenamiento de redes neuronales tiene un precio elevado


En los últimos años, el aprendizaje profundo ha demostrado ser una solución eficaz para muchos de los problemas difíciles de inteligencia artificial. Pero el aprendizaje profundo también se está volviendo cada vez más caro. La ejecución de redes neuronales profundas requiere una gran cantidad de recursos informáticos, lo que las capacita aún más.

Los costos del aprendizaje profundo están causando varios desafíos para la comunidad de inteligencia artificial, incluido un gran huella de carbono y el comercialización de la investigación en IA. Y con una mayor demanda de capacidades de IA fuera de los servidores en la nube y en «dispositivos de borde, «Existe una creciente necesidad de redes neuronales que sean rentables.

Si bien los investigadores de IA han avanzado en la reducción de los costos de funcionamiento modelos de aprendizaje profundo, el problema mayor de reducir los costos de entrenamiento de redes neuronales profundas sigue sin resolverse.

Un trabajo reciente de investigadores de inteligencia artificial en el Laboratorio de Inteligencia Artificial y Ciencias de la Computación del MIT (MIT CSAIL), el Instituto de Vectores de la Universidad de Toronto y Element AI, explora el progreso realizado en el campo. En un artículo titulado «Poda de las redes neuronales en la inicialización: ¿Por qué estamos perdiendo la marca?, ”Los investigadores discuten por qué los métodos de vanguardia actuales no logran reducir los costos del entrenamiento de redes neuronales sin tener un impacto considerable en su rendimiento. También sugieren direcciones para futuras investigaciones.

Poda de redes neuronales profundas después del entrenamiento

La última década ha demostrado que, en general, las grandes redes neuronales proporcionan mejores resultados. Pero los grandes modelos de aprendizaje profundo tienen un costo enorme. Por ejemplo, para capacitar a OpenAI GPT-3, que tiene 175 mil millones de parámetros, necesitará acceso a enormes clústeres de servidores con tarjetas gráficas muy potentes, y los costos pueden elevarse a varios millones de dólares. Además, necesita cientos de gigabytes de VRAM y un servidor sólido para ejecutar el modelo.

Hay un cuerpo de trabajo que demuestra que las redes neuronales se pueden «podar». Esto significa que dada una red neuronal muy grande, existe un subconjunto mucho más pequeño que puede proporcionar la misma precisión que el modelo de IA original sin una penalización significativa en su rendimiento. Por ejemplo, a principios de este año, un par de investigadores de inteligencia artificial demostraron que, si bien un gran modelo de aprendizaje profundo podría aprender a predecir los pasos futuros en El juego de la vida de John Conway, casi siempre existe una red neuronal mucho más pequeña que se puede entrenar para realizar la misma tarea con perfecta precisión.

Ya hay mucho progreso en la poda post-entrenamiento. Después de que un modelo de aprendizaje profundo pasa por todo el proceso de entrenamiento, puede desechar muchos de sus parámetros, a veces reduciéndolos al 10 por ciento de su tamaño original. Para ello, puntúa los parámetros según el impacto que tienen sus ponderaciones en el valor final de la red.

Muchas empresas de tecnología ya están utilizando este método para comprimir sus modelos de IA y colocarlos en teléfonos inteligentes, computadoras portátiles y dispositivos domésticos inteligentes. Además de reducir drásticamente los costos de inferencia, esto proporciona muchos beneficios, como evitar la necesidad de enviar datos de usuario a servidores en la nube y proporcionar inferencia en tiempo real. En muchas áreas, las redes neuronales pequeñas permiten emplear el aprendizaje profundo en dispositivos que funcionan con baterías solares o pilas de botón.

Poda temprana de las redes neuronales

descenso de gradiente aprendizaje profundo