El aprendizaje automático y el aprendizaje profundo se han convertido en una parte importante de muchas aplicaciones que usamos todos los días. Hay pocos dominios que la rápida expansión de aprendizaje automático no ha tocado. Muchas empresas han prosperado al desarrollar la estrategia adecuada para integrar algoritmos de aprendizaje automático en sus operaciones y procesos. Otros han perdido terreno frente a la competencia tras ignorar los innegables avances en inteligencia artificial.
Pero dominar el aprendizaje automático es un proceso difícil. Debe comenzar con un conocimiento sólido de álgebra lineal y cálculo, dominar un lenguaje de programación como Python y dominar la ciencia de datos y las bibliotecas de aprendizaje automático como Numpy, Scikit-learn, TensorFlow y PyTorch.
Y si desea crear sistemas de aprendizaje automático que se integren y escalen, tendrá que aprender plataformas en la nube como Amazon AWS, Microsoft Azure y Google Cloud.
Naturalmente, no todo el mundo necesita convertirse en ingeniero de aprendizaje automático. Pero casi todos los que dirigen una empresa u organización que recopila y procesa de manera sistemática pueden beneficiarse de algunos conocimientos de ciencia de datos y aprendizaje automático. Afortunadamente, hay varios cursos que brindan una descripción general de alto nivel del aprendizaje automático y el aprendizaje profundo sin profundizar demasiado en las matemáticas y la codificación.
Pero en mi experiencia, una buena comprensión de la ciencia de datos y el aprendizaje automático requiere cierta experiencia práctica con algoritmos. En este sentido, una herramienta muy valiosa y que a menudo se pasa por alto es Microsoft Excel.
Para la mayoría de las personas, MS Excel es una aplicación de hoja de cálculo que almacena datos en formato tabular y realiza operaciones matemáticas muy básicas. Pero en realidad, Excel es una poderosa herramienta de cálculo que puede resolver problemas complicados. Excel también tiene muchas características que le permiten crear modelos de aprendizaje automático directamente en sus libros de trabajo.
Si bien he estado usando las herramientas matemáticas de Excel durante años, no llegué a apreciar su uso para aprender y aplicar ciencia de datos y aprendizaje automático hasta que aprendí Aprenda la minería de datos a través de Excel: un enfoque paso a paso para comprender los métodos de aprendizaje automático por Hong Zhou.
Aprenda la minería de datos a través de Excel lo lleva a través de los conceptos básicos del aprendizaje automático paso a paso y muestra cómo puede implementar muchos algoritmos utilizando funciones básicas de Excel y algunas de las herramientas avanzadas de la aplicación.
Si bien Excel no reemplazará de ninguna manera Aprendizaje automático de Python, es una gran ventana para aprender los conceptos básicos de la IA y resolver muchos problemas básicos sin escribir una línea de código.
Aprendizaje automático de regresión lineal con Excel
La regresión lineal es un algoritmo de aprendizaje automático simple que tiene muchos usos para analizar datos y predecir resultados. La regresión lineal es especialmente útil cuando sus datos están ordenados en formato tabular. Excel tiene varias características que le permiten crear modelos de regresión a partir de datos tabulares en sus hojas de cálculo.
Una de las más intuitivas es la herramienta de gráficos de datos, que es una potente función de visualización de datos. Por ejemplo, el gráfico de diagrama de dispersión muestra los valores de sus datos en un plano cartesiano. Pero además de mostrar la distribución de sus datos, la herramienta de gráficos de Excel puede crear un modelo de aprendizaje automático que puede predecir los cambios en los valores de sus datos. La función, llamada Trendline, crea un modelo de regresión a partir de sus datos. Puede establecer la línea de tendencia en uno de varios algoritmos de regresión, incluidos lineal, polinomial, logarítmico y exponencial. También puede configurar el gráfico para mostrar los parámetros de su modelo de aprendizaje automático, que puede usar para predecir el resultado de nuevas observaciones.
Puede agregar varias líneas de tendencia al mismo gráfico. Esto hace que sea fácil probar y comparar rápidamente el rendimiento de diferentes modelos de aprendizaje automático en sus datos.
Además de explorar la herramienta de gráficos, Aprenda la minería de datos a través de Excel lo lleva a través de varios otros procedimientos que pueden ayudarlo a desarrollar modelos de regresión más avanzados. Estos incluyen fórmulas como LINEST y LINREG, que calculan los parámetros de sus modelos de aprendizaje automático en función de sus datos de entrenamiento.
[Leer:[Read:
]El autor también lo guía a través de la creación paso a paso de modelos de regresión lineal utilizando fórmulas básicas de Excel como SUM y SUMPRODUCT. Este es un tema recurrente en el libro: verá la fórmula matemática de un modelo de aprendizaje automático, aprenderá el razonamiento básico detrás de él y lo creará paso a paso combinando valores y fórmulas en varias celdas y matrices de celdas.
Si bien esta puede no ser la forma más eficiente de realizar el trabajo de ciencia de datos a nivel de producción, ciertamente es una muy buena manera de aprender el funcionamiento de los algoritmos de aprendizaje automático.
Otros algoritmos de aprendizaje automático con Excel
Más allá de los modelos de regresión, puede usar Excel para otros algoritmos de aprendizaje automático. Aprenda la minería de datos a través de Excel proporciona una rica lista de algoritmos de aprendizaje automático supervisados y no supervisados, incluida la agrupación de k-medias, el vecino más cercano de k, la clasificación de Bayes ingenua y los árboles de decisión.
El proceso puede complicarse un poco a veces, pero si te mantienes en el camino correcto, la lógica encajará fácilmente. Por ejemplo, en el capítulo de agrupación en clústeres de k-medias, podrá utilizar una amplia gama de fórmulas y funciones de Excel (INDICE, IF, AVERAGEIF, ADDRESS y muchas otras) en varias hojas de trabajo para calcular los centros de clústeres y refinarlos. Esta no es una forma muy eficiente de hacer agrupaciones, podrá rastrear y estudiar sus agrupaciones a medida que se perfeccionen en cada hoja consecutiva. Desde un punto de vista educativo, la experiencia es muy diferente a la de los libros de programación en los que proporciona una función de biblioteca de aprendizaje automático con sus puntos de datos y genera los clústeres y sus propiedades.
En el capítulo del árbol de decisiones, pasará por el proceso de cálculo de entropía y selección de características para cada rama de su modelo de aprendizaje automático. Nuevamente, el proceso es lento y manual, pero ver bajo el capó del algoritmo de aprendizaje automático es una experiencia gratificante.
En muchos de los capítulos del libro, utilizará la herramienta Solver para minimizar su función de pérdida. Aquí es donde verá los límites de Excel, porque incluso un modelo simple con una docena de parámetros puede ralentizar su computadora, especialmente si su muestra de datos tiene un tamaño de varios cientos de filas. Pero el Solver es una herramienta especialmente poderosa cuando desea ajustar los parámetros de su modelo de aprendizaje automático.
Aprendizaje profundo y procesamiento del lenguaje natural con Excel
Aprenda la minería de datos a través de Excel muestra que Excel puede incluso utilizar algoritmos avanzados de aprendizaje automático. Hay un capítulo que profundiza en la meticulosa creación de modelos de aprendizaje profundo. Primero, creará una sola capa Red neuronal artificial con menos de una docena de parámetros. Luego, ampliará el concepto para crear un modelo de aprendizaje profundo con capas ocultas. El cálculo es muy lento e ineficiente, pero funciona y los componentes son los mismos: valores de celda, fórmulas y la poderosa herramienta Solver.
En el último capítulo, creará un rudimentario procesamiento natural del lenguaje (NLP), utilizando Excel para crear un modelo de aprendizaje automático de análisis de sentimientos. Utilizará fórmulas para crear un modelo de «bolsa de palabras», preprocesar y tokenizar las reseñas de hoteles y clasificarlas según la densidad de palabras clave positivas y negativas. En el proceso, aprenderá bastante sobre cómo la IA contemporánea se ocupa del lenguaje y que tan diferente proviene de cómo los humanos procesamos el lenguaje escrito y hablado.
Excel como herramienta de aprendizaje automático
Ya sea que esté tomando decisiones de nivel C en su empresa, trabajando en recursos humanos o administrando cadenas de suministro e instalaciones de fabricación, un conocimiento básico de aprendizaje automático será importante si trabajará con científicos de datos y personas de inteligencia artificial. Del mismo modo, si eres un reportero que cubre noticias de IA o una agencia de relaciones públicas que trabaja en nombre de una empresa que utiliza el aprendizaje automático, escribe sobre la tecnología sin saber como funciona es mala idea (Escribiré una publicación separada sobre los muchos lanzamientos de IA horribles que recibo todos los días). En mi opinión, Aprenda la minería de datos a través de Excel es una lectura fluida y rápida que le ayudará a adquirir ese importante conocimiento.
Más allá de aprender los conceptos básicos, Excel puede ser una adición poderosa a su repertorio de herramientas de aprendizaje automático. Si bien no es bueno para tratar con grandes conjuntos de datos y algoritmos complicados, puede ayudar con la visualización y el análisis de lotes de datos más pequeños. Los resultados que obtiene de una extracción rápida de Excel pueden proporcionar información pertinente para elegir la dirección correcta y el algoritmo de aprendizaje automático para abordar el problema en cuestión.
Este artículo fue publicado originalmente por Ben Dickson en TechTalks, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malo de la tecnología, las implicaciones más oscuras de la nueva tecnología y lo que debemos tener en cuenta. Puedes leer el artículo original aquí.