Una guía para principiantes sobre visualización de datos con Python y Seaborn


La visualización de datos es una técnica que permite a los científicos de datos convertir datos sin procesar en gráficos y diagramas que generan información valiosa. Los gráficos reducen la complejidad de los datos y facilitan la comprensión para cualquier usuario.

Hay muchas herramientas para realizar la visualización de datos, como Tableau, Power BI, ChartBlocks y más, que son herramientas sin código. Son herramientas muy poderosas y tienen su audiencia. Sin embargo, cuando se trabaja con datos sin procesar que requieren transformación y un buen campo de juego para los datos, Python es una excelente opción.

Aunque es más complicado ya que requiere conocimientos de programación, Python le permite realizar cualquier manipulación, transformación y visualización de sus datos. Es ideal para científicos de datos.

Hay muchas razones por las que Python es la mejor opción para la ciencia de datos, pero una de las más importantes es su ecosistema de bibliotecas. Hay muchas bibliotecas excelentes disponibles para que Python trabaje con datos como numpy, pandas, matplotlib, tensorflow.

Matplotlib es probablemente la biblioteca de trazado más reconocida que existe, disponible para Python y otros lenguajes de programación como R. Es su nivel de personalización y operatividad lo que lo estableció en primer lugar. Sin embargo, algunas acciones o personalizaciones pueden ser difíciles de manejar al usarlo.

Los desarrolladores crearon una nueva biblioteca basada en matplotlib llamada seaborn. Seaborn es tan poderoso como matplotlib al mismo tiempo que proporciona una abstracción para simplificar los gráficos y aportar algunas características únicas.

En este artículo, nos centraremos en cómo trabajar con Seaborn para crear los mejores gráficos de su clase. Si desea seguir adelante, puede crear su propio proyecto o simplemente consultar mi proyecto de guía seaborn en GitHub.

¿Qué es Seaborn?

Seaborn es una biblioteca para hacer gráficos estadísticos en Python. Se construye sobre matplotlib y se integra estrechamente con estructuras de datos de pandas .

El diseño de Seaborn le permite explorar y comprender sus datos rápidamente. Seaborn funciona capturando marcos de datos completos o matrices que contienen todos sus datos y realizando todas las funciones internas necesarias para el mapeo semántico y la agregación estadística para convertir los datos en gráficos informativos.

Abstrae la complejidad y le permite diseñar sus parcelas según sus requisitos.

[Leer:[Read:Conozca las 4 ampliaciones que utilizan datos para salvar el planeta]

Instalación de Seaborn

Instalando seaborn es tan fácil como instalar una biblioteca usando su administrador de paquetes favorito de Python. Al instalar seaborn, la biblioteca instalará sus dependencias, incluidas matplotlib, pandas, numpyy scipy.

A continuación, instalemos Seaborn y, por supuesto, también el paquete cuaderno para acceder a nuestro parque de datos.

pipenv install seaborn notebook

Además, vamos a importar algunos módulos antes de comenzar.

import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib

Construyendo tus primeras parcelas

Antes de que podamos empezar a graficar algo, necesitamos datos. La belleza de seaborn es que funciona directamente con pandas marcos de datos, lo que lo hace muy conveniente. Aún más, la biblioteca viene con algunos conjuntos de datos integrados que ahora puede cargar desde el código, sin necesidad de descargar archivos manualmente.

Veamos cómo funciona al cargar un conjunto de datos que contiene información sobre vuelos.

Gráfico de dispersión

Un diagrama de dispersión es un diagrama que muestra puntos basados ​​en dos dimensiones del conjunto de datos. Crear un diagrama de dispersión en la biblioteca de Seaborn es muy simple y con solo una línea de código.

sns.scatterplot(data=flights_data, x="year", y="passengers")