Normalmente realizamos cálculos estadísticos para obtener insights durante el análisis exploratorio de los datos. Para facilitar nuestro trabajo, podemos recurrir al uso de diversas herramientas, como por ejemplo Microsoft Excel e incluso lenguajes de programación como R, Python y sus bibliotecas.
¡La biblioteca Pandas es una de ellas! Llena de funciones orientadas a todo tipo de necesidades, incluyendo métodos que pueden facilitarnos la vida. Al momento de describir estadísticamente una base de datos, por ejemplo, la función describe es capaz de generar estadísticas descriptivas a partir de una base de datos importada.
Utilizaremos un conjunto de datos de recursos humanos para comprender mejor el funcionamiento de esta función. Importaremos el archivo CSV que contiene la base de datos y mostraremos las primeras 5 filas utilizando la función head().
import pandas as pd
datos = pd.read_csv("/content/HRDataset_v14.csv")
datos.head()
Hecho esto, podemos observar que la base importada posee datos categóricos y numéricos. Así, vamos a utilizar la función describe para comprender cuáles resultados serán retornados.
datos.describe()
Nótese que la función describe, por defecto, selecciona solo los datos numéricos, devolviendo el conteo de filas (count
), el cálculo de la media (mean
), el desvío estándar (std
), e identifica el valor mínimo (min
), los cuartiles (25%, 50% y 75%), y el valor máximo (max
).
Para que podamos tener un mejor entendimiento de los resultados, enfoquémonos en la columna Salary (salario, en español).
count
entre dos columnas. Imagina que usaste la función describe
y la columna ID tiene 500 valores, pero la columna Salary tiene 300 valores. Con esto, sabemos que la columna Salary tiene 200 valores vacíos, y es necesario tratar estos datos.min
) y otra que recibe aproximadamente 250 mil dólares (max
). Entonces, la amplitud es igual a la diferencia entre 250 mil y 45 mil.También es posible obtener algunas informaciones de las columnas categóricas. Para ello, necesitamos seleccionarlas para usar la función describe.
datos[["State","Sex"]].describe()
Como los datos de las columnas State
y Sex
son categóricos, la función describe retorna cálculos más adecuados para este tipo de datos, como el conteo de valores distintos (unique
), la moda (top
) y la frecuencia de la misma (freq
). Por ejemplo, la moda MA, que tiene una frecuencia superior al 50% de toda la muestra.
Si tienes interés en conocer aún más sobre esta función y su aplicabilidad, te invito a leer la documentación.
Dejo el repositorio completo aquí en GitHub.
Este articulo fue traducido y adaptado por Ingrid Silva
David Neves Con una trayectoria versátil que abarca front-end, back-end e infraestructura, descubrí mi pasión por desvelar el potencial de los datos. Hoy, como especialista en Business Intelligence, con enfoque en Power BI, encuentro mi motivación en la difusión de conocimiento de alta calidad.
Cursos de Programación, Front End, Data Science, Innovación y Gestión.
Luri es nuestra inteligencia artificial que resuelve dudas, da ejemplos prácticos y ayuda a profundizar aún más durante las clases. Puedes conversar con Luri hasta 100 mensajes por semana
Paga en moneda local en los siguientes países
Cursos de Programación, Front End, Data Science, Innovación y Gestión.
Luri es nuestra inteligencia artificial que resuelve dudas, da ejemplos prácticos y ayuda a profundizar aún más durante las clases. Puedes conversar con Luri hasta 100 mensajes por semana
Paga en moneda local en los siguientes países
Puedes realizar el pago de tus planes en moneda local en los siguientes países:
País | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Plan Semestral |
486.67
BOB |
70474.76
CLP |
298392.20
COP |
65.90
USD |
263.44
PEN |
1442.01
MXN |
3081.25
UYU |
65.90
USD |
531.81
GTQ |
34616.42
CRC |
4211.00
DOP |
Plan Anual |
737.76
BOB |
106835.03
CLP |
452342.65
COP |
99.90
USD |
399.37
PEN |
2186.00
MXN |
4670.98
UYU |
99.90
USD |
806.20
GTQ |
52476.19
CRC |
6383.60
DOP |
Acceso a todos
los cursos
Estudia las 24 horas,
dónde y cuándo quieras
Nuevos cursos
cada semana