Clase 01 - Preprocesamiento y exploración de datos

Participa y entra más a fondo

Una mirada al increíble mundo de los datos desde la perspectiva de Python

¡Hola, estimado(a) estudiante! ¡Te damos la bienvenida a nuestra primera clase de la Inmersión en Datos con Python!

En esta primera sesión, nos sumergiremos en el mundo del Lenguaje Python, una herramienta poderosa y versátil, indispensable en el arsenal de todo científico de datos. Enfrentaremos un desafío del mundo real y sumamente relevante: el análisis de riesgo crediticio para una institución bancaria alemana.

Nuestro objetivo es identificar, con precisión, los perfiles de clientes con mayor probabilidad de incumplimiento en sus compromisos financieros. Este enfoque no solo es crítico para la sostenibilidad de la institución, sino que también representa una oportunidad única para afinar nuestras habilidades analíticas y de toma de decisiones.

La clase está llena de contenido y debates interesantes, ¡así que disfruta con nosotros!

Para ver los ejercicios y todo el contenido que se abordó en el aula, sigue los pasos que te mostraremos a continuación:

Base de datos y materiales de aula

  • Accede al notebook del aula 01.
  • Haz clic en el botón de colab.png.
  • En el menú superior izquierdo, haz clic en >Archivo, y después en la opción >Guardar una copia en Drive.
  • Si aún no has accedido con tu cuenta de Gmail, un pop-up solicitará que crees o hagas el login con una cuenta de Google.
  • Tras hacer el login, se creará una copia del aula en tu Drive (directorio Colab Notebook, creado automáticamente).
  • Abre el notebook, y ¡Diviértete!

Desafíos de esta aula

  • Importar el conjunto de datos.
  • Conocer el tamaño y el tipo de datos que hay para cada variable.
  • Realizar un preprocesamiento a los datos para facilitar su análisis.
  • Generar histogramas para entender cómo están distribuidos los datos.

Algunos recordatorios y tips

  • Si tienes dificultades para usar Colab, accede a este artículo de Alura.
  • Explora diferentes modelos con scikit-learn.
  • ¿Quieres conocer más sobre métricas de evaluación? Te recomendamos este material.
  • Una guía rápida para Pandas.
  • ¿Ya has pensado en cuántos datos necesita un(a) científico(a) para programar? Mira este artículo.
  • Haz los desafíos dados al final de cada clase.
  • Comparte tus experimentos con nosotros a través de nuestro canal de Discord, con tu familia, amigos y conocidos y también en internet, con la etiqueta #InmersionEnDatosAlura.
  • Si tienes dudas o inquietudes, pregúntanos en Discord. ¡Allí estaremos a tu disposición para ayudarte!

Publica tu proyecto

¡Muestra tu proyecto al mundo compartiéndolo en LinkedIn e Instagram! Etiqueta Alura Latam (@aluralatam) y los instructores Álvaro (ahcamachod), Alejandro Gamarra (elprofealejo.info) y a Christian Velasco (christian_pva).

¡Nos encantaría ver tus proyectos y seguir tu evolución! Recuerda usar el hashtag #InmersionDatosAlura para que tu proyecto tenga más alcance.

Ah, y no olvides poner la tag #InmersionDatosAlura dentro de tu proyecto en GitHub. Simplemente haz clic en el engranaje que aparece en la sección About y coloca la etiqueta #InmersionDatosAlura dentro del campo Topics.

¡Queremos ver tu portafolio!

Discord

¡Únete a Discord para obtener respuestas a tus preguntas y conocer a otras personas que se sumergen en Ciencia de Datos contigo! Haz clic aquí para entrar.

¡Éxito en los estudios y hasta nuestra próxima clase!

¿Quiénes son los buceadores?

Instructores de Alura en esta inmersión

  • Álvaro Camacho

    Álvaro Camacho

    Instructor de Ciencia de Datos en Alura Latam. Ingeniero de Telecomunicaciones de la UNAD con MBA en Telecomunicaciones, Sistemas Informáticos e IoT y posgrado en Data Analytics.

  • Christian Velasco

    Christian Velasco

    Head de Alura Latam. Ingeniero Industrial de la UPSA con Especialidad en Big Data Analytics.

  • Alejandro Gamarra

    Alejandro Gamarra

    Especialista en BI/Big Data, con más de 20 años de experiencia trabajando en las unidades de Data Science de Telefónica, con proyectos de Big Data a nivel mundial.