Artículos de Tecnología > Data Science

Google Colab: ¿qué es y cómo usarlo?

thiago-gsantos03
thiago-gsantos03

En este artículo entenderemos qué es Colab, cómo funciona, cómo abrir archivos externos y cómo escribir código y textos en markdown. Google Collaboratory, cariñosamente llamado Colab, es un servicio gratuito de nube alojado por Google para fomentar la investigación sobre Aprendizaje de Máquina e inteligencia Artificial.

Ahora que tenemos una introducción a lo que es colab, veamos cómo usarlo. Similar al famoso jupyter notebook, el Colab es una lista de celdas que pueden contener textos explicativos o códigos ejecutables y sus respectivas salidas.

¿Cómo usar el Colab?

Lo primero que debemos hacer para utilizar el google Colab es acceder a la siguiente dirección:

https://colab.research.google.com/notebooks/intro.ipynb

Pronto seremos dirigidos a un notebook llamado Welcome to Colaboratory:

Este notebook explica algunas características del Colab y le muestra cómo empezar (recomiendo leer). Algunas de las principales características del Colab son:

Ok, he leído y entendido qué es Colaboratory, pero ¡quiero crear mi propio notebook! Para hacer esto, debemos hacer clic en >File, en la parte superior izquierda, y enseguida en >New Notebook. Vea la figura siguiente:

Después de este proceso, si no has iniciado sesión en una cuenta de Google, aparece la siguiente ventana emergente (pop-up):

Haga clic en OK para ir a la pantalla de inicio de sesión de gmail. Si no tienes una cuenta gmail, pulsa en Crear una cuenta y sigue los pasos de registro:

Listo, ahora tienes acceso a tu google colab. ¡Hagamos algunas pruebas en este notebook!

Tu primer código en el Colab.

Estando en tu notebook, quiero explicar los tres puntos destacados en la siguiente imagen:

Empecemos por el corte 01, aquí tenemos lo que llamamos una celda. La celda es donde escribes códigos o texto. Comencemos con la celda de código, que puedes probar ahí en tu notebook. Así que para empezar escribe en 01:

print(“Hello World”)

Para ejecutar este código tenemos algunas opciones: puedes hacer clic en el signo de reproducción al comienzo de la celda o puedes usar el acceso directo SHIFT+ENTER (hay varios otros atajos para ejecutar una celda, puedes encontrar detalles en este documento).

Tenga en cuenta que cuando se ejecuta, aparece impreso Hello World. Ahora probemos con otro código, ¿qué tal si realizamos una operación y almacenamos ese valor en una variable? Usa tu notebook para ejecutar el siguiente código:

suma_dos_numeros = 1232 + 2314

Cuando se ejecuta, a diferencia de la celda anterior, no se imprime nada. Esto se debe a que la asignación de variables no tiene retorno en python. Otro punto que debes haber notado es que, al ejecutar la primera celda, el tiempo de ejecución era mayor, ya que, al ejecutar por primera vez, el colab necesita crear una máquina en los servidores de google, por lo que ese tiempo extra es solo para la creación de esta máquina.

Hasta ahora, hemos creado solo celdas de código, pero como dijimos, los notebooks nos permiten mezclar estas celdas de código y texto en formato markdown. En la figura anterior tenemos el corte 02, estos "botones" son para agregar nuevas celdas a su notebook.

+ Code agrega celdas de código y +Text agrega celdas en las que puedes ingresar texto con las configuraciones markdown. Esta característica nos permite desarrollar explicaciones e informes sobre los propios notebooks. Pruébelo en tu notebook, ¡crea algunos textos en formato markdown!

Ya sabemos cómo escribir código, que será primordial a la hora de realizar análisis de datos. También aprendimos que es posible escribir textos, lo que nos ayuda a sacar conclusiones y elaborar informes. Sin embargo, para que el Colab se convierta en una herramienta funcional, falta el elemento principal: la base de datos.

Tenemos varias formas de obtener acceso a una base de datos, incluido el uso de una biblioteca que lee un archivo directamente desde un URI, por ejemplo. Aquí hay una sugerencia sobre cómo podemos leer el dataset MovieLeans guardado en el github de Alura:

import pandas as pd
base_de_datos = pd.read_csv(“https://raw.githubusercontent.com/alura-cursos/formacao-data-science/master/movies.csv”)

Entonces, tenemos el dataset guardado en la variable base_de_datos y podemos explorar los datos.

La forma que presentamos es útil cuando tenemos datos públicos, pero a menudo la base de datos está en nuestra computadora y no podemos hacerla disponible en Internet. ¿Cómo podemos hacer para enviar estos datos al Colab?

En el punto de destaque 03, última figura, tenemos un icono de carpeta, haga clic en él. Vea en la siguiente imagen, se abre una view que muestra una estructura de directorios.

Si explora las carpetas, encontrará que es muy similar a la estructura de un sistema operativo Linux.

En la parte superior de la view tenemos algunas opciones: si haces clic en input, puedes elegir enviar un archivo desde tu máquina a google. De esta forma, puede acceder a la base de datos pasando como parámetro la función pd.read() la ubicación del archivo, por ejemplo:

base_de_datos = pd.read_csv ("base_de_datos_que_subiste.csv")

La desventaja de este método es que al cerrar y acceder tu notebook en otro momento, debes realizar nuevamente la inserción de los datos, un proceso que puede tomar mucho tiempo. Otra forma de acceder a los datos es guardarlos en tu Drive y accederlos directamente desde el notebook, para hacerlo haga cloc en Mount Drive, que aparece en la imagen anterior.

Conclusión

Vimos que usar el google colab hace con que sea simple nuestro ingreso al área de datos, después de todo no necesitamos instalar nada, no necesitamos realizar ninguna configuración ni tener una máquina potente. Google le ofrece todo esto listo y con calidad, ¡basta con acceder a un notebook y comenzar la diversión!

Ahora que conoces las principales funcionalidades de los notebooks y sabes utilizar el colaboratory, ¿qué tal crear tu análisis en el colab y compartirlo con nosotros en las redes sociales?

Te gustó este tema y quieres profundizarte en la ciencia de datos, ¡Mira nuestros cursos de Data Science aquí en Alura!

Artículos de Tecnología > Data Science

En Alura encontrarás variados cursos sobre Data Science. ¡Comienza ahora!

Precios en:
USD
  • USD
  • BOB
  • CLP
  • COP
  • USD
  • PEN
  • MXN
  • UYU

Semestral

  • 273 cursos

    Cursos de Programación, Front End, Data Science, Innovación y Gestión.

  • Videos y actividades 100% en Español
  • Certificado de participación
  • Estudia las 24 horas, los 7 días de la semana
  • Foro y comunidad exclusiva para resolver tus dudas
  • Luri, la inteligencia artificial de Alura

    Luri es nuestra inteligencia artificial que resuelve dudas, da ejemplos prácticos y ayuda a profundizar aún más durante las clases. Puedes conversar con Luri hasta 100 mensajes por semana

  • Acceso a todo el contenido de la plataforma por 6 meses
US$ 65.90
un solo pago de US$ 65.90
¡QUIERO EMPEZAR A ESTUDIAR!

Paga en moneda local en los siguientes países

Anual

  • 273 cursos

    Cursos de Programación, Front End, Data Science, Innovación y Gestión.

  • Videos y actividades 100% en Español
  • Certificado de participación
  • Estudia las 24 horas, los 7 días de la semana
  • Foro y comunidad exclusiva para resolver tus dudas
  • Luri, la inteligencia artificial de Alura

    Luri es nuestra inteligencia artificial que resuelve dudas, da ejemplos prácticos y ayuda a profundizar aún más durante las clases. Puedes conversar con Luri hasta 100 mensajes por semana

  • Acceso a todo el contenido de la plataforma por 12 meses
US$ 99.90
un solo pago de US$ 99.90
¡QUIERO EMPEZAR A ESTUDIAR!

Paga en moneda local en los siguientes países

Acceso a todos
los cursos

Estudia las 24 horas,
dónde y cuándo quieras

Nuevos cursos
cada semana