¿Qué es Google Gemini y qué es capaz de hacer este modelo de IA? — con ejemplo práctico

Google está causando mucho revuelo con Gemini 1.5 Pro, su modelo de inteligencia artificial generativa.

Paulo Silveira, CEO y cofundador de Alura, estuvo en el Googleplex, en Silicon Valley, y pudo ver de cerca algunas de las innovaciones que están ocurriendo.

Sin embargo, a pesar de esto, parece que la gente aún no conoce bien esta herramienta. O, al menos, aún no conoce todas sus posibilidades.

Con esto en mente, el objetivo de este artículo es presentar qué es y para qué sirve Google Gemini.

Incluso, para mostrarte con un ejemplo práctico lo que la herramienta es capaz de hacer. ¿Vamos allá?

¿Qué es Google Gemini?

Google Gemini es la más reciente y avanzada familia de modelos de inteligencia artificial generativa de Google.

Lanzado en 2024, Gemini representa un salto significativo en la capacidad de los sistemas de IA de la empresa, superando incluso a expertos humanos en diversos puntos de referencia de evaluación.

¿Para qué sirve Google Gemini?

Google Gemini sirve para una amplia gama de tareas, incluyendo:

Generación de contenido creativo;
Resolución de problemas complejos;
Asistencia en tareas cotidianas;
Integración con sistemas ya existentes;
Lectura y reconocimiento de imágenes, audios y videos.

Estas son solo algunas de las muchas funciones. De hecho, es una plataforma de IA extremadamente versátil, capaz de ayudar a los usuarios en una amplia variedad de tareas.

¿Qué cambió de Bard a Gemini?

Una de las principales dudas en torno a Gemini es "¿cuál es la diferencia con respecto a Bard?".

Bueno, vamos a ver. El principal objetivo con este cambio de Bard a Gemini es unificar los LLMs de Google.

La marca "Bard" existía solo para referirse al chatbot, al igual que ChatGPT.

Con esta alteración, el propósito principal de Google es crear una marca única que se refiera tanto a sus modelos de lenguaje (LLMs) como al chatbot de acceso público.

¿Cuáles son las versiones de Gemini?

Es posible hablar sobre la evolución y las funcionalidades de Gemini a partir de las siguientes versiones:

Gemini Ultra: Es la versión más poderosa y avanzada de Gemini, proyectada para tareas altamente complejas. Esta versión es capaz de superar a expertos humanos en varios puntos de referencia de evaluación, como el MMLU. Existe en la versión 1.0 y está disponible en la plataforma Gemini, en el plan Gemini Advanced. Es equivalente a GPT-4.
Gemini Pro: Es la versión intermedia de Gemini, centrada en una amplia gama de tareas. Está disponible para el público tanto en la versión 1.0 como en la versión 1.5 a través de la plataforma Gemini y de Google AI Studio. El modelo 1.5 acepta videos, audios e imágenes en su prompt, siendo multimodal.
Gemini Nano: Es la versión más eficiente de Gemini, principalmente para ejecutarse en dispositivos móviles, como smartphones. Esta versión está integrada en el Pixel 8 Pro de Google para realizar tareas como resumir audio y sugerir respuestas inteligentes.

¿Cuáles son las ventajas de Gemini?

Algo que hace a Gemini especial es su naturaleza multimodal. Es decir, puede trabajar no solo con texto, sino también con imágenes, audio, videos y otros tipos de datos.

Esto permite que Gemini sirva para una amplia gama de tareas, desde la generación de contenido creativo hasta la resolución de problemas complejos que involucran múltiples formas de información.

Además, existe la integración con el ecosistema de Google en diversos productos y servicios de la empresa, como la búsqueda, Chrome, Google Docs, Google Ads, y así sucesivamente.

En resumen, esta integración permite a los usuarios tener una experiencia más unificada y eficiente.

La mayor novedad, sin embargo, vino con el tamaño de la ventana de contexto de Gemini 1.5 Pro.

Mientras que sus competidores directos ofrecían ventanas de contexto de 128k tokens (GPT-4) y 200k tokens (Claude 3), Google sorprendió al proporcionar una ventana de 1 millón de tokens.

Esto es el equivalente a 8 o 9 libros completos o una hora de video. Incluso, en pruebas internas, el equipo de Google afirmó que ya está trabajando con una ventana de contexto de más de 10 millones de tokens, algo inédito hasta el momento.

Actualizaciones de Google Gemini — mayo de 2024

El 14/05/2024 concluyó el Keynote de Google I/O, sobre las novedades de Google, que fue básicamente sobre las actualizaciones en términos de IA:

Gemini 1.5 Pro: el modelo fue mejorado y ahora estará disponible una ventana de contexto de 2 millones de tokens (el doble que antes y mucho más que los competidores) a través de Gemini Advanced (la versión de pago) y también a través de Google AI Studio.
Gemini 1.5 Flash: un nuevo modelo ligero, mucho más rápido, pero que mantiene la ventana de 1 millón de tokens. Dijeron que, a través de API, el costo de 1M de tokens será de R$ 0,35.
Gemini en todo Google: podrás usar Gemini en Gmail para ayudar en la escritura, hacer búsquedas en hilos y en tu bandeja de entrada, resumir información, y así sucesivamente.
AI Overviews: son respuestas de Gemini en la parte superior de las búsquedas que hagas en Google, también conectando con enlaces a sitios, con Google Maps (cuando sea apropiado). Esto podría ser un posible cambio de paradigma de lo que ha sido Google Search e internet en los últimos ~20 años.
Gems: los GPTs de Gemini. Es decir, agentes para algo específico, como "Eres un profesor de matemáticas". También se podrá conectar con tu Gmail, Google Drive, etc.
PaliGemma: modelo de código abierto con capacidad de visión.
Gemma 2: se lanzará en junio, con las versiones 2B, 7B y la nueva 27B.

¿Cuánto cuesta Google Gemini?

En primer lugar, el modelo Gemini 1.0 Pro se puede utilizar de forma gratuita a través de la plataforma Gemini.

Además, actualmente, también puedes usar Gemini 1.5 Pro de forma gratuita a través de Google AI Studio.

Para aquellos interesados en utilizar el modelo Gemini 1.0 Ultra, está disponible en la plataforma Gemini, en el plan Gemini Advanced, que actualmente cuesta R$96,99 mensuales.

Ejemplo práctico de lo que Gemini es capaz de hacer

Busqué un ejemplo práctico de lo que Gemini, la IA de Google, es capaz de hacer para compartir contigo.

Para que entiendas el poder de esta IA, dejo un video para que se pueda compreender mejor.

Imagina que estás explorando la herramienta de Gemini en Google AI Studio. En el video, se le pide a la IA que actúe como un experto en guitarras Yamaha y que responda preguntas sobre ellas. Esto demuestra que puedes darle una "personalidad" a Gemini para que te ayude con temas específicos.

Además, para probar su capacidad de análisis visual, le muestran una imagen. Gemini no solo la reconoce, sino que puede detallar lo que ve en ella. Esto nos enseña que esta IA es un asistente superinteligente que puede procesar y entender tanto texto como imágenes.

<br>

Conclusión

Este es solo un ejemplo de lo que el más reciente modelo de IA de Google es capaz de hacer.

Es también una invitación para que explores, en profundidad, las potencialidades de esta inteligencia artificial.

El lanzamiento de Gemini representa un hito importante en la evolución de la inteligencia artificial, demostrando el continuo avance de la tecnología y su potencial para transformar la forma en que interactuamos con las computadoras y resolvemos problemas.

A medida que Google continúa mejorando y expandiendo las capacidades de Gemini, es probable que veamos aún más aplicaciones innovadoras de esta poderosa plataforma de IA en los próximos años.

Artículo escrito por: Fabrício Carraro

Fabrício Carraro se graduó en Ingeniería Informática por la UNICAMP y tiene un posgrado en Análisis de Datos y Aprendizaje Automático por la FIAP. Actualmente vive en España.

Artículo traducido y adaptado por Iara Martínez.