Todo sobre Gemini, la nueva IA de Google

Marcos Ramallo 2 enero 2024

La continua evolución en el campo de la Inteligencia Artificial (IA) ha llevado a Google a presentar su último logro: Gemini, un modelo que se postula para superar tanto a GPT-3.5 como a GPT-4. Este lanzamiento plantea preguntas intrigantes sobre el inicio de una nueva era en la IA o simplemente representa un esfuerzo de Google por recuperar su liderazgo ante OpenAI. A lo largo de este análisis, exploraremos los detalles de Gemini y su impacto potencial.

¿Qué es Gemini?

Gemini representa un conjunto de modelos de lenguaje amplios (LLMs) que utilizan técnicas de entrenamiento de AlphaGo, como el aprendizaje por refuerzo y la búsqueda en árboles. Esto plantea la posibilidad de desbancar a ChatGPT como la solución de IA generativa más dominante.

Este avance llega después de la combinación de los laboratorios de IA Brain y DeepMind de Google, que dio origen a Google DeepMind, y del lanzamiento de Bard y PaLM 2 LLM. Google busca consolidar su posición en el campo de la IA.

Versiones de Gemini

La versión de Google Gemini lanzada en diciembre de 2023, denominada «Gemini 1.0», marca el inicio del modelo y se optimiza en tres «tamaños» distintos:

Gemini

Gemini Nano

La versión liviana, adaptada para smartphones como el Google Pixel 8, cuenta con dos tamaños, Nano-1 con 1.8 mil millones de parámetros y Nano-2 con 3.25 mil millones. Está diseñada para realizar tareas eficientemente en el dispositivo sin necesidad de conexiones externas.

Gemini Pro

Desplegado en los centros de datos de Google, está diseñado específicamente para respaldar a Bard. Con capacidades mejoradas, Gemini Pro destaca en tareas como brainstorming, escritura y resumen de contenido, superando a OpenAI GPT-3.5 en seis benchmarks clave.

Gemini Ultra

Aunque aún no está ampliamente accesible, se espera que Gemini Ultra, el modelo más avanzado de Google, supere a modelos actuales en 30 de los 32 puntos de referencia académicos. Este modelo está diseñado para abordar tareas altamente complejas y se lanzará una vez completada su fase de pruebas.

Diferencias con otros modelos de IA

Gemini Ultra destaca con un rendimiento excepcional, superando a los humanos con un puntaje del 90.0% en tareas como Comprensión masiva de lenguaje multitarea (MMLU). Su habilidad en comprensión de imágenes y razonamiento matemático sin depender de sistemas OCR resalta sus capacidades multimodales nativas.

A diferencia de GPT-4, que se centra en tareas de texto, Gemini está diseñado para manejar tareas multimodales sin complementos adicionales. Su integración estrecha en el ecosistema de Google, impulsando a Bard y dispositivos Pixel 8, marca una diferencia fundamental con modelos como GPT-4 y Llama de Meta, que están más orientados al servicio y disponibles para desarrolladores externos.

El futuro con Google Gemini

Gemini marca un hito en el viaje de Google en la IA, iniciando una nueva era en el desarrollo de modelos de lenguaje amplios. Las futuras versiones de Gemini buscarán mejorar capacidades en planificación, memoria y expandir la «ventana de contexto» para procesar grandes cantidades de información. Google imagina un futuro impulsado por una IA responsable, buscando conducir innovación, creatividad y compartir conocimientos a nivel global. La anticipación de Google hacia los logros de la próxima generación de desarrolladores refleja la confianza en la potente solución de Gemini.

Un enfoque gradual y multimodal

A diferencia de sus predecesores, Gemini busca reemplazar gradualmente a PaLM y superar las limitaciones lingüísticas de Bard. Su capacidad multimodal le permite procesar texto, imágenes, audio y video, otorgándole una ventaja distintiva. Este enfoque revolucionario se presenta como un logro destacado en el panorama de la IA.

El sistema de generación de código AlphaCode2 añade un nivel adicional de innovación, mejorando la comprensión de matemáticas complejas y ciencias de la computación. Esta mejora reduce las «alucinaciones» y aumenta la fiabilidad de las respuestas relacionadas con el código, marcando una diferencia clave con modelos anteriores.

Desafíos y escepticismo en torno a Gemini

A pesar de los avances y las capacidades demostradas por Gemini, surgen preguntas y escepticismo. La demostración de video que mostraba la capacidad de Gemini para comprender video en tiempo real generó expectativas significativas. Sin embargo, la reducción de latencia y la edición de salidas para brevedad plantean dudas sobre la autenticidad de la experiencia.

El lanzamiento de Gemini destaca como un paso audaz de Google en la competencia por la supremacía en la IA. Sin embargo, el camino hacia el liderazgo sigue siendo incierto. La respuesta de OpenAI con futuras iteraciones de sus modelos podría redefinir el panorama competitivo.

Por otro lado, la batalla en curso entre Google y OpenAI promete continuar definiendo el futuro de la Inteligencia Artificial. ¿Gemini consolidará el liderazgo de Google, o surgirán sorpresas de la competencia? Solo el tiempo revelará el veredicto.

Sobre Diego Rodríguez

Licenciado en Económicas y Executive Master en Marketing Digital por ESADE. Compagina la gestión de la agencia con la dirección de Planeta Triatlón, la revista líder en su segmento en castellano.

Profesor de Marketing y Canales de Distribución en IEBS.

Judit Izquierdo

Es licenciada en Periodismo y Comunicación.
Actualmente es CEO y cofundadora de varias startups. En 2012 lanzó su primer proyecto, SIQUIA, plataforma de atención psicológica online, que se han convertido en líderes en atención psicológica online, siendo pioneros en España en profesionalizar el entorno de la psicoterapia a distancia.

Profesora de Estrategia de Contenidos y Marketing Digital en IEBS.

En Tilde Comunicación llevamos dos décadas navegando por internet. A lo largo de este tiempo, hemos ayudado a numerosas empresas a mejorar su comunicación y a conseguir que su día a día sea más productivo.

Si tú también quieres contar con los servicios de una agencia de comunicación en Valladolid para tu empresa, no dudes en contactar con nosotros.

¿Hablamos?

    P.º de Belén, 9A, 47011 Valladolid
    Phone: +34628496170