Así es Gemini 2.0: la nueva revolución de Google en inteligencia artificial

Publicado: diciembre 12, 2024, 9:14 am

Google ha dado un nuevo golpe en la mesa con Gemini 2.0. La compañía de Mountain View ha presentado oficialmente su modelo de inteligencia artificial “más avanzado hasta la fecha”. La multimodalidad y la autonomía son las grandes protagonistas de esta nueva generación.

La gran apuesta de este gigante tecnológico no solo busca competir con rivales como GPT-4 de OpenAI, sino redefinir el concepto de agente de IA que tanto suena en el sector. Recordemos que GPT-4 es la versión más avanzada de la compañía de Sam Altman, que también cuenta con capacidades multimodales. Sin embargo, la autonomía de los agentes de Gemini podría marcar la diferencia.

Y además no es el único as en la manga de Google: “También vamos a lanzar una nueva función llamada Deep Research, que utiliza capacidades avanzadas de razonamiento y contexto largo como si fuera un asistente de investigación, explorando temas complejos y creando informes”.

¿Qué es Gemini 2.0 y qué lo hace especial?

Gemini 2.0 es un modelo de IA multimodal, lo que significa que puede comprender y generar información en múltiples formatos: texto, imagen, audio y vídeo. Esta capacidad permite interacciones mucho más ricas, superando a sus predecesores.

Por ejemplo, los usuarios podrán mostrar una imagen a la IA y pedirle que la analice, detecte elementos específicos o genere contenido relacionado.

Gemini 2.0 procesa texto, imágenes, audio y video de forma simultánea, permitiendo experiencias de usuario mucho más inmersivas y completas.

Sin embargo, la gran revolución de Gemini 2.0 está en la introducción de agentes de IA avanzados. Estos agentes pueden actuar de forma autónoma, acceder a herramientas de terceros —como Google Maps— y utilizar la memoria para recordar interacciones pasadas. En la práctica, esto se traduce en asistentes que no solo responden a preguntas, sino que también pueden ejecutar acciones sin la intervención constante del usuario.

“En el último año, hemos invertido en el desarrollo de modelos más ágiles, es decir, capaces de comprender mejor el mundo que te rodea, anticiparse y actuar en tu nombre, bajo tu supervisión”, dicen desde Google.

Según la compañía, Gemini 2.0 es, además, dos veces más rápido que su predecesor, Gemini 1.5 Pro, lo que significa efectivamente que tus interacciones serán mucho más rápidas.

La era de los agentes de IA

Un agente de IA es básicamente un programa que puede hacer cosas por ti, desde organizar tu agenda hasta ayudarte a entender un tema complejo. Con Gemini 2.0, estos agentes podrán realizar tareas con una autonomía supervisada, como buscar información o traducir en tiempo real.

Como Gemini 2.0 no solo puede entender texto, sino que también genera imágenes, audio y procesa vídeos de forma nativa, la cosa avanza más. Imagínate pedirle a tu asistente digital que te muestre cómo hacer una receta y no solo te dé pasos escritos, sino que también te reproduzca un vídeo o te explique en voz alta cada paso.

Los agentes de Gemini 2.0 pueden tomar decisiones y ejecutar tareas por sí mismos. Por ejemplo, podrían reservar un hotel o planificar una ruta de viaje accediendo a Google Maps. Y es que gracias a su integración con el ecosistema de Google, ofrece acceso directo a servicios como el propio Maps, Google Search o Calendar.

“La aplicación práctica de los agentes de IA es un campo de investigación lleno de posibilidades apasionantes. Estamos explorando este nuevo campo con una serie de prototipos que pueden ayudar a las personas a realizar tareas”, avanzan desde Google. Estos prototipos son:

Project Astra: un asistente universal de IA. Piensa en un asistente que comprende lo que ves y oyes, ayudándote a encontrar tus llaves o recordar dónde dejaste tu coche.
Project Mariner: un experimento para que la IA interactúe con tu navegador web, realizando tareas como si fuera un humano.
Jules: un asistente para desarrolladores que puede detectar y solucionar errores en el código.

Parece que con Gemini 2.0 Google busca establecer un nuevo estándar para la IA del futuro, con una combinación de multimodalidad, acceso a herramientas y agentes autónomos.

Expertos del sector afirman que este lanzamiento podría redefinir el mercado de la IA, impulsando una nueva ola de aplicaciones y servicios. Lo que significa para ti un futuro donde tu teléfono o tu ordenador pueden ser mucho más inteligentes, ayudándote no solo a gestionar tu vida digital, sino también a interactuar con el mundo físico de maneras nuevas y emocionantes.

¿Cuándo estará disponible Gemini 2.0?

Tal y como informa la compañía, la versión 2.0 de Gemini ya está “en manos de desarrolladores y testers de confianza” y están “trabajando rápidamente” para incorporarla a sus productos.

Además, a partir del momento del anuncio, su modelo experimental Gemini 2.0 Flash está disponible para todos los usuarios de Gemini.

En cuanto a la función Deep Research, Google ha informado de que ya está disponible en Gemini Advanced.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.