La próxima conferencia de Google I/O 2024 tendrá lugar mañana. Sin embargo, la compañía está ansiosa por mostrar al público algunos de sus grandes avances en el campo de la inteligencia artificial. Antes del evento, Google presumió de un prototipo conversacional de Gemini que responde en tiempo real a videos.
Los chatbots impulsados por IA comenzaron respondiendo a indicaciones escritas. En algún momento posterior, adquirieron la capacidad de reconocer imágenes. Desde entonces, han sido capaces de responder preguntas o hacer comentarios sobre una imagen en particular o sobre un elemento de una imagen. Incluso pueden generar nuevas imágenes a partir de otras. Ahora, el próximo gran paso parece estar relacionado con el video.
Google insinúa un prototipo conversacional de Gemini utilizando video antes de I/O 2024
Antes de I/O 2024, Google está mostrando un breve video de una interacción entre Gemini y un usuario. Lo llamativo es que toda la interacción se basa en video capturado en tiempo real. El “teaser” muestra cómo Gemini es capaz de reconocer lo que está sucediendo en la escena. También puede enfocarse específicamente en algunos elementos de la escena, como el logotipo de Google I/O. Luego, el chatbot impulsado por IA responde a las preguntas del usuario e incluso propone nuevas preguntas para “charlar”.
¡Solo un día hasta #GoogleIO! Nos sentimos 🤩. Nos vemos mañana para las últimas noticias sobre IA, Búsqueda y más. pic.twitter.com/QiS1G8GBf9
— Google (@Google) 13 de mayo de 2024
La combinación de reconocimiento de video en tiempo real y naturalidad conversacional es bastante impresionante. Sin embargo, cabe señalar que lo que se muestra es un prototipo que parece funcional. Por lo tanto, aunque la compañía proporcionará más detalles al respecto mañana, es posible que una versión final para uso masivo tarde un poco en estar disponible.
El teaser podría ser una respuesta directa a Open AI, el equipo detrás de ChatGPT. Hace unas horas, la compañía celebró un evento para anunciar nuevos avances y características. Uno de los anuncios fue GPT-4o, una versión más rápida del modelo GPT-4 que también es capaz de responder a videos en vivo. Por lo tanto, el momento elegido por Google para lanzar el teaser no parece ser una coincidencia.