“
La batalla de inteligencia artificial entre Google y OpenAI (el equipo detrás de ChatGPT) se está intensificando, con ambas empresas lanzando nuevos productos, características y actualizaciones este mes. Ahora, Google DeepMind, el laboratorio de investigación de IA de Google, está apuntando a vencer a OpenAI en el juego de generación de videos, y podría lograrlo, al menos por un tiempo.
Google desafía a Sora de OpenAI con Veo 2
DeepMind ha presentado Veo 2, la inteligencia artificial generadora de videos de próxima generación y sucesora de Veo, que impulsa varios productos en la línea de productos de Google. Veo 2 puede producir clips de más de dos minutos, con resoluciones de hasta 4K (4096 x 2160 píxeles). Eso es cuatro veces la resolución y más de seis veces la duración de Sora de OpenAI, que recientemente estuvo disponible para los usuarios.
Sin embargo, esta ventaja sigue siendo teórica. En la herramienta experimental de video de Google, VideoFX, donde Veo 2 es exclusivo actualmente, los videos están limitados a 720p y solo tienen ocho segundos de duración. (Sora, por otro lado, puede generar videos de 20 segundos a 1080p.)
VideoFX actualmente tiene una lista de espera, pero Google está aumentando el número de usuarios que pueden acceder a ella esta semana. La compañía planea implementarla en más de sus productos, incluido YouTube Shorts, en algún momento del próximo año. Al igual que el Veo original, Veo 2 puede crear videos a partir de una simple indicación de texto o una combinación de texto e imagen de referencia.
Un breve video generado con Veo 2. | Crédito del video – Google
Entonces, ¿qué es diferente con Veo 2? Bueno, DeepMind dice que este nuevo modelo cuenta con una mejor “comprensión” de la física y los controles de la cámara, lo que produce imágenes “más claras”. Con más claras, se refieren a texturas e imágenes más nítidas, especialmente en escenas llenas de acción.
En cuanto a los controles de la cámara, Veo 2 ahora puede posicionar la cámara virtual de manera más precisa y moverla alrededor para capturar personas y objetos desde varios ángulos. También puede simular diferentes lentes y efectos cinematográficos, dando a los videos un aspecto más pulido y cinematográfico. Además, se dice que captura expresiones humanas más sutiles. DeepMind compartió algunas muestras cuidadosamente seleccionadas, y creo que se ven bastante impresionantes para ser imágenes generadas por IA.
Crédito del video – Google
Dicho esto, aún queda algo de trabajo por hacer. Miren el camino extrañamente resbaladizo en las imágenes anteriores o los peatones en el fondo que se fusionan entre sí. Por lo tanto, para cualquiera preocupado de que la IA podría tomar el control, ha avanzado mucho, pero todavía está lejos de reemplazar el conocimiento y habilidades humanas.
Veo 2 fue entrenado con una gran cantidad de videos, lo cual es bastante estándar para los modelos de IA. Al ser alimentados con innumerables ejemplos de datos, estos modelos comienzan a reconocer patrones que les permiten generar nuevo contenido. Aunque DeepMind no revela las fuentes exactas de los videos utilizados para entrenar a Veo 2, YouTube es un candidato probable, dado que Google lo posee.
Al igual que otros modelos de imágenes y videos de Google, Veo 2 incrusta una marca de agua invisible SynthID en sus salidas para marcarlas como generadas por IA, lo que pretende ayudar a prevenir la desinformación y la atribución errónea. Pero seamos realistas: la mayoría de las personas probablemente no están verificando esa marca de agua antes de compartir un video, lo que aún deja espacio para que la desinformación se propague.
Junto con Veo 2, Google DeepMind también reveló mejoras en Imagen 3, su modelo de generación de imágenes. Una nueva versión de Imagen 3 está disponible ahora para los usuarios de ImageFX, la herramienta de creación de imágenes de Google, a partir de este lunes. El modelo actualizado promete ofrecer imágenes y fotos “más brillantes y mejor compuestas” en varios estilos, incluyendo el realismo fotográfico, impresionismo y anime.