Meta trabaja en Emu Video y Emu Edit: Trucos de inteligencia artificial generativa para GIFs, fotos y videos de 4 segundos.


Meta está anunciando a través de una publicación en el blog que están ocupados trabajando en una nueva investigación sobre “edición de imágenes controlada basada únicamente en instrucciones de texto y un método para la generación de video basado en modelos de difusión”.

Lo que, en palabras más simples, significa que quieren implementar herramientas de inteligencia artificial generativa en Facebook e Instagram. Los proyectos que Meta está desarrollando se llaman Emu Video y Emu Edit.

¿Qué es Emu Video?

Esta herramienta, como su nombre lo sugiere, es para la generación de video. Meta la describe como “un método sencillo para la generación de video basado en modelos de difusión”. Emu Video debería responder a una variedad de entradas: solo texto, solo imagen y tanto texto como imagen. El proceso se divide en dos pasos, aclara Meta: primero, generar imágenes condicionadas a una indicación de texto, y luego generar video condicionado tanto al texto como a la imagen generada.

Nuestro enfoque de vanguardia es simple de implementar y utiliza solo dos modelos de difusión para generar videos de 512×512 de cuatro segundos a 16 cuadros por segundo.

¿Qué es Emu Edit?

Este debería permitir “edición precisa de imágenes” a través de tareas de reconocimiento y generación. Como dice Meta, el uso de inteligencia artificial generativa es a menudo un proceso, no una tarea única.

“Emu Edit es capaz de edición libre a través de instrucciones, abarcando tareas como edición local y global, eliminación y adición de fondo, transformaciones de color y geometría, detección y segmentación, y más. Los métodos actuales a menudo tienden a sobre-modificar o rendir mal en diversas tareas de edición. Sostenemos que el objetivo principal no debería ser solo producir una imagen ‘creíble’. En su lugar, el modelo debería enfocarse en alterar precisamente solo los píxeles relevantes a la solicitud de edición. A diferencia de muchos modelos de inteligencia artificial generativa hoy en día, Emu Edit sigue precisamente las instrucciones, asegurando que los píxeles en la imagen de entrada no relacionados con las instrucciones permanezcan intactos. Por ejemplo, al agregar el texto ‘¡Aloha!’ a una gorra de béisbol, la gorra misma debería permanecer sin cambios”, dice el equipo de Meta.

LEAR  Max se convierte en el primer servicio en transmitir deportes en vivo en Dolby Vision.

Los posibles casos de uso

El camino por delante está definitivamente impulsado por la inteligencia artificial para Meta.

“Aunque este trabajo es puramente investigación fundamental en este momento, los posibles casos de uso son claramente evidentes. Imagina generar tus propios stickers animados o ingeniosos GIFs al vuelo para enviar en el chat grupal en lugar de tener que buscar el medio perfecto para tu respuesta. O editar tus propias fotos e imágenes, sin necesidad de habilidades técnicas. O darle un toque extra a tus publicaciones de Instagram animando fotos estáticas. O generar algo completamente nuevo”, concluye la publicación en el blog.