VLOGGER, una iniciativa de IA de Google podrá convertir imágenes estáticas en videos realistas de personas hablando y gesticulando.

Google ha estado a la vanguardia en el campo de la inteligencia artificial durante muchos años. Con la reciente introducción de su chatbot Bard y su modelo multimodal Gemini, la empresa reafirma su compromiso con el desarrollo de esta tecnología.

Uno de sus proyectos más recientes es VLOGGER, una iniciativa de IA que convierte imágenes estáticas en videos realistas de personas hablando y gesticulando. Desarrollado por un equipo de investigadores de Google, VLOGGER se basa en modelos de difusión, una técnica de aprendizaje automático que genera imágenes realistas a partir de descripciones de texto.

Aunque actualmente VLOGGER es solo un proyecto en fase de estudio y no está disponible como herramienta en línea, promete grandes avances en el doblaje de videos a otros idiomas y en la creación de avatares realistas para mejorar la interacción entre humanos y computadoras. Sin embargo, existe la preocupación de que esta tecnología pueda ser utilizada para crear deepfakes con fines de desinformación y engaño.

Lo que distingue a VLOGGER de otros intentos similares es que no requiere entrenar un modelo específico para cada persona. Con más de 800,000 identidades diferentes y más de 2,000 horas de video, VLOGGER abarca una amplia gama de expresiones humanas, incluidas diferentes razas y edades.

Todavía se trata de un proyecto en desarrollo y tendremos que esperar a que esta tecnología se convierta en una realidad accesible para todos.