Google ha lanciato Lumiere, un modello di diffusione spaziotemporale basato sull'intelligenza artificiale in grado di convertire testo e immagini in video della durata massima di 5 secondi con qualità ultra realistica.
Il team di ricerca di Google ha collaborato con il Weizmann Institute of Science e l'Università di Tel Aviv per sviluppare il modello, che è stato addestrato su una serie di 30 milioni di video clip con sottotitoli ed è in grado di generare 80 fotogrammi a 16 fotogrammi al secondo.
Video realistici con movimento dinamico
Lumiere ha la capacità di trasformare parole e immagini fisse in sequenze video con un elevato livello di realismo. Google spiega che ciò che distingue il suo modello dagli altri sistemi di intelligenza artificiale che generano video è che “impila fotogrammi chiave distanti seguiti da una risoluzione temporale estrema, un approccio che rende intrinsecamente difficile raggiungere una coerenza temporale globale”, portando a creazioni in qualche modo irrealistiche e avere piccoli movimenti dinamici.
Tenendo conto di queste limitazioni, il team di ricercatori di Google si è avventurato a modificare l'architettura per dare vita a un modello in grado di generare un intero video in un colpo solo, consentendo movimenti più realistici e naturali.
Tecnologia e caratteristiche Lumiere
Google ha pubblicato un documento che spiega la tecnologia Lumiere e lo ha visualizzato sulla sua pagina Github. Anche se Lumiere non è stata ancora rilasciata ufficialmente e non può essere testata in versione beta, Google ha lasciato diversi esempi delle sue capacità e del suo funzionamento sulla sua pagina Github.
Lumiere è un modello di generazione video che ha molte funzioni, tra cui la creazione di nuovi stili da un'immagine di riferimento, la stilizzazione di un video, lo spostamento di parti di un'immagine fissa, la possibilità di riempire video in qualche modo incompleti o che presentano aree tagliate e modificare video in parti in tempo reale del video. Un tipico video mostra al modello come trasforma una donna e un cane in figure di origami o come sarebbero se fossero fatti di blocchi di legno.
Allo stesso modo, è uno strumento molto utile per espandere il contesto del video e modificare parti del video, come gli abiti indossati da una persona all'altra in base ad una descrizione testuale o addirittura eliminare elementi indesiderati.
Fontana: Marketing4ecommerce.net
“Educatore generale della birra. Pioniere del caffè per tutta la vita. Sostenitore certificato di Twitter. Fanatico di Internet. Professionista dei viaggi.”