Questa tecnica si chiama Vasa-1 Ha la capacità di trasformare le immagini fisse in video animati realistici utilizzando solo un'immagine e una clip audio.
Questo risultato rappresenta un passo importante nel campo dell’intelligenza artificiale (AI), consentendo a immagini apparentemente statiche di prendere vita in modo sorprendentemente realistico.
Sulla base dei rapporti quarzoVASA-1 non solo sincronizza i movimenti delle labbra con il suono presentato, ma regola anche lo sguardo, le espressioni facciali e la direzione della testa per riflettere emozioni come gioia o sorpresa in tempo reale.
Microsoft pubblica una ricerca su VASA-1: volti parlanti realistici e basati sulla voce generati in tempo reale
VASA è in grado di generare un'ampia gamma di sfumature facciali e movimenti naturali della testa
Può gestire audio lungo e riprodurre stabilmente video di volti parlanti: pic.twitter.com/FiBb11G1ru
– Colazione con intelligenza artificiale (@AiBreakfast) 19 aprile 2024
Oltre al suo potenziale nel campo dell’intrattenimento e della comunicazione digitale, questa tecnologia offre applicazioni promettenti nel campo dell’assistenza e della cura con l’aiuto dell’intelligenza artificiale.
Microsoft ha deciso di limitare l'accesso a questo strumento, con l'obiettivo di prevenire possibili violazioni, come la creazione di video com Che potrebbero essere utilizzati per attività fraudolente o fuorvianti.
Per ora, VASA-1 sarà integrato in modo controllato in settori verticali specifici, come la creazione di assistenti virtuali per organizzazioni pubbliche, o offerto come funzionalità avanzata all'interno di prodotti esistenti come Windows Copilot.
Microsoft ha appena abbandonato VASA-1.
Questa intelligenza artificiale può far cantare e parlare una singola immagine da un riferimento audio esplicito. Simile a EMO di Alibaba
10 esempi selvaggi:
1. Monna Lisa fa una serenata ai fotografi pic.twitter.com/LSGF3mMVnD
– Min Choi (@minchoi) 18 aprile 2024
“VASA-1 non solo è in grado di riprodurre movimenti delle labbra perfettamente sincronizzati con l'audio, ma cattura anche un'ampia gamma di sfumature facciali e movimenti naturali della testa che contribuiscono alla percezione di autenticità e vivacità”, si legge in una dichiarazione di Microsoft, pubblicato sulla rivista Blog aziendale.
Imparentato: Microsoft ha lanciato uno strumento per la creazione di deepfake?
“Educatore generale della birra. Pioniere del caffè per tutta la vita. Sostenitore certificato di Twitter. Fanatico di Internet. Professionista dei viaggi.”