Clone pic.twitter.com/40IIYTHch8
— Roberto Sconocchini (@RobertoMaestro) May 26, 2024
Prima di spiegare come riuscire a generare video con voci clonate, si rende necessario chiarire alcuni aspetti legati a questa pratica che si sta diffondendo sempre più. Occorre infatti sapere che il tema della tutela della voce in quanto tale rappresenta un territorio ancora parzialmente inesplorato, caratterizzato dalla mancanza di una normativa specifica e da numerose “aree grigie”, emerse di recente con più vigore a causa delle evoluzioni tecnologiche, soprattutto per il suo utilizzo in campo musicale.
Per fare ulteriore chiarezza, la normativa ormai condivisa a livello europeo prevede che, nel caso in cui la clonazione vocale sia utilizzata per commettere reati, come la truffa, la sostituzione di persona o il furto di identità, verrà applicata la normativa penale, con l’aggiunta delle possibili circostanze aggravanti legate alle modalità di commissione del reato.
Per questo, se intendiamo inserire nei nostri progetti didattici la pratica della clonazione vocale, dobbiamo sempre evitare che i contenuti possano essere irridenti o diffamatori e che lo scopo resti quello di impreziosire la qualità di un'esperienza. Utilizzare ad esempio la voce e il volto di un personaggio famoso per presentare un lavoro fatto dai ragazzi, potrebbe essere un'ottima idea per avviare una documentazione didattica.
Ecco dunque come riuscire ad ottenere un risultato simile a quello che trovate in testa a questo post.
Vi premetto che combinero' alcune diverse piattaforme, in quanto dobbiamo dapprima trovare la voce da campionare, poi campionarla e infine sincronizzarla con un'immagine.
Andiamo dunque alla ricerca di un video in cui si senta chiaramente e, possibilmente senza disturbi di altre voci e suoni, la voce del personaggio che ci interessa. Se siamo su Youtube, possiamo copiare il link e inserirlo in Savefrom.com, andando a scaricare non l'intero video ma solo la traccia audio mp3.
Ora che abbiamo il file audio da clonare, dobbiamo andare a selezionare una sequenza in cui la voce si senta senza disturbi e senza altre voci. Per farlo, adiamo su Audiomass, da File scegliamo Load from computer e carichiamo la traccia audio. Isoliamo, selezionandola, una sequenza di almeno una ventina di secondi in cui si sente solo la voce che ci interessa e andiamo su File - Export e sotto flagghiamo Export Selection Only.
Ora abbiamo il campione vocale che ci serve e dobbiamo andare a clonarlo. La piattaforma da usare è Speechify, previa registrazione. Carichiamo il campione audio in Import my voice e sotto scriviamo il testo che la voce clonata dovrà pronunciare. Al termine, clicchiamo su Generate audio e poi scarichiamo il nuovo file audio.
Ora abbiamo la voce campionata e dobbiamo sincronizzarla con un'immagine. Andiamo su RunWayML, ci loggiamo e scegliamo a sinistra la sezione Audio e, subito dopo, Generative Audio. Il sistema prova a proporci dei volti generati dall'AI, ma noi andiamo a caricare la foto del nostro personaggio, cliccando su Browse or upload a face asset. Ora dobbiamo caricare l'audio e lo facciamo cliccando su Upload audio file. Ora abbiamo in alto la voce clonata e sotto l'immagine: clicchiamo in basso su Generate e attendiamo che avvenga questa specia di magia. Il tasto download a destra ci consentirà di scaricare il video in formato MP4.