Maestro Roberto - Tecnologie e didattica

Per iscriversi alla newsletter Maestro Roberto inviare una mail all'indirizzo info@robertosconocchini.it con oggetto Iscrizione newsletter e testo vuoto

Qwen3-TTS: ora chiunque puo' clonare una voce dal browser PDF Stampa E-mail
Risorse - Intelligenza Artificiale
Scritto da Administrator   
Domenica 01 Marzo 2026 14:46

A gennaio 2026 il team Qwen di Alibaba Cloud ha rilasciato in open source Qwen3-TTS, un sistema di sintesi vocale che fa cose che fino a poco tempo fa sembravano fantascienza. La notizia è passata relativamente in sordina, ma per noi che lavoriamo in classe, o che semplicemente produciamo materiali didattici, vale la pena capire bene di cosa si tratta.


La demo su Hugging Face ti permette di trasformare un testo scritto in audio parlato, con tre possibilità: creare una voce nuova di sana pianta descrivendone lo stile, clonare una voce a partire da un campione audio caricato da te, oppure scegliere tra alcune voci preimpostate. Hugging Face Tutto questo direttamente dal browser, senza installare nulla.

Il modello è stato addestrato da Alibaba e rappresenta un passo avanti significativo nella generazione vocale open source, con capacità che fino ad ora erano disponibili solo in sistemi commerciali chiusi come ElevenLabs o MiniMax.

Le tre cose che sa fare

Generazione di voci personalizzate. Puoi descrivere a parole la voce che vuoi: "uomo di mezza età, tono caldo, ritmo lento, accento britannico". Il modello capisce la descrizione e genera un audio coerente. È come dare istruzioni a un doppiatore immaginario.

Clonazione vocale da pochi secondi di audio. Questo è il punto più sorprendente. Qwen3-TTS supporta la clonazione vocale a partire da soli 3 secondi di audio in ingresso. Praticamente basta un frammento vocale, anche registrato con il microfono del telefono, e il sistema è in grado di replicare quella voce su qualsiasi testo tu voglia far leggere.

Voci preimpostate con controllo delle emozioni. Per chi non ha bisogno di clonare voci reali, ci sono nove voci premium già pronte, con combinazioni di genere, età, lingua e dialetto. Si può anche istruire il modello sul tono emotivo che si vuole ottenere.

Dieci lingue, incluso l'italiano

Qwen3-TTS integra 10 lingue principali: cinese, inglese, giapponese, coreano, tedesco, francese, russo, portoghese, spagnolo e italiano, con profili vocali dialettali per rispondere alle esigenze globali.  Il fatto che l'italiano sia incluso non è un dettaglio banale: significa che possiamo usarlo per produrre materiali nella nostra lingua con una qualità audio davvero alta.

Possiamo usare Qwen3-TTS per produrre versioni audio dei nostri testi scritti, creare podcast didattici anche senza avere una voce "da speaker", aggiungere la narrazione sonora a presentazioni o video, oppure generare materiali di ascolto per gli studenti in modalità flipped classroom.

La clonazione vocale apre anche scenari interessanti per chi lavora con studenti DSA o BES: poter avere una voce costante, sempre disponibile, che legge i materiali di studio può fare la differenza.

Detto questo, aprire questa conversazione significa anche affrontare il lato critico.

La parte scomoda: etica e consapevolezza

È importante che tutti capiscano che la clonazione vocale è ormai disponibile a chiunque abbia una GPU e qualche GB di VRAM, o in questo caso un browser con accesso a Hugging Face. 

Chiunque può clonare la voce di qualcun altro con pochi secondi di registrazione. Questo significa che come insegnanti abbiamo almeno due doveri. Il primo è proteggerci: essere consapevoli che la nostra voce, se registrata e pubblicata online, può essere replicata. Il secondo è educare: i nostri studenti devono sapere che un audio che sembra autentico potrebbe non esserlo, e che verificare le fonti vale anche per i contenuti sonori.

Come provarlo subito

La demo è gratuita e accessibile su Hugging Face all'indirizzo https://huggingface.co/spaces/Qwen/Qwen3-TTS. Non serve un account per provarla, basta aprire il link. Puoi digitare un testo, scegliere la modalità (voce preimpostata, design da descrizione, o clonazione), e ascoltare il risultato in pochi secondi.

Per chi volesse andare oltre la demo e usarlo in modo più strutturato, il codice è open source su GitHub con licenza Apache 2.0, il che significa che si può usare anche in contesti commerciali, e ci sono versioni leggere (0.6B parametri) che girano su hardware modesto.

Vale la pena conoscere Qwen3-TTS non solo perché è uno strumento utile, ma perché rappresenta un cambio di paradigma: la voce sintetica di qualità è diventata accessibile a tutti. E come sempre con queste tecnologie, la domanda non è "possiamo usarla?", ma "quando e come usarla bene?".