Maestro Roberto - Tecnologie e didattica

Per iscriversi alla newsletter Maestro Roberto inviare una mail all'indirizzo info@robertosconocchini.it con oggetto Iscrizione newsletter e testo vuoto

Qwen 3.6 e la generazione video: l'AI open source di Alibaba PDF Stampa E-mail
Risorse - Intelligenza Artificiale
Scritto da Administrator   
Lunedì 25 Maggio 2026 11:19

 

Se avete sentito parlare di Qwen 3.6 nelle ultime settimane, probabilmente vi siete imbattuti in titoli entusiasti sul fatto che Alibaba stia distribuendo gratuitamente modelli di intelligenza artificiale che reggono il confronto con GPT o Claude. Non è esagerazione: è esattamente quello che sta succedendo. E c'è una parte di questa storia che interessa da vicino chi lavora con studenti e contenuti didattici: la generazione di video a partire da un'immagine o da un semplice testo.



Prima di tutto, vale la pena fare chiarezza su una cosa che può confondere. Alibaba ha due famiglie di modelli che vengono spesso citate insieme. Qwen è la serie di modelli linguistici (quello che fa testo, ragionamento, codice). Wan è la serie dedicata alla generazione visiva, immagini e video. Entrambi escono dallo stesso laboratorio, il Tongyi Lab di Alibaba, e fanno parte dello stesso ecosistema. Quando si parla di "Qwen 3.6 che genera video", nella pratica si sta parlando di Wan 2.7, uscito in aprile 2026 come componente video dell'ecosistema Qwen.
Il punto rilevante per noi è che tutto questo è open source sotto licenza Apache 2.0, il che significa uso libero anche per scopi commerciali, scaricabile da Hugging Face o GitHub, eseguibile in locale su hardware consumer (dal Mac con 24GB RAM in poi), oppure accessibile tramite API a costi bassissimi.

Tra il 1 e il 6 aprile 2026 Alibaba ha rilasciato la suite completa Wan 2.7: quattro modelli video che coprono text-to-video, image-to-video, reference-to-video con voice cloning e video editing basato su istruzioni testuali, tutto sotto Apache 2.0.
Vediamo cosa significa ciascuna di queste cose nella pratica.
Testo → video. Scrivi una descrizione in italiano o in inglese, e il modello genera un video. Il modello supporta output nativi in 720p o 1080p, con durate tra 2 e 15 secondi, con input audio opzionale e controllo narrativo multi-scena gestito direttamente dal linguaggio del prompt. Non è quindi solo un video muto: puoi pilotare la struttura narrativa descrivendo ciò che vuoi vedere.
Immagine → video. Carichi una foto o un'illustrazione e il modello la anima. Il modello image-to-video supporterà la generazione dal primo frame, dal primo e dall'ultimo frame insieme, e la continuazione di video esistenti, utile per workflow di storyboarding. C'è anche una funzionalità che usa una griglia 3x3 di immagini come input per generare sequenze strutturate da asset statici. Per chi fa storia dell'arte, scienze, o lingue, questo apre possibilità molto concrete.
Reference-to-video. È possibile combinare un riferimento visivo del soggetto con un riferimento vocale per generare video in cui sia l'aspetto che la voce del personaggio siano coerenti con gli input forniti. In pratica puoi prendere una foto di un personaggio storico (o di una ricostruzione) e generare un breve intervento animato.
Editing video da testo. Puoi editare video esistenti usando istruzioni in linguaggio naturale: vuoi cambiare lo sfondo, modificare l'illuminazione, o alterare l'abbigliamento di un personaggio? Basta descriverlo.

Wan 2.7 introduce una funzione che nessuno degli altri grandi player offre ancora: un "Thinking Mode", un sistema di ragionamento a catena di pensieri che analizza il tuo prompt prima che inizi il rendering. Il risultato è meno generazioni sprecate, composizioni migliori e clip che corrispondono realmente a quello che hai descritto.
Per capire perché è importante: chiunque abbia usato strumenti di generazione video sa che il 70% del lavoro è riscrivere il prompt perché il risultato non corrisponde all'idea. Avere un modello che prima "ragiona" su cosa intendi, poi genera, riduce drasticamente questo ciclo.

Finora, creare un breve video didattico significava o usare modelli predefiniti (dove non trovi mai esattamente quello che ti serve), o avere competenze di ripresa e montaggio, o pagare qualcuno. Con questi strumenti, un insegnante di scienze può generare una simulazione visiva di un processo cellulare partendo da un'immagine di un manuale. Un insegnante di storia può animare una fotografia d'epoca. Chi insegna lingue può creare mini-dialoghi situazionali su misura per il livello della classe.
Non sostituisce la didattica. Aggiunge uno strato visivo a materiali che normalmente esistono solo come testo o immagini statiche.

La qualità non è ancora quella di Sora o dei migliori modelli commerciali a pagamento. Wan 2.7 non batte Seedance 2 o Kling 3 sulla qualità visiva pura, ma nessun altro modello ne eguaglia la libertà creativa e la completezza del workflow. È la migliore opzione open source del 2026.
I video durano al massimo 15 secondi, il che è un limite reale per narrazioni più complesse. Le clip possono essere concatenate, ma richiede un passaggio in più. E come tutti i sistemi generativi, i risultati non sono garantiti: a volte il modello produce qualcosa di inaspettato, e conviene pianificare un margine di tentativi.

L'ecosistema Qwen/Wan di Alibaba sta diventando in fretta un riferimento nel mondo open source non solo per i testi ma anche per i video. Dal 2023 Alibaba ha rilasciato in open source oltre 400 modelli Qwen, e la famiglia ha superato un miliardo di download con oltre 200.000 modelli derivati creati da sviluppatori in tutto il mondo. Non è un progetto marginale: è una delle infrastrutture AI più usate al mondo, e sta diventando sempre più accessibile anche a chi non ha un background tecnico. Vale la pena tenerla d'occhio.

Qwen 3.6