Nel vasto panorama dell’Intelligenza Artificiale, OpenAI ha fatto un nuovo e sorprendente passo in avanti. Dopo ChatGPT e Dall-E, l’azienda presenta Sora: un innovativo modello di intelligenza artificiale generativa che converte il testo in video, il cui potenziale spazia dalla creazione di filmati realistici a quelli in stile cartone animato.
Sora si differenzia dalle soluzioni esistenti text-to-video, permettendo agli utenti di generare istantaneamente clip video della durata massima di un minuto. Attraverso comandi testuali, è possibile delineare il soggetto, l’azione, i dettagli e lo stile grafico desiderato, consentendo anche la creazione di scene complesse con personaggi in movimento su sfondi ricchi di dettagli! La sua versatilità si manifesta ulteriormente attraverso la possibilità di specificare la lente e la traiettoria immaginaria della videocamera, aggiungendo un livello di personalizzazione senza precedenti. Inoltre, il modello consente di allungare spezzoni video esistenti o di animare immagini fisse, offrendo così infinite possibilità creative!
Sora è stato finora disponibile solo a un ristretto gruppo di tester di sicurezza, noti come “red teamers”. Questi esperti stanno attualmente sottoponendo il modello a test per individuare possibili vulnerabilità, concentrandosi su aree cruciali come la disinformazione e il bias. L’azienda non ha rilasciato dimostrazioni pubbliche oltre a 10 clip disponibili sul sito web.
Per quanto riguarda il lato sicurezza? Se Sora dovesse diventare un prodotto commerciale, verranno introdotti metadati C2PA per tracciare i contenuti video e garantire la responsabilità nella creazione. Un classificatore sarà responsabile della valutazione dei prompt testuali, al fine di declinare qualsiasi richiesta che violi le linee guida di OpenAI, come ad esempio tentativi di creare contenuti violenti, espliciti, ingannevoli o che comportino una violazione della proprietà intellettuale o dell’immagine di terzi.
Tuttavia, l’azienda riconosce che la perfezione di Sora è ancora in fase di sviluppo. Il modello potrebbe occasionalmente fraintendere alcuni elementi del prompt o non riprodurre accuratamente le traiettorie di movimento richieste. OpenAI sta lavorando diligentemente per raffinare l’output, raccogliendo feedback anche da registi, designer e artisti dell’immagine, per garantire uno strumento prezioso per i creativi professionisti (che tra l’altro potrebbero sentirsi minacciate da tecnologie come questa)
Dal punto di vista tecnico, Sora sfrutta il modello di diffusione, un tipo di apprendimento automatico che aggiunge progressivamente “rumore” ai dati di training per migliorare le prestazioni. La rappresentazione di video e immagini come una collezione di patch, simili a Token Gpt, consente a Sora di apprendere in modo più fedele le istruzioni testuali, aprendo nuove possibilità di espressione visiva.
Guardando al futuro, quindi, Sora sembra destinato a ispirare capolavori visivi e a ridefinire i confini dell’espressione artistica nel digitale. Rimaniamo impazienti di assistere allo sviluppo di questa straordinaria innovazione e di scoprire come questa tecnologia evolverà nel tempo.