Intelligenza artificiale generativa? La più grande rapina di contenuti protetti

Nei giorni scorsi sono stati lanciati due nuovi modelli di intelligenza artificiale progettati per generare video realistici sulla base di semplici descrizioni testuali, immagini o video preesistenti.

OpenAI ha lanciato Sora Turbo disponibile per gli abbonati plus e pro di ChatGpt. Google ha anticipato di poco il competitor con Veo, il Large Language Model proprietario creato dal team di DeepMind che consente di generare video a partire da testo o immagini, disponibile per ora solo in forma privata per i clienti di Google Cloud che utilizzano la piattaforma di learning automatico Vertex AI.

Benché entrambi i servizi non forniscano in alcun modo informazioni sulla trasparenza e su come siano stati addestrati, Google ci fa sapere che i video creati da Veo sono filigranati utilizzando SynthID, lo strumento all’avanguardia per la filigrana e l’identificazione dei contenuti generati dall’intelligenza artificiale, e saranno sottoposti a filtri di sicurezza e a processi di controllo della memorizzazione che contribuiscono a mitigare, ad esempio i rischi di privacy e di violazione del copyright.

Da OpenAI, nessuna particolare informazione se non che il modello è stato addestrato utilizzando un insieme di “dataset diversificati” quali “dati pubblici”, raccolti da set standard di machine learning e web crawling, dati proprietari, negoziati con partner come Shutterstock e Pond5 e dataset personalizzati, sviluppati internamente da OpenAI.

Il tema dei dati pubblici riporta ad alcune affermazioni recenti di manager di OpenAI, come Mira Murati, che candidamente hanno affermato al Wsj che tra le fonti “pubbliche” per l’addestramento dei propri sistemi vi erano piattaforme come YouTube, Instagram e Facebook.

È evidente che l’assoluta reticenza delle aziende che sviluppano modelli di GenAI nel fornire dettagli sulle fonti conferma da un lato le preoccupazioni dei titolari dei diritti di copyright, dall’altro emerge come fonte di prova, ad esempio nel caso Nyt vs OpenAI, dove risulterebbero ampi utilizzi di opere dell’editore statunitense nei dataset di OpenAI.

Come giustamente ha osservato un esperto come lo sviluppatore Ed Newton-Rex: “Questa frase confonde le persone”. L’espressione “pubblicamente disponibile” può sembrare che l’azienda abbia il permesso di usare le informazioni, ma per molti versi è più l’equivalente legale di “chi trova, se lo tiene”. E come conferma Ed Newton-Rex: “Probabilmente è stata pensata per confondere le persone”.

In realtà ci troviamo di fronte ad una nuova rivoluzione digitale simile a quella delle prime applicazioni per la diffusione di musica e video, dove le opzioni tecnologiche tendevano a superare ogni rispetto dei diritti d’autore, da un lato scaricando i rischi sull’utilizzatore dell’applicazione, dall’altro invocando il cosiddetto “fair use” ovvero un’eccezione presente nella normativa americana che consente di utilizzare contenuti protetti, ad esempio per la ricerca scientifica o senza scopi commerciali.

In realtà siamo di fronte alla più grande rapina di contenuti protetti del nuovo secolo.

Tecnicamente i modelli di intelligenza artificiale hanno già “ingerito” l’intera produzione audio e video globale (senza dimenticare i nostri dati personali, immagini e voci) senza alcuna autorizzazione.

È assolutamente falsa l’affermazione che questi strumenti abbiano “imparato”, “letto” o “guardato” contenuti per addestrarsi, così come farebbe un qualsiasi creativo per ispirarsi e creare nuove opere.

Queste attività della “fase di importazione” includono la raccolta (che include lo scraping) e la curatela di opere protette da copyright a fini di formazione, indipendentemente dal fatto che l’entità impegnata in tali atti sia la stessa entità che possiede o gestisce il sistema di intelligenza artificiale generativa che importa queste opere.

Il regolamento EU sull’intelligenza artificiale (AI Act), su questo fronte, ha stabilito che i fornitori di modelli GPAI rendano disponibile un riepilogo sufficientemente dettagliato dei contenuti utilizzati per l’addestramento, che consenta alle parti con interessi legittimi, inclusi i titolari di copyright, di esercitare e far valere i propri diritti in conformità con la legge Ue. I titolari dei diritti dovrebbero essere in grado di identificare i contenuti usati per addestrare l’IA e, a loro volta, entrare in negoziazioni contrattuali o far valere i loro diritti e che attuino politiche per rispettare la legge sul copyright. L’obbligo chiarisce inoltre che la responsabilità ricade sui fornitori di modelli GPAI per “identificare e rispettare” le riserve di diritti, anche attraverso tecnologie all’avanguardia.

In questi giorni è in discussione a Bruxelles il General-Purpose AI Code of Practice il codice con le linee guida per l’AI connesse al regolamento.

Sono evidenti i tentativi delle piattaforme di svuotare gli effetti dell’AI Act suggerendo da un lato che l’iper- regolamentazione sia dannosa per lo sviluppo tecnologico, dall’altro cercando di limitare gli obblighi sulla trasparenza, che sono invece fondamentali per consentire ai titolari dei diritti di impostare modelli di licenza per mettere a disposizione legalmente il contenuto protetto da copyright.

Senza un’adeguata regolamentazione, secondo una recente ricerca di CISAC, la confederazione internazionale degli autori, i creatori di musica e audiovisivi vedranno rispettivamente il 24% e il 21% dei loro ricavi a rischio di perdita entro il 2028. Ovvero una perdita cumulativa di 22 miliardi di euro nell’arco di cinque anni (10 miliardi di euro in musica; 12 miliardi di euro in audiovisivo).