Codice europeo per l’AI: ecco cosa serve all’industria musicale

3 ottobre 2024

Si è chiusa nei giorni scorsi la consultazione dell’Ufficio europeo per l’IA, volta all’elaborazione del codice di buone pratiche per l’intelligenza artificiale.

Cosa si aspetta l’industria musicale da questo processo, visto il forte coinvolgimento del settore nell’evoluzione dell’AI generativa? Quali aspetti dovranno essere inclusi nel codice?

La consultazione dell’Ufficio europeo per l’IA

La consultazione ha coinvolto i fornitori di modelli di IA per uso generale ammissibili, i fornitori a valle e altre organizzazioni del settore, altre organizzazioni di portatori di interessi quali le organizzazioni della società civile o le organizzazioni dei titolari dei diritti, nonché il mondo accademico e altri esperti indipendenti.

Il codice sarà elaborato nell’ambito di un processo di elaborazione interattivo entro aprile 2025, a nove mesi dall’entrata in vigore della legge sull’IA il primo agosto 2024. Secondo l’ufficio, il codice faciliterà la corretta applicazione delle norme della legge sull’IA per i modelli di IA di uso generale (GPAI). Proprio in questi giorni è stato avviato anche il lavoro della sessione plenaria che vede coinvolti tutti gli stakeholder.

Informazioni e dati per l’addestramento dell’intelligenza artificiale

Nell’ambito dell’obbligo di fornire “informazioni sui dati utilizzati per l’addestramento”, ai fornitori a valle e agli utenti finali devono essere fornite informazioni complete sui contenuti utilizzati e sulla base giuridica. Questo è l’unico modo per valutare se l’accesso e l’utilizzo dei contenuti protetti è stato effettuato legalmente e per valutare altri rischi, ad es. il modello che genera risultati distorti o discriminatori.

Ad esempio, quando vengono utilizzati contenuti sui quali una terza parte detiene diritti, dovrebbero essere forniti dettagli per garantire che i diritti non siano stati violati, vale a dire il contenuto utilizzato (ad esempio informazioni sul titolo/sul copyright); la fonte specifica (es. URL o nome della piattaforma/servizio); quando il contenuto è stato ottenuto; e la base giuridica per il suo utilizzo.

Gli obblighi in capo ai fornitori

In tale contesto i fornitori dovrebbero essere obbligati a:

  • conservare registrazioni complete dei contenuti utilizzati per la formazione e, qualora non abbiano adempiuto all’obbligo di fornire informazioni sufficientemente dettagliate al riguardo per facilitare ai titolari dei diritti l’esercizio e il rispetto dei propri diritti, disporre di un meccanismo per fornirle a coloro che hanno interessi legittimi, ad es. titolari dei diritti. Questa misura fornirebbe i mezzi per garantire il rispetto della normativa UE sul diritto d’autore e fornire un risarcimento per il mancato adempimento dell’obbligo di trasparenza di cui all’articolo 53, paragrafo 1, lettera d).
  • impedire la generazione di output che violano la proprietà intellettuale nonché l’utilizzo del modello da parte degli utenti finali per violare, ad es. caricare materiale protetto da copyright come file di riferimento/dati di formazione o generare cloni di artisti.
    • Sicuramente, “intraprendere misure” come afferma l’AI Act non è sufficiente. Per rispettare la normativa dell’UE, gli sviluppatori che scelgono di accedere e utilizzare contenuti protetti da copyright di terzi (laddove i diritti sono stati riservati o non esiste un accesso legale) dovrebbero:
  • ottenere la preventiva autorizzazione degli aventi diritto. I titolari dei diritti musicali hanno una lunga storia nella concessione di licenze a entità grandi e piccole a livello globale e stanno già collaborando con società di intelligenza artificiale generativa etica.
  • rilevare e rimuovere contenuti protetti da diritto d’autore non autorizzati. Le tecnologie di riconoscimento automatico dei contenuti (ACR) lo consentono già (ad es. Audible Magic) e sono state implementate con altre misure, ad es. analisi di metadati/dati da parte degli sviluppatori di modelli di intelligenza artificiale per conformarsi alle normative sul copyright.

Le dichiarazioni sull’opt-out da parte delle case discografiche mondiali

Per quanto attiene ai diritti esclusivi va evidenziato che il considerando 18 della Direttiva Copyright del 2019 include le “dichiarazioni unilaterali” come mezzo per riservare diritti.

Come è noto, le principali case discografiche mondiali, etichette indipendenti e altri titolari di diritti del settore musicale hanno rilasciato dichiarazioni unilaterali sull’opt-out.

Tali dichiarazioni rese dai titolari dei diritti al pubblico e/o direttamente agli sviluppatori forniscono un avviso completo della riservatezza dei diritti e possono essere utilizzati strumenti di base per garantire che il contenuto pertinente sia escluso dalla formazione. Vanno quindi rispettati.

Le opzioni per consentire ai titolari dei diritti di esercitare e far valere i propri diritti

Oltre ad avere un accesso legittimo, i fornitori devono identificare e rispettare le riserve di diritto di avvalersi dell’art. 4 della Direttiva DSM, con diversi settori che legittimamente lo fanno in vari modi.

Per la musica registrata, ciò può e/o è stato fatto:

  • A livello di sito web/servizio, ad esempio termini e condizioni, prenotazioni sul server di origine, intestazioni di risposta HTTP o metatag HTML o tramite file robots.txt in cui è disponibile musica registrata o altri contenuti protetti.
  • Tramite dichiarazioni accessibili online, riservandosi i diritti sul repertorio.
  • Tramite tecnologie ACR in grado di verificare i diritti a livello aggregato.
  • A livello operativo, ad es. tramite il linguaggio “tutti i diritti riservati” o (P) avvisi su registrazioni fisiche e digitali.

La granularità delle fonti e la base giuridica

La granularità delle fonti deve essere sufficiente da consentire ai titolari dei diritti di identificare la copia non autorizzata dei loro contenuti per esercitare e far valere i propri diritti senza oneri irragionevoli. Pertanto, ciò deve includere l’elenco (o l’indicazione di un elenco autorevole di) fonti specifiche (ad esempio URL). Non è sufficiente indicare il nome di un sito/servizio a meno che non sia stato estratto tutto e, laddove un dataset sia stato curato, ne consegue che è possibile divulgare il sottoinsieme in modo specifico.

Occorre inoltre fornire la base giuridica per la riproduzione del contenuto dalla fonte per valutare la legalità dell’estrazione (ad esempio licenza, contenuto di dominio pubblico non protetto, ecc.).

In molte aree, per facilitare l’esercizio dei diritti attraverso la negoziazione delle licenze o l’applicazione dei diritti, è necessario fornire una granularità a livello operativo.

Per la musica registrata, questo livello di dettaglio (specificando l’artista della registrazione, i titoli dei brani e/o gli ISRC -identificatori standard per le registrazioni) è fattibile con, ad esempio Audio Stabiliy. In alternativa, il set di dati deve includere almeno identificatori che possono essere facilmente collegati al contenuto sottostante, ad esempio Google MusicCaps; o collegamenti al contenuto sottostante, ad esempio AudioSet di Google Research. La fattibilità è stata dimostrata anche per altri contenuti, ad es. Modelli e set di dati di Ai2.

Le opzioni elencate rappresentano il minimo indispensabile e, in alcuni casi, non saranno sufficienti a soddisfare lo scopo dichiarato di consentire ai titolari dei diritti di esercitare e far valere i propri diritti.

Come indicato sopra, in molti settori, gli sviluppatori di intelligenza artificiale devono fornire granularità a livello di base per consentire ai titolari dei diritti di esercitare/far valere i propri diritti.

Le tecnologie di riconoscimento automatico dei contenuti 

Inoltre, le tecnologie di riconoscimento automatico dei contenuti (ad esempio Audible Magic) consentono già questo livello di identificazione anche all’interno di set di dati molto grandi e sono già state implementate dagli sviluppatori di modelli di intelligenza artificiale, ad es. Audio Stability open.

La riservatezza aziendale o i segreti commerciali non possono essere utilizzati in modo improprio per impedire la divulgazione laddove i diritti coinvolti siano detenuti da terzi. Non vi sarebbe alcuna base per sostenere che le informazioni siano riservate e, in ogni caso, qualsiasi diritto al riguardo sarebbe esercitabile dal titolare del diritto, non da un fornitore di IA.

Inoltre, l’uso improprio della normativa sul segreto commerciale per nascondere le violazioni priverebbe di significato l’obbligo e ostacolerebbe il diritto fondamentale dei titolari dei diritti di esercitare e far valere i propri diritti. Anche il fatto che determinate informazioni debbano essere sempre divulgabili è convenzionale, ad es. obblighi di pubblicare ingredienti specifici negli alimenti, anche se potrebbe non essere necessario divulgare la ricetta per prepararli.

I rischi sistemici 

L’addestramento di modelli attraverso violazioni su larga scala del diritto d’autore è un rischio sistemico. Si tratta di una flagrante violazione di un diritto fondamentale (protezione della proprietà intellettuale ai sensi dell’articolo 17, paragrafo 2, della Carta UE) che causa un danno economico e culturale irreparabile a causa della portata e della velocità coinvolte, inclusa la generazione di contenuti che competono ingiustamente con gli stessi contenuti appropriati. Può anche essere utilizzato per clonare aspetti fondamentali dell’identità di un artista: la sua voce, immagine e somiglianze. Questa attività, se lasciata incontrollata, è particolarmente pericolosa poiché alimenta comportamenti illegali.

Esistono due ulteriori fonti di rischio sistemico:

  • L’utilizzo di contenuti senza autorizzazione per generare contenuti che competono slealmente nello stesso mercato delle opere di cui si è appropriato illegalmente.
  • La proliferazione di servizi di clonazione vocale rivolti ai consumatori sotto forma di siti Web, bot e app, che consentono agli utenti di generare tali contenuti senza alcuna competenza tecnica.

L’addestramento di modelli attraverso violazioni su larga scala del diritto d’autore è pertanto da considerarsi un rischio sistemico.

Si tratta di una flagrante violazione dei diritti fondamentali (tutela della proprietà intellettuale ex art. 17, par. 2, Carta UE) che provoca un danno economico e culturale irreparabile a causa della portata e della velocità coinvolte nella generazione di contenuti derivati ​​da violazioni che competono slealmente con lo stesso contenuto appropriato. Può anche essere utilizzato per clonare aspetti fondamentali dell’identità di un artista. Questa attività, se lasciata incontrollata, è particolarmente pericolosa poiché alimenta comportamenti illegali, ad es. si veda la dimensione,

La valutazione del rischio da parte dei fornitori di servizi di IA

I fornitori dovrebbero condurre una valutazione del rischio per quanto riguarda il materiale da utilizzare per la pre-formazione e la messa a punto dei loro servizi di intelligenza artificiale generativa, per garantire che non rischi di violare i diritti di proprietà intellettuale (un diritto fondamentale), con ulteriori misure da adottare una volta identificato di tali rischi (ad esempio escludere tale contenuto dall’addestramento a meno che non sia stata ottenuta l’autorizzazione dal titolare del diritto pertinente per questo uso esplicito).

I fornitori dovrebbero inoltre condurre una valutazione dei rischi e implementare misure per prevenire la generazione di output che violano la proprietà intellettuale, nonché l’uso del modello da parte degli utenti finali per violare le norme, ad es. caricamento di materiale protetto da copyright come file di riferimento/dati di addestramento.

Al fine di attuare le pratiche specifiche relative alle valutazioni dei modelli indicate, i fornitori di modelli di IA dovrebbero utilizzare strumenti quali l’audio fingering e altre tecnologie di riconoscimento automatico dei contenuti, in particolare per garantire che i set di dati di addestramento, i caricamenti e gli output non contengano proprietà intellettuale protetta non autorizzata.

Come mitigare i rischi: misure e tecnologie

Il rischio può essere mitigato attraverso la concessione di licenze o l’uso della tecnologia ACR. Esistono già tecnologie standardizzate (ad esempio Audible Magic) che consentono alle imprese, comprese le PMI e le start-up, di garantire che i contenuti utilizzati per la formazione non includano registrazioni audio protette dal diritto d’autore. Tale tecnologia è stata a lungo implementata nell’ecosistema dello streaming da attori grandi e piccoli, ed è stata adottata più recentemente dagli sviluppatori di intelligenza artificiale, ad es. Stability AI per garantire che il suo modello Stable Audio Open non includesse materiale su cui Stability AI non aveva i diritti.

I fornitori di modelli di intelligenza artificiale dovrebbero inoltre adottare misure per garantire che esclusivamente il materiale generato dall’intelligenza artificiale sia etichettato/filigranato per indicare che si tratta di output generato dall’intelligenza artificiale. Ciò è importante per informare utenti e consumatori per consentire loro di distinguere tra contenuti esclusivamente generati dall’intelligenza artificiale e genuina abilità artistica umana (che può o meno comportare l’uso dell’intelligenza artificiale come strumento nel processo creativo) e ridurre il rischio di confusione sul fatto se il contenuto è reale o sintetico.

Come indicato, non sono richiesti standard diversi per fornitori diversi. Il rischio può essere mitigato attraverso la concessione di licenze o l’uso della tecnologia ACR. Esistono già tecnologie standardizzate (ad esempio Audible Magic) che consentono alle imprese, comprese le PMI e le start-up, di garantire che i contenuti utilizzati per la formazione non includano registrazioni audio protette dal diritto d’autore. Tale tecnologia è stata a lungo implementata nell’ecosistema dello streaming da attori grandi e piccoli, ed è stata adottata più recentemente dagli sviluppatori di intelligenza artificiale, ad es. Stability AI per garantire che il suo modello Stable Audio Open non includesse materiale su cui Stability AI non aveva i diritti.

La trasparenza e la tracciabilità dei set di dati

La trasparenza e la tracciabilità dei set di dati, dei processi e delle decisioni prese durante lo sviluppo del modello sono di particolare importanza.

La capacità su larga scala dei modelli di intelligenza artificiale generativa di importare, copiare e appropriarsi di contenuti protetti, insieme al fatto che attualmente è quasi impossibile accertare se e come il contenuto sia stato utilizzato per addestrare modelli di intelligenza artificiale, mette fondamentalmente alla prova la capacità dei titolari dei diritti di esercitare e far rispettare le leggi e i diritti esistenti.

Tracciabilità e trasparenza saranno fondamentali per garantire la responsabilità laddove i fornitori di IA generativa cercano di sottrarsi alla responsabilità, ad es. addestrando le applicazioni di intelligenza artificiale in una giurisdizione in cui potrebbe essere difficile far valere i diritti.

Gli indicatori chiave di prestazione e gli impegni di rendicontazione

Gli indicatori chiave di prestazione e gli impegni di rendicontazione dovrebbero applicarsi a tutti i fornitori perché: a) si possono causare danni sostanziali indipendentemente dalle loro dimensioni; e b) le PMI/start-up spesso diventano aziende più grandi o vengono acquisite da aziende più grandi.

A tal fine, si vedano i casi intentati nel giugno 2024 dalle case discografiche che denunciavano due servizi di intelligenza artificiale generativa con sede negli Stati Uniti coinvolti nella violazione di massa di registrazioni audio protette da copyright copiandole allo scopo di addestrare i loro modelli.

Come fornire un riassunto dettagliato dei contenuti usati per la formazione

Per quanto riguarda la musica registrata, per soddisfare il requisito di fornire un riassunto sufficientemente dettagliato dei contenuti utilizzati per la formazione al fine di facilitare la concessione di licenze di diritti di proprietà intellettuale agli sviluppatori di modelli (per promuovere lo sviluppo di un mercato sostenibile e funzionante) o, se necessario, l’azione legale contro gli sviluppatori di IA per la copia illegale di registrazioni sonore, è necessario fornire un elenco completo dei contenuti utilizzati:

  • quali contenuti sono stati utilizzati (ad esempio, l’artista della registrazione, i titoli dei brani e/o gli ISRC (identificatori standard delle registrazioni);
  • da dove è stato ottenuto il contenuto (ad esempio, URL specifici o nome della piattaforma/servizio);
  • quando il contenuto è stato ottenuto (ad esempio, data e ora); e
  • la base legale per il suo accesso e utilizzo.

Questo è il modo più efficace per garantire un sano sviluppo di un mercato sostenibile e funzionante sia per i titolari dei diritti che per le aziende tecnologiche. Questo perché i titolari dei diritti sulla musica registrata possono concedere in licenza i loro diritti di proprietà intellettuale solo se sanno quali contenuti vengono utilizzati e non possono difendersi dall’uso illegale dei loro diritti senza le stesse informazioni.

In base all’ esperienza nell’intentare cause contro i trasgressori, è noto che che i tribunali richiedono che i titolari dei diritti citino e forniscano prove di casi specifici di violazioni di registrazioni sonore (con l’intera catena di diritti, ecc.).

Di conseguenza, questo livello di granularità è necessario per essere “sufficiente” a soddisfare lo scopo di facilitare l’esercizio e l’applicazione dei diritti.