Johansson: Träningsdata som ny musikprodukt

Går det att licensiera AI-plattformar på samma sätt som man licensierar andra former av musikanvändning? Daniel Johansson tror att det kommer krävas en annan approach, som inkluderar en helt ny ”musikprodukt”, som AI-företagen dessutom behöver.

Musikbranschen har gått igenom flera stora teknikskiften under det senaste århundradet, som förändrat branschens struktur. Radio skapade behovet av kollektiv förvaltning av rättigheter, och gjorde att organisationer som Stim bildades runt om i världen.

Plastrevolutionen på 50-talet gjorde att kostnaderna för skivtillverkning föll drastiskt och låg till grund för att skivbolagen tog över rollen från musikförlagen som den mest dominerande aktören i branschen, och branschkartan ritades om.

Kabel- och satellittekniken gjorde det möjligt för MTV att bli ett globalt fenomen, och gjorde att musikvideon blev en central musikprodukt. Digitaliseringen gjorde att musiken gick över från att vara en fysisk produkt till att bli en virtuell upplevelse i datorer, och så småningom smartphones, och kortvideos har de senaste åren blivit en ny slags ”produkt” som styr branschens ekonomi i mycket.

Generativ AI som teknologi står och faller med vilken träningsdata man använder för att träna AI-modellerna. Kvalitet på output = mängd kvalitativ input.

Just nu råder två helt skilda synsätt mellan rättighetshavarna och AI-plattformarna, där de senare menar att träning är ”fair use”, eller råder under undantaget för text- och datautvinning, medan de förra menar att licenser måste införskaffas för att använda musiken på det sättet.

Någon gång i framtiden kommer vi hamna i en situation där marknaden kommer regleras tydligare, och de företag som vill erbjuda kommersiella produkter för generativ AI måste använda sig av data som är godkänd från rättighetshavarna. Men, det finns ett mer brådskande behov, där en ny musikprodukt behövs, eller en ny standard, fenomenet kallas ”model collapse”, och jag återkommer till det.

De viktiga frågorna är: Vem kan skapa de mest kvalitativa träningsdataseten? Hur tillgängliga är de? Och vem äger denna träningsdata?

När den illegala fildelningen slog igenom i början av 00-talet reagerade musikbranschen genom att främst försöka sätta stopp på piratkopieringen, men det skulle dröja ett tag innan det fanns några lagliga alternativ på marknaden som kunderna var intresserade av att betala för (tack Apple och Spotify).

Till skillnad mot hur man hanterade det paradigmskiftet, det var väl sisådär, har musikbranschen nu en gyllene chans att sätta sig i förarsätet och leda utvecklingen inom generativ AI. Men för det tror jag att det krävs en ny form av musikprodukt, eller ett nytt ”format”, det vill säga:

Upphovsrättskompatibel träningsdata, som rättighetshavarna själva tillhandahåller.

I nuläget försöker branschorganisationer och rättighetshavare applicera existerande regelverk och licensieringsmodeller på generativ AI. Tyska GEMAs nya licensförslag är en sådan variant, där man egentligen bara använder sig av en modifierad lösning av redan existerande licenser, 30% av AI-plattformarnas intäkter är tänkt att fördelas till rättighetshavarna. Gott så, men det är inte där de stora pengarna finns, det är när AI-musiken spelas på streamingtjänsterna, som leder till utbetalningar som de ursprungliga rättighetshavarna idag inte får någon kickback på.

Jag tror att rättighetshavarna behöver vara de som tar fram den upphovsrättskompatibla högkvalitativa träningsdata som bara den som sitter på originaldata kan göra, och det är denna paketerade träningsdata man sedan licensierar ut, snarare än musiken i sig självt.

En av anledningarna till att streamingen har lyckats, trots att fildelningsnätverken fortfarande lever för fullt, är att musiken är paketerad på ett bättre sätt än fullösningarna. Alla 640 miljoner användare väljer Spotify, för att det helt enkelt är bättre än piratkopieringen.

För att en AI-modell ska kunna vara ”copyright compliant” krävs detaljerad metadata som följer med den representativa träningsdata som genereras från själva musiken. Det behövs ISRC-koder, ISWC-koder, IPI-koder, IPN-koder, kanske ISNI-koder, och varför inte ett helt nytt segmentmetadataformat, inbakat i hela AI-modellen för att korrekt rättighetshavare ska kunna spåras.

För att en AI-modell ska kunna fungera i den upphovsrättsliga kontexten, måste den helt enkelt tränas på just upphovsrätten.

Vilka sitter på sådan data?

Musikbranschens aktörer, sällskapen, musikbolagen, musikförlagen, distributörerna, DSP-erna, Session m fl.

Det finns embryon till sådana lösningar, främst kanske AIxchange från distributören Paradise Worldwide som har utvecklat ett system för att licensiera ut träningsdata som innehåller korrekt information. Grundaren Ralph Boege, säger till MBW: ”If the IPI, the ISWC, and correct Writer Splits, Publisher and CMO / IME data – I call it the complete code set – are missing, rights collectors on the publishing side are not able to get the complete revenue. It’s important that the industry works on this, and that’s something we have done via the All Rights model.”

Andra relaterade exempel är Sureel, som tillhandahåller en tjänst där man kan ange hur AI-plattformar får använda musiken. BMAT har introducerat en lösning där AI-företag kan kontrollera sina dataset för att se hur väl de lirar med upphovsrätten. Voice Swap har också en lösning där artister kan ”låna ut” sin röst legalt, medan Fairly Trained ”upphovsrätts-certifierar” AI-modeller som jobbar enligt lagboken.

Hos de stora masterägarna pågår det projekt där man utvecklar AI-modeller av sina artisters röster, och släpper versioner på andra språk, och det finns säkert projekt där man också leker med att generera träningsdata för generativ AI, även om det inte är offentliga projekt.

I min värld är det de aktörer som faktiskt sitter på originaldata, inklusive all metadata och koder, som har de bästa förutsättningarna för att ta fram högkvalitativ träningsdata till upphovsrättskompatibla AI-modeller. Dessutom, detta är precis vad AI-företagen behöver.

Diskussionerna kring fenomenet ”model collapse” tog fart på allvar under förra året (även om problemet framhållits teoretiskt långt tidigare), en degenerativ process för AI-modeller där de gradvis förlorar sin prestanda när de tvingas träna iterativt på syntetiskt genererad data, snarare än genuin och varierad mänsklig data. Modellen kan utveckla biaser, minska sin förmåga att representera komplexa strukturer och tappar den ursprungliga kvaliteten.

Man kan tycka att AI-företagen borde kunna separera mellan AI-genererad träningsdata och originaldata, men det är inte så enkelt. Även om det än så länge inte är ett problem på musikområdet, kvaliteten på output blir bara bättre och bättre, hamnar också AI-musiken ute på den där ”open web” som skrapas, och som sedan ingår som ”nytt” innehåll för träning i nästa modell.

För att förbättra träningsdatasetens kvalitet och spårbarhet, genom att t ex använda ISRC, ISWC, IPI och IPN som hela tiden verifierar att träning sker på originalverk, eller mänskliga låtskrivare, artister och verifierade inspelningar, kan man säkerställa att AI-modeller även i iteration 1 miljard tränas på autentisk data som representerar verklig mänsklig musik.

Detta är den nya musikprodukten jag pratar om, verifierad upphovsrättskompatibel högkvalitativ träningsdata.

Det behövs troligen en ny standardiserad arkitektur för det, som på sikt blir integrerad i hela musikens ekonomi, men det viktigaste av allt, det finns ett behov på marknaden för det.

Den output som genereras på AI-plattformar som Suno och Udio (förutsatt att de ändrar inställning och vill bli upphovsrättskompatibla överhuvudtaget), skulle då också kunna ha med sig nödvändig upphovsrättslig data för att tjänster som Spotify och YouTube Music, eller snarare distributörer, PROs, labels etc, ska kunna fördela till korrekt rättighetshavare när AI-musik som är derivat av tidigare musik genererar utbetalningar. Tänk User Generated Content så som det fungerar på till exempel YouTube idag.

Så, parallellt med att branschen naturligtvis måste driva juridiska processer mot de som gräver stulet guld i väst, måste branschen också presentera en teknisk lösning för hur det ska fungera. Det räcker inte med att enbart lagstifta och producera prejudikat, det behövs teknik och standarder som möter den nya lagstiftningen och tillhandahåller det som marknaden efterfrågar. Att det går att göra visar till exempel papers som det här: Computational Copyright: Towards A Royalty Model for Music Generative AI.

Sverige skulle kunna vara med och lite leda vägen här, tänker jag.

Oförhappandes återknyter jag till när ISWC introducerades för musikverk. Även om det känns som vi har levt med den standarden i en evighet, så introducerades koden så sent som i mitten av 1990-talet, och Stim hade en viktig roll i det arbetet. ABBAs Dancing Queen blev det första verket registrerat, av Göran Carlsson, Stim-legendar, som berättade för MI tidigare i år:

”Ja, det stämmer och jag har T-000.000.001-0 tatuerat på ryggen. Tilläggas ska att jag gav Roxettes It Must Have Been Love nr 2 och deras The Look nr 3.”

Det skifte vi går igenom nu kommer kräva nya standarder och nya lösningar, det går inte att trycka in en fyrkantig licensieringsmodell i ett runt AI-hål. Det kommer säkert ta en stund att utveckla den nya musikprodukten, men någonstans måste man börja. Det är bara att kavla upp ärmarna och ”science the shit out of it”, som Mark Watney så delikat uttryckte det.

Steg 1: Vad kallar vi den nya lösningen?

Ett första förslag: Copyright-Verified Training Dataset System. Akronym TBD.

Om någon vill slänga 100 miljoner på mig för att ta tag i det, varsågod. 😉

Daniel Johansson
daniel@musikindustrin.se