2 juli 2024

JOHANSSON: Det går att göra rätt

Futureverse har lanserat JEN, en etiskt tränad AI-plattform som visar hur Suno och Udio skulle ha gjort från början. Daniel Johansson beskriver hur träningen av AI-modeller egentligen går till, och vad som står på spel i det långa loppet.

I höstas skrev vi här på MI om Futureverse och deras forskning och utveckling av sin AI-modell JEN. Nu har de lanserat en alpha-version, där man precis som på andra befintliga tjänster, som t ex Suno och Udio, kan prompta musik.

Den stora skillnaden är att Futureverse har licensierat all träningsdata och byggt ett system som ekonomiskt kan kompensera rättighetshavarna.

Futureverse har licensierat mer än 40 kataloger för träningen, och behandlar musiken på ett helt annat sätt jämfört med de tjänster som nyligen blev stämda av amerikanska RIAA. På hemsidan beskriver man:

”Jen introduces a new standard for copyright compliance in text-to-music generation. With over 40 fully-licensed catalogs in its initial training set, Jen adheres to a strict training doctrine that emphasizes its commitment to transparency, compensation and copyright identification. Jen’s rigorous compliance process sets it apart from the pack. Every track is automatically vetted for audio recognition and copyright identification utilizing a database of 150M tracks. This includes both the compositions in the training set and every newly generated track on the platform.”

Jag har testat plattformen, och kan konstatera att kvaliteten på output inte är riktigt lika hög som på t ex Suno och Udio. Man kan som mest generera musik upp till 45 sekunder, och det genereras ingen sång.

I nuvarande utförande kommer JEN troligen inte kunna konkurrera med de miljontals spår som genereras på de andra plattformarna, men, i det långa loppet hoppas och tror jag att det är JEN, eller motsvarande, som kommer vinna.

Eftersom man hanterar träningsdata på ett helt annat sätt än de andra, har man också möjligheten att kunna fördela intäkter tillbaka till korrekt rättighetshavare när ny musik genereras. Metadata kring rättigheter är liksom inbakat i den träningsdata man använder för sin AI-modell. I princip skulle alltså såväl masterägare som insamlande sällskap kunna licensiera sina kataloger till Futureverse och redan idag få en revenue split och medföljande fördelningsdata, på samma sätt som från streamingplattformar.

Samtidigt rapporterar Financial Times att YouTube befinner sig i förhandlingar om licenser för AI-användning med de tre största musikbolagen. Förutom Dream Track har YouTube och Google utvecklat flera olika AI-modeller tidigare, som Lyria, MusicLM och MusicFX. Enligt uppgifter ska YouTube nu vara på gång med något helt nytt som ska lanseras senare under år 2024.

Till skillnad mot Suno och Udio gör även YouTube numera rätt, man börjar med att se till att all träningsdata är licensierad.

Jämför det med Udios respons på RIAAs stämning:

”Just as students listen to music and study scores, our model has “listened” to and learned from a large collection of recorded music. The goal of model training is to develop an understanding of musical ideas — the basic building blocks of musical expression that are owned by no one. Our system is explicitly designed to create music reflecting new musical ideas. We are completely uninterested in reproducing content in our training set, and in fact, have implemented and continue to refine state-of-the-art filters to ensure our model does not reproduce copyrighted works or artists’ voices.”

Udio hävdar att deras teknik bara ”lyssnar”. Det där är en sanning med modifikation. Att använda ordet ”lyssna” är missvisande, och försöker på något sätt indikera att Udios AI-modell helt enkelt går runt på Spotify och YouTube och ”lyssnar” och inspireras, ungefär som en människa skulle göra.

Dessutom påstår man att deras tjänst inte reproducerar upphovsrättsskyddade verk och artisters röster, vilket är en direkt lögn. Det är precis det Udio gör, gång på gång på gång. Men jag förstår vad de menar, det är faktiskt inte Björks röst vi hör, när vi hör Björk.

För att kunna träna en AI-modell måste man ha ett grunddataset att utgå från, och i dagsläget handlar det om att skapa en stor databas med musikfiler med tillhörande metadata (som genre, mood, energinivå, BPM, årtal etc).

Vanligtvis segmenterar man de miljontals musikfilerna till mindre segment (sådär 5-10 sekunder), och extraherar features från musikfilerna, akustiska egenskaper som beskriver ljudet, spektrala analyser, amplitud, frekvenser osv. Man vill helt enkelt konvertera ljudet till representativ data som man sedan kan träna sin modell på.

Ofta brukar man hänvisa till den här processen som ett slags ”komprimering”, ungefär som en stor WAV-fil kan komprimeras till en mindre mp3-fil. Man översätter ljudet till data som programvaran kan förstå (ingen AI-modell förstår egentligen ljud, de har ingen som helst aning att de processar ljud, det hade lika gärna kunnat vara bild eller video).

Efter denna process kan man i princip slänga musikfilerna, om man har genererat tillräckligt bra representativ data, även om jag tror de flesta behåller dessa stora databaser och använder dem iterativt för att förbättra träningsdata.

Det är i denna komprimeringsprocess som data kring rättighetshavare, ISRC-koder, ISWC-koder etc måste finnas med, om den som utvecklar modellen ska ha någon som helst chans att kunna härleda output tillbaka till rättighetshavarna. Jag hyser en stark misstanke om att tjänster som Suno och Udio helt enkelt har struntat i denna metadata, medan en tjänst som JEN tar med det för att kunna kompensera rättighetshavare i framtiden.

Nästa steg är att välja vilken form av AI-modell man ska använda, de vanligaste bygger på konvolutionella neurala nätverk (CNNs) eller rekurrenta neurala nätverk (RNNs), och under de senaste åren s.k. GANs, transformer- och diffusionmodeller, som vi inte behöver gå in i detalj på. Här finns en bra artikel för den som vill dyka lite djupare.

När man valt modellarkitektur skapar man själva modellen med hjälp av ett ramverk som TensorFlow eller PyTorch. Efter detta är det dags att träna modellen.

Utvecklarna väljer vilken lärande-algoritm man ska använda, ett par exempel är Adam eller RMSprop. Man delar upp den data som man tidigare genererade från musikfilerna som ”träningsdata”, ”valideringsdata” och ”testdata”. Den största andelen är just träningsdata, medan övrig data används för att säkra att modellen gör det den ska.

Träningsfasen kan utgå från både övervakat lärande (supervised learning) och oövervakat lärande (unsupervised learning). Om man tränar en modell utan att ha någon extraherad representativ data, är det oövervakat lärande.

Det vanligaste är att modellen tränas med både input (den representativa data som genererats tidigare) och korrekt output. För musik innebär det att människor helt enkelt måste vara med i processen, finjustera, optimera, lägga till mer data, och kontrollera så att output verkligen blir det som man vill att det ska bli.

När detta är klart, och man är nöjd med modellen, behöver den få ett gränssnitt mot omvärlden, i de flesta fall en webbplats där användare så att säga interagerar med AI-modellen som ligger på en server som kör en backend-applikation.

Säg att jag promptar ”Summer, pop song, rain, positive but concerned by the weather”, sker ett anrop mot applikationen som använder sig av AI-modellen. Den försöker matcha det jag skrivit mot den metadata som representerar olika ljud, och genererar nya ljud genom att t ex använda sig av WaveNet eller GAN.

All musik som genereras på AI-plattformarna är alltså en form av syntetiserat ljud, ungefär som en synthesizer skapar ljud (i brist på bättre jämförelse). Den nya ljudfilen pushas tillbaka till gränssnittet, webbsidan, och användaren kan lyssna på den nya låten.

Det säger sig självt att kvaliteten på output är helt beroende av hur bra träningsdata man har extraherat från ljudfilerna. För att få optimal träningsdata behöver man därför mängder av musik, och vill man ha en modell som klarar av att generera all slags musik som finns måste man också träna modellen på all slags musik som finns.

Udio beskriver sin AI-modell som om det vore en ”student”, en levande varelse som går omkring och lyssnar och får inspiration. I verkligheten handlar detta ”lyssnande” om att man lagt enorma resurser på att extrahera miljarder och åter miljarder element från all världens musik till representativ data, som man sedan låter AI-modellen rekombinera i nya logiska följder.

Att Udios AI-modell plötsligt låter som Björk, eller Peter Gabriel, eller Whitney Houston beror helt enkelt på att din prompt aktiverar den metadata som AI-modellen tränats på, och Wavenet (som för övrigt utvecklats av Google Deepmind) genererar nya råa ljudvågformer som låter som Björk. Så visst, jag förstår Udio när de säger att de inte ”reproducerar” en artists röst, det finns inga kopior av rösten någonstans, det är inte Björk, men visst tusan är det likt…

Även Sunios VD Mikey Shulman gick ut i veckan och menade att skivbolagen ”reverted to their old lawyer-led playbook”, troligen en hänvisning till vad som hände på 00-talet kring piratkopieringen.

Det Shulman missar är att juristerna och skivbolagen faktiskt hade rätt, och de som gjorde intrång i upphovsrätten hade fel. Tonen i både Udios och Sunos svar är närmast karbonkopior av hur Napster, Kazaa, Grokster och andra reagerade på stämningarna under den första halvan av 00-talet. Även då slängde man sig med ”fair use”. I slutändan vet vi hur det gick.

Att förståelsen för hur upphovsrätten fungerar brister hos flera av de här teknikföretagen blev skrämmande uppenbart i veckan, när Microsofts högste AI-chef Mustafa Suleyman hävdade att allt som ligger på webben är fritt att använda som man vill. I en intervju med CNBC fick han frågan om AI-företag har byggt sina modeller på ”stöld av världens upphovsrätt”, och svarade:

”I think that with respect to content that’s already on the open web, the social contract of that content since the ‘90s has been that it is fair use. Anyone can copy it, recreate with it, reproduce with it. That has been “freeware,” if you like, that’s been the understanding.”

Om den högste AI-chefen på Microsoft har den inställningen, är det inte konstigt att vi är där vi är.

Musikbranschen har överlag reagerat positivt på RIAAs stämningar. ECSA (European Composer and Songwriter Alliance), som vanligtvis inte brukar ha speciellt mycket gott att säga om de stora skivbolagen, skriver:

”The ECSA welcomes the legal actions taken by the RIAA and the three major record labels against Suno and Udio to safeguard the value of human creativity and promote responsible generative AI models. We encourage all composers and songwriters’ contractual counterparts and assignees – across Europe and beyond – to engage in similar legal actions to protect the value and creativity of our members’ works.”

Även i Sverige har bl a SAMI reagerat, och skriver:

”SAMI välkomnar nyheten om att upphovsrättsfrågor nu tas upp i domstol i USA, där några av världens största skivbolag stämt AI-företagen Suno och Udio för upphovsrättsintrång. Det är ett steg i rätt riktning.”

Det kan vara bra att zooma ut lite från den perfekta storm vi befinner oss i början av, och försöka se de långsiktiga konsekvenserna av det som händer just nu.

Precis som jag skrivit många gånger här på MI, tror jag att AI är ett paradigmskifte som är minst lika stort som elektriciteten, telefonen, datorn och internet. Troligen ännu större. Just nu befinner vi oss i början av den första AI-hajpen, där företag lovar guld och gröna skogar, och de ekonomiska förväntningarna är enorma.

Skiftet har pågått ett bra tag, det handlar om att bygga in intelligens i människans omgivning och vardag.

Om jag 1994 hade kört den bil jag kör idag, hade jag uppfattat det mesta som science fiction, en simulerad kameravinkel ovanför bilen som gör det till en baggis att fickparkera, bilen reagerar när den ser fotgängare, anpassar hastigheten automatiskt till andra bilar och en massa annat. Jag kan t om prata med bilen.

Makrotrenden att vår omgivning blir allt mer intelligent, att kunna föra mer eller mindre intelligenta konversationer med såväl våra bostäder som våra prylar börjar bli vardagsmat. Det är väl på tiden att vi alla bara ska kunna gå och lägga oss och säga ”Huset, släck alla lampor och förbered kaffet”, varpå huset svarar ”Jag har gjort det, sov gott Daniel, jag väcker dig 06.42 imorgon bitti”.

Men det långsiktiga stora skiftet handlar inte bara om att våra pryttlar och fysiska omgivningar blir intelligenta, det handlar också om hur vi väljer att paketera denna intelligens.

Just nu vill alla AI-företag utveckla teknik som ska vara så människolik som möjligt, ChatGPT ska kunna svara som en människa, Suno och Udio vill att AI ska kunna skapa musik på samma sätt som människor, Tesla vill att deras robot Optimus ska vara så människolik som möjligt, osv.

Det är inte där styrkan ligger i AI, att göra saker på samma sätt som människor. Styrkan ligger i att kunna göra det som människor INTE kan, bör, eller ska göra.

Den absoluta majoriteten av alla bilolyckor sker inte på grund av att bilarna går sönder, de sker på grund av att det är människor som kör bilarna. Inom flyget insåg man detta för många årtionden sedan, och idag är våra flygturer en mer eller mindre automatisk process där piloten egentligen borde kallas ”AI-assistent”.

För första gången i människans historia har vi nu möjlighet att introducera en helt ny form av intelligens på den här planeten, det är fullt möjligt att utvecklingen inom AGI kommer att leda fram till nya former av medvetna AI-existenser som faktiskt lyssnar på riktigt, och som kan skapa musik på ett annat sätt än de nuvarande ganska dumma plattformarnas genererande. Jag tror på fullt allvar att om några årtionden kommer vi ha en ny art på den här planeten, som vi själva är föräldrar till.

Det är därför det är så viktigt att det blir rätt från början!

Futureverse visar med JEN att det går att göra rätt, liksom Voice Swap för röstkloning. Jag hoppas att musikbransch, rättighetshavare och investerare ser att samtidigt som rättsliga processer måste drivas mot de aktörer som gör intrång i upphovsrätten, måste de aktörer som faktiskt gör rätt få stöd och kapital.

Om vi inte skapar förutsättningarna för de som gör rätt, genom att t ex licensiera kataloger så att de kan använda riktigt bra träningsdata, är risken stor att det inte kommer fram några tillräckligt bra alternativ till fullösningarna.

Med denna krönika tar jag semester några veckor från MI, om det inte händer något jättestort vill säga. Nu blir det golf, jag har tränat med AI-sulor och sensorer i skorna sedan några veckor tillbaka. Det låter inte klokt, men det är sant. Jag vet nu precis exakt vad jag gör för fel i svingen, 13 stycken för att vara exakt. Tyvärr berättar AI-n inte för mig hur man gör rätt…

Daniel Johansson
daniel@musikindustrin.se