JOHANSSON om en förväntad utveckling

Så var dagen kommen när ”vanlig” media rapporterar om AI-låtar som blir virala och sprids över hela världen. Ny musik ”med” Drake, The Weeknd, Rihanna, Eminem, Harry Styles, Ariana Grande, XXXTentacion, Juice Wrld och många, många fler artister svämmar över nätet.

Jag ska inte inleda veckans spalt med ”vad var det jag sa”. Eller, det gjorde jag ju just. Det tog tre månader, sedan var tekniken jag diskuterade i min nyårskrönika så pass bra att kvaliteten på AI-genererade deepfake-låtar med valfri artists röst nått en tillräckligt hög nivå för att bli nya hits.

Vänta tre månader till, så kommer AI-rösterna troligen vara näst intill omöjliga att skilja från originalartisterna. Det är det som är det fina, och utmanande med AI-modeller, när man väl har nått en ny nivå kan man liksom inte backa bandet, nästa nivå kommer tveklöst att vara bättre än den föregående.

Det finns ingen mening i att lista alla de hundratals låtar som släppts bara under de senaste två veckorna, det räcker att du söker på ”AI cover” och valfritt artistnamn på YouTube så hittar du säkert varianter. Istället är det det här jag vill fokusera på:

Vad händer nu?

När Universal Music Group nu reagerar på ghostwriters ”Heart on my Sleeve”, och snällt men bestämt ber DSP-erna plocka ned låten, har vi fortfarande inte riktigt avgjort om den som har gjort den här låten begått något intrång i upphovsrätten. Vi kan misstänka det, någonstans måste ghostwriter ha separerat inspelad sång från den bakomvarande musiken och tränat en AI-modell med dessa samples.

Det kan naturligtvis vara så att alla som nu laddar upp AI-varianter, högt och lågt, äger mastrarna och därmed rättigheterna att göra vad de vill med den inspelade rösten, men, det är mindre troligt.

Det är helt enkelt stream ripping (eller kanske nedladdning från fortfarande existerande piratbukter) man använder sig av för att skapa samples som man sedan tränar en AI-modell med, för att sedan applicera på valfri låt (där man självklart tagit bort originalrösten), och ladda upp den till YouTube eller SoundCloud, eller till andra DSP-er genom någon av distributörerna.

Att branschens aktörer reagerar är det inget konstigt med, inte minst att de artister som ”utnyttjas” reagerar. Trots allt, varken label eller artist får ett enda öre av de intäkter som de här AI-låtarna genererar. Ska man vara ärlig så borde det också kunna betraktas som ett intrång i respekträtten, även om det än så länge inte prövats.

Ariana Grandes röst är t ex populär att använda, här ett par stycken:

Passionfruit: https://www.youtube.com/watch?v=PdFasBBJdkc

Controlla: https://www.youtube.com/watch?v=5oac7m0u688

America Has A Problem: https://www.youtube.com/watch?v=FWzkdBI7vZo

Levitating: https://www.youtube.com/watch?v=ih8qMoMUV3Y

Precis som jag skrivit om några år nu är det här en utveckling som vi kan, och ska, räkna med. Det kommer troligen inte dröja speciellt länge förrän vi har lösningar där du kan välja mellan alla de miljoner låtar som finns på plattformarna, och mer eller mindre i realtid applicera valfri artists röst på de låtarna.

Det behövs trots allt inte många minuters sång för att lära upp AI-modeller som t ex Diff-SVC. För den som eventuellt vill se hur det går till finns en tutorial (av många) på https://www.youtube.com/watch?v=kSSTAP315LA

Du kan i princip lära upp modellen på vilken röst som helst.

Den stora frågan är inte vad vi kan göra för att stoppa den här utvecklingen, utan hur vi ska göra för att låta utvecklingen bli en del av den legala musikekonomin. Jag ser det som självklart att DSP-er (eller andra lagliga aktörer) om några år bör ha funktionaliteten inbyggd i sig, att kunna applicera andra artisters röster på valfri låt. Jag lovar, fans kommer älska det!

Men bara om artisterna och rättighetshavarna själva har godkänt det.

Och det är här utmaningen ligger, hur ska musikbranschen agera för att leda utvecklingen, snarare än att reagera på vad andra gör? Jag tror att enda vägen att gå är att lära sig av historien.

Det enda sättet att komma runt piratkopieringen på 00-talet var att skapa en produkt som var bättre än skräplösningarna på fildelningsnätverken. Jag tror samma logik gäller här. Dagens lösningar för att applicera andra artisters röster på valfri låt är bökig, besvärlig, och kräver åtminstone några högskolepoäng programmering i bagaget. Lite som fildelningen i sin linda.

Det enda sättet att ”ta kontroll” över utvecklingen är att skapa lagliga alternativ, som är bättre, mer användarvänliga, och som också genererar intäkter till alla berörda rättighetshavare inom den lagliga kontexten.

Precis som Spotify gjorde för 15 år sedan.

Människor, användare, fans, musikälskare, det spelar ingen roll vad vi kallar dem/oss, vill generera nya alster på det här sättet. Det finns en enorm dragningskraft att kunna applicera t ex Eddie Vedders röst på valfri låt, om man nu gillar Eddie Vedders röst, eller höra kungen Elvis Presley framföra ”Kiss” (Prince i original), eller vilken som helst annan kombination du kan tänka dig.

Därför behöver branschens aktörer tillsammans med DSP-erna klura ut hur man ska kunna erbjuda den här funktionaliteten till användarna på ett bra sätt, branschen måste in i ”innovation mode”.

Samtidigt behöver vi uppdatera lagstiftningen så att användning av publicerad inspelad musik för AI-inlärning tydligt definieras som en exploatering, som kräver en specifik form av licens. Redan idag skulle man bestämt kunna hävda att den här sortens användning av samples bryter mot rådande lagstiftning, utan tvekan, men det stora problemet är precis som med piratkopieringen på 00-talet, hur ska man kunna få kontroll över det?

I grunden handlar det ändå om att en ny teknik sett dagens ljus, som människor älskar, som fans vill använda sig av, och då blir det svårt att stoppa. På samma sätt som vi fortfarande idag inte har fått, eller ens kan få, fullständigt stopp på piratkopieringen, kan vi dock erbjuda lagliga alternativ som den stora majoriteten är villiga att betala för, och som därmed genererar intäkter till rättighetshavarna, artisterna, musikskaparna.

Helt enkelt, det är dags för musikbranschen att introducera kommersiella lagliga spännande lösningar baserat på den nya tekniken. Sköts det här på rätt sätt skulle det mycket väl kunna bli en ny lukrativ intäktskälla.

Som sagt, lär av historien.

Daniel Johansson
daniel@musikindustrin.se