Daniel Johansson summerar 2023, blickar framåt, och funderar på om människans centrala roll i musikskapandet är hotad, eller om vi är i början på en helt ny era för musik och mänsklig kreativitet.
Den 6 januari 2023 inledde jag året på MI med en krönika som hette 2023 – året för AI. När jag nu summerar året blev det 167 olika nyheter som på något sätt varit AI-relaterade på MI. Många av dem har varit notiser i min veckospalt, medan andra har varit fristående artiklar. Av de ca 110 000 ord jag skrev på MI i år har ca 30 000 på något sätt handlat om AI.
När jag ändå håller på, jag gick 2 927 131 steg (även om det är några dagar kvar på året), jobbade 2 034 timmar, och höll 97 föreläsningar totalt under året. Statistik är fantastiskt.
Under året blev det ett tjugotal föreläsningar, workshops och liknande kring AI, musik och mänsklig kreativitet. Det är kanske några av er som har fått stå ut med mig i olika sammanhang, jag tackar för intresset och hoppas att det har gett något litet i alla fall.
Det skifte vi befinner oss i början av har potentialen att förändra vårt samhälle lika mycket som elektriciteten, oljan och internet gjorde. För den som inte har läst Bill Gates bloggpost från i november, gör det, hans tankar om vilken slags AI-assistenter/kloner vi alla kommer vara knutna till om bara några år är minst sagt tankeväckande.
Vill ni få ytterligare perspektiv på vart AI troligen kommer ta oss, välj valfri video på YouTube med Ilya Sutskever, chefsforskaren på OpenAI och ”hjärnan” bakom ChatGPT, han har sagt en del spännande saker under året.
Människan har under ganska lång tid satt sig själv på en rätt hög piedestal, som ”kronan på verket”, som den mest intelligenta, medvetna, kreativa varelsen som existerar. Men, hur intelligenta och kreativa är vi egentligen? Jämfört med vad? Har vi människor överdrivit vår egen förmåga helt enkelt för att vi inte haft något ”bättre” att jämföra oss med?
På 90-talet var jag en del av en löst hållen grupp här i Sverige som diskuterade framtida tekniker och människans framtida roll. Med i gruppen fanns personer som Nick Boström, Alexander Bard, Anders Sandberg, Waldemar Ingdahl m fl. Jag vill minnas att vi redan på 90-talet diskuterade vad som skulle hända när människan på sikt växte samman med kraften hos våra datorer.
Jag tror det är den resan vi har inlett på allvar, och all form av kultur, vare sig det är musik, litteratur, film, spel, eller något annat, kommer påverkas.
Tidigare har det bara varit teorier, science fiction, framtidsvisioner, men det är nu vi på allvar kan accelerera sammansmältningen av oss själva och den teknik vi har skapat. Även år 2100, eller för den delen år 2523 (när Sverige firar 1 000 år, troligen även då lite lagom undanskymt med en middag på Nordiska museet och byggandet av nåt staket utanför Gripsholms Värdshus, som när vi ”firade” 500 år i år…), kommer vi dock sannolikt fortfarande kalla oss för människor.
Jag tror inte ett dugg på domedagsprofeterna som menar att AI kommer utplåna mänskligheten. Däremot tror jag att AI, tillsammans med den informationsteknologi vi har utvecklat i över 70 år, revolutionen inom precisionsmedicin, spatial computing etc, radikalt kommer förändra människan och samhället under de kommande årtiondena.
Och som vanligt är musiken ett av de första områdena att påverkas i ett teknikskifte. Eller, vi som är verksamma i musiksektorn vill gärna tro det i alla fall, även om det nog var konst, bilder och text som utmanades först den här gången.
Det vi inte visste i början av året när det gäller AI och musik, men som vi vet nu, är att kvaliteten för promptbaserad generativ AI för musik skulle utvecklas så oerhört snabbt. I januari skrev jag om Riffusion, den första publika modellen för den här sortens musikskapande, som då hade mycket dålig kvalitet i outputen (nu är det milsvid skillnad, de har uppdaterat sitt verktyg).
Googles MusicLM släpptes i slutet av januari, Metas MusicGen i juni, Futureverse JEN-1 i augusti, Stability AIs Stable Audio i september, YouTubes/Googles Lyria, som ligger till grund för Dream Track, i november, Suno AI (som t om SVT plockat upp och skapat nya jullåtar med i ett reportage), och nu i december kom Google med ytterligare en modell, Music FX.
Var är vi om ytterligare ett år?
Jag tror att i slutet av 2024 kommer promptbaserat generativt musikskapande inte bara vara en naturlig del av musikskapandet, vi kommer också ha nått en kvalitet som är jämbördig med mänsklig produktion, och vi kommer ha haft ett antal AI-genererade låtar på topplistorna runt om i världen.
Norge gick till historien under år 2023, som det första land där en AI-cover hamnade på första plats på topplistan, Oscar Westerlin med sin cover av Josefin, även om AI-covers ju inte handlar om generativ AI utan om röstkloning.
Under år 2023 har det gjorts flera undersökningar bland låtskrivare, musiker och artister, kring hur man använder AI, och redan idag är det 60 procent som använder AI i någon del av sitt musikskapande, varav en tredjedel använder sig av chatbottar aktivt. En lite oroande utveckling är dock att över hälften av musikskaparna säger att de inte är, eller inte vill vara, transparenta med hur de har använt AI.
Musikbranschen är med all rätta kritiska mot plattformar som tränar upp sina AI-modeller utan transparens, men kanske kommer vi behöva börja kräva transparens även av de som utgör kärnan i branschen, musikskaparna och artisterna? YouTube har redan börjat göra det, och kommer kräva att alla videokreatörer som publicerar innehåll där AI varit inblandat också ska tagga videorna.
Redan idag håller generativ AI för musik hög kvalitet. Många av de låtar jag har genererat på Suno AI går jag tillbaka till och lyssnar på om och om igen, helt enkelt för att den musik som har genererats redan håller en sådan hög nivå med lyrics, melodier, sound, sång och finish att jag helt enkelt tycker att musiken är bra. Jag har skapat mina egna hits.
Jag tror att 2023 lade grunden för ett skifte som kommer förändra produkten musik, eller snarare, lägga nya lager av funktionalitet som kommer existera parallellt med det traditionella sättet att skapa och konsumera musik. Och jag tror att UGC och personaliseringstrenden kommer styra utvecklingen i hög grad, AI kommer innebära den verkliga övergången till ett ”soundtrack of our lives”.
YouTube är helt rätt ute med sitt experiment Dream Track, där videoskapare med textinstruktioner AI-genererar musik och väljer vilken artist som ska sjunga melodi och lyrics.
Den här tekniken kommer kicka igång en enorm kreativitet bland musikskapare, artister, och vanligt folk, när det blir möjligt att promptgenerera högkvalitativ musik och sedan välja vilken artist som ska sjunga, eller vilken gitarrist som ska spela (”in the style of”), eller som jag skrev om i förra veckan, vilken producent eller mastrare som genom sin AI-klon ska lägga handen på låten (Wez Clarke blev den första producent-klonen).
Grimes var tidigt ute under 2023 och öppnade upp sin röst för musikskapare, något som har resulterat i tusentals nya alster under året, varav det här är en av mina favoriter: Feed Your Monster.
Jag skulle tro att om några år har de allra flesta etablerade streamingtjänster liknande funktioner för vanliga konsumenter, liksom TikTok och Meta. Tiotusentals artisters röster licensierade till plattformarna, och det står konsumenterna fritt att välja vilken artist som ska sjunga Bohemian Rhapsody, Stairway to Heaven eller Blinding Lights.
I bra kvalitet, inte som det är nu, med fullösningarna Voicify och liknande, när Whitney Houstons version av Bohemian Rhapsody låter som en morbid speedad Kalle Anka.
Jag ser framför mig att själva musiken på sikt kommer att ändras efter våra preferenser, på samma sätt som flöden och rekommendationer på sociala plattformar anpassas till oss nu. En Coldplay-låt som släpps 2030 kommer kanske låta annorlunda för dig jämfört med hur den låter för mig, inom de ramar som rättighetshavarna och musikskaparna anger.
Originalinspelningen kommer självklart finnas där, och vara den officiella ”releasen”, men delar av musiken skulle kunna anpassas dynamiskt efter vem just du är, precis som din upplevelse av TikTok ser helt annorlunda ut jämfört med min upplevelse.
Med hjälp av AI tror jag att den inspelade musiken går en mycket mer dynamisk och rörlig framtid till mötes, som skulle kunna innebära en rejäl boost, både vad det gäller kreativitet och intäkter till rättighetshavarna, åtminstone på kort sikt, dvs de kommande 1-2 årtiondena.
I början av UGC-trenden, som framför allt fick sin start med YouTube på 00-talet, hade branschen lite svårt att hantera möjligheten att vem som helst kunde använda deras musik i videos. Det tog några år, men när väl den den sortens musikanvändande hade licensierats korrekt och infylkats i musikekonomin, visade det sig att UGC snarare blev ett av de viktigaste sätten för att sprida sin musik och generera intäkter.
När TikTok slog igenom på allvar för några år sedan, tog UGC nästa steg, och branschen var förberedd. Hade TikTok släppts 2005 hade musikbranschen troligen reagerat likadant som man reagerade på Napster, men nu visste man att styrkan ligger just i UGC, i att vem som helst kan använda din musik för att skapa innehåll som kan få stor viral spridning.
Med AI tar UGC ytterligare ett steg, när vem som helst kan använda artisters röster, kända gitarristers sound och sätt att spela, låtskrivares sätt att skriva låtar, producenters stilar, och generera nytt innehåll.
Den här utvecklingen tror jag är fullständigt omöjlig att stoppa, eller stänga in. Vi är redan där. Det som står framför oss är att liksom vid tidigare skiften introducera funktioner som gör att även den här användningen blir en del av den upphovsrättsliga ekonomin.
Funktionen med att t ex kunna applicera andra artisters röster på låtar, utöver originalartisten, är så spännande, rolig, intressant, att jag har svårt att se någon annan väg än att musikbranschen omfamnar det fullt ut och infylkar det i det upphovsrättsliga systemet.
Om tio år är jag övertygad om att artister som väljer att inte licensiera ut sin röst till UGC-användning kommer hamna utanför den etablerade musikkonsumtionen, ungefär som en artist som idag väljer att inte ha sin musik på tjänster som Spotify och TikTok.
I november höll jag en presentation på forskarkonferensen Mirac kring en taxonomi jag har utvecklat för AI och musik, som kommer publiceras som en del av Miracs kommande antologi. Taxonomin syftar till att tydliggöra vad vi egentligen menar när vi pratar om ”AI” i samband med musik.
Under år 2023 har vi kunnat se en begreppsförvirring kring AI, man blandar ihop promptbaserad generativ AI, med urvalsbaserad generativ AI, med katalogbaserad generativ AI, och de olika områdena inom funktionsspecifik AI, eller problemlösande AI, blandas ihop med generativ AI. Olika former av användning av tekniken förväxlas hela tiden och leder till missförstånd och onödig oro.
Inte minst märktes det när The Beatles släppte Now and Then i höstas, när journalister kontaktade mig och ville ha några smaskiga uttalanden kring John Lennons AI-röst och istället fick det tråkiga svaret att det finns ingen AI överhuvudtaget i musiken, tekniken hade bara använts rent ljudtekniskt för att få fram Lennons originalröst.
Men, AI var inte det enda som jag kommer komma ihåg från 2023. I maj släppte jag en forskningsartikel baserad på en undersökning jag gjort av alla svenska artister som genererat mer än 1 miljon strömmar på Spotify sedan starten 2008.
Responsen har varit fantastisk, och mitt paper låg i lästoppen i kategorin plattformsekonomi under hela sommaren. Jag hoppas att det arbetet ska leda fram till att framför allt artister förstår streamingekonomin bättre, och varför de allra flesta artister inte kan försörja sig enbart på streamingpengar.
2023 var året då streamingekonomin på allvar började förändras, efter ett årtionde av klagande och diskussioner. När vi nu går in i 2024 finns det ett antal frågor vi vill ha svar på av det kommande året:
Vad kommer Spotifys, Deezers och Apple Musics förändringar i fördelningsmodellen innebära för utbetalningarna? Även om åtminstone Spotify har en god bild av hur pengarna kommer omförflyttas, är det först när det väl införs som effekten kommer ses fullt ut.
Vad kommer hända kring den oavvisliga ersättningsrätten? Händelserna i Uruguay under 2023 kommer bli intressanta att följa även under 2024, jag tror det är långt ifrån klart där. Liksom vad som händer i Belgien, vad som kommer hända med den franska streamingskatten, och hur streamingen kommer utvecklas på en makronivå.
Med tanke på att streamingen nu är etablerad som det dominerande formatet för inspelad musik är det helt klart dags att börja skruva på modellen, från en kall, statisk, mekanisk streamingekonomi, till en ekonomi som bättre speglar värdet musiken har i slutändan, för de som skapar och lyssnar på den. Den ekonomiska länken mellan de två grupper som faktiskt är de enda som är riktigt viktiga, musikskaparna/utövarna och lyssnarna/fansen, behöver stärkas.
Med det tackar jag för det här året, och hoppas att ni alla får en härlig nyårshelg. Vi ses snart igen.
Gott nytt år!
Daniel Johansson
daniel@musikindustrin.se