JOHANSSON om artificiell kreativitet

OpenAI visade i veckan upp Sora, en AI-modell som kan generera rörlig bild på ett sätt som slår allt som demonstrerats hittills. Precis som med AI-modeller för musik saknas dock fortfarande något som är centralt för mänskligt skapande, medveten kreativitet.

Kreativitet är ett begrepp som är svårt att definiera på ett kortfattat sätt. Man skulle kunna se det som förmågan att skapa nya idéer, hitta nya alternativ och möjligheter för att lösa problem, eller som NE beskriver det: ”Förmåga till nyskapande, till frigörelse från etablerade perspektiv.”

Genom historien är det just den där frigörelsen från etablerade perspektiv som skapat utveckling inom musiken, vare sig det gäller nya genrer eller unika sätt att uttrycka sig på. Ibland har det kanske handlat om tur, att en viss kombination råkar resultera i något som skapar intresse, medan det i många andra fall har handlat om en medveten vilja att bryta sig lös, skapa musik och artistskap utanför boxen.

När jag föreläser på branschutbildningarna i Sverige och Norge brukar jag ofta säga att det finns olika former av kreativitet. Ett musikskapande kan i sig självt vara kreativt, men så kan också en artists narrativ, utseende, framträdande och sätt att kommunicera med fans och omvärld vara. Eller för den delen kreativitet ur ett ekonomiskt perspektiv, förmågan att kunna koppla ihop kultur och pengar på innovativa sätt.

I diskussioner om mänsklig kreativitet brukar många framhålla att det mesta bara är kombinationer av sådant som redan gjorts. Och visst, när min dotter under lördagens Mello i helgen frågade ”varför låter alla Mello-låtar exakt likadant?”, ligger det helt klart något i observationen. Receptet finns där, och har funkat många år, varför ändra?

Inom AI-forskningen kallas det för dataugmentering eller datasyntes, särskilt inom området artificiella neurala nätverk, när man rekombinerar funktioner eller data på nya sätt för att skapa mer robusta träningsset, eller för att utforska nya sätt att representera och processa information på. Man skapar helt enkelt ny data från befintlig data. Nya låtar som låter som gamla låtar, men med en liten twist.

Det är just utvecklingen inom artificiella neurala nätverk (som pågått i flera årtionden) som har lett fram till den AI-explosion vi ser just nu, inklusive Sora som bygger på det som kallas ”diffusion transformers”, en kombination av diffusion-modeller som kan skapa realistiska bilder, och transformer-arkitekturen som t ex ligger till grund för LLMs som ChatGPT. AI-modellerna är tränade på stora mängder befintligt innehåll och kan generera nya bilder, filmer, texter eller kompositioner inom vissa givna ramar.

Och visst, Stable Audio, Suno, OpenAI Jukebox, Riffusion, Mubert, Boomy, Splash Pro, MusicGen och de andra plattformarna kan utifrån perspektivet rekombination sägas vara ”kreativa”, de genererar ny musik utifrån vad de har tränats på, men det finns helt avgörande skillnader mellan den sortens kreativitet och mänsklig kreativitet.

Mänsklig kreativitet är djupt sammanflätad med emotionell, kulturell och kontextuell förståelse, vi människor skapar (oftast) med medvetenhet om våra emotionella tillstånd, vår publik, påverkade av vår kulturella bakgrund och det rådande sammanhanget. Mänsklig kreativitet sker inte i ett vakuum där det enbart är den musikaliska historien som styr output, utan i komplexa skärningspunkter mellan många olika influenser och upplevelser.

Den mänskliga kreativiteten är rörig, ostrukturerad, impulsiv, subjektiv, och sker hela tiden i samverkan mellan det undermedvetna och det medvetna. En fågel som flyger utanför fönstret kan få stycket du skapar att ta en helt ny vändning, liksom en kommentar, en bild, ett minne som plötsligt ploppar upp, ett musikaliskt misstag från bandkompisen som gör att låten blir något helt nytt, eller för den delen ett glas vin.

AI saknar fortfarande djupet av förståelse och emotionellt engagemang rotat i medvetandet, det mänskliga medvetandet som vi fortfarande inte kan förklara fullt ut. AI:s ”kreativitet” bygger på rekombinatorisk algoritmisk bearbetning och mönsterigenkänning, och skapar, eller snarare genererar, helt utan de personliga, känslomässiga och kulturella nyanserna som mänskliga artister och låtskrivare har.

När OpenAI nu demonstrerar sin AI-modell för rörlig bild reagerar många över hur fantastiskt modellen klarar av att skapa realistiska visuella miljöer, men missar att kreativiteten i huvudsak inte ligger hos maskinen, utan hos människan som skriver prompten.

Visst, tekniken för att AI-generera rörlig bild och musik kommer revolutionera sättet vi skapar kultur och media på, men AI-modellerna är inte annat än avancerade instrument för oss människor. Åtminstone under en någorlunda förutsägbar framtid.

Jag har sagt det förr, självklart kommer AI bli ”bättre” än oss människor på att skapa musik och annan form av kultur och underhållning, rent tekniskt och musikaliskt, men det betyder inte att människor kommer uppskatta det. Allt handlar om kontext, narrativ, sammanhang.

En myra som tagit sig in i huset och kryper omkring i sängen innan du ska somna på kvällen skapar troligen irritation och smärre hat, medan en myra som bär på ett tallbarr på en stig ute i skogen en varm sommarmorgon kan få dig vördnadsfull och hänförd.

Hade Lady Gagas låtar existerat i ett vakuum, utan hela hennes person, berättelsen som sätter musiken i en större kontext, hade de sannolikt inte alls varit lika intressanta.

Visst, en bra låt är en bra låt, och viss musik är fantastisk i sig själv. Även om symfoniorkesterns musiker är anonyma och du inte ens känner till titeln på stycket du lyssnar till, kan musiken ändå få dig att känna precis de känslor som kompositören ämnade.

Här tror jag att AI kommer att kunna lyckas lika bra som oss människor, det är bara en fråga om tid. Produktionsmusik, funktionsmusik, bakgrundsmusik, som främst syftar till att leverera någon form av känsla, eller anonymt tillstånd, ser vi redan idag börjar bytas ut mot AI-mattor.

Men, upplevelsen att sitta i en konserthall och se musikerna framföra stycket är något helt annat jämfört med att bara höra det inspelade stycket. Även om musikerna framför ett AI-skapat verk, är det just musikerna och deras unika uttryck som står i centrum.

När Oscar Westerlin lyckades få en listetta (om än kortvarig) i Norge med sin AI-cover av Albin Lee Meldaus Josefin sommaren 2023, handlade populariteten mer om att det var just Westerlin som gjorde det. Hade låten publicerats utan ”ansikte”, utan det kreativa narrativet (marknadsföring om man så vill), hade AI-covern troligen varit helt ointressant.

Så, mänsklig kreativitet är så mycket mer än att bara skapa bra musik eller vackra filmer med hjälp av Sora. Det handlar om en helhet, där AI-baserad teknologi redan idag fyller en roll, men främst som instrument i händerna på människor. Det spelar ingen roll om AI klarar av att generera miljoner och åter miljoner låtar som är bättre än människoskapade, om ingen lyssnar på dem. Om ett träd faller i skogen, men ingen hör det, har det då åstadkommit något ljud?

Det är fullt möjligt att målet att utveckla AGI (Artificial General Intelligence) kommer att leda till en situation där även artificiell kreativitet grundar sig i artificiella emotioner, artificiell medvetenhet, och förmågan till en större kulturell och kontextuell förståelse. Men för att det ska ske tror jag att AI, eller AGI, måste få bli medvetna levande varelser, som vi känner känslor för, som har en existentiell plats i vår röriga värld, liksom hundar, katter och jobbiga grannar.

Och där är vi inte än på ett tag.

Kommer vi komma dit?

För att låna den brittiske fysikern och datavetaren David Deutsch’s ord i hans fantastiska TED-talk från 2005: ”If something isn’t forbidden by the laws of physics, then what could possibly prevent us from doing it, other than knowing how?”

Tills dess, självklart är det på sin plats att häpna över vad teknologin kan åstadkomma. Sora och de kommande iterationerna gör det på sikt möjligt för vem som helst att skapa fullfjädrade 3D-animerade långfilmer till sina barn, återskapa historiska miljöer utan att behöva spendera miljontals dollar, eller skapa musikvideos som vi tidigare bara kunnat drömma om.

Men, än så länge är artificiell kreativitet och artificiell intelligens inte samma sak som mänsklig kreativitet och mänsklig intelligens. Det finns ett skäl till varför vi fortfarande kallar det ”artificiell”.

Daniel Johansson
daniel@musikindustrin.se