Frågan är inte om maskin kan göra en låt. Frågan är vad vi ska göra av hundra tusen låtar. (Om AI, skval och musik.)

AI-musik? Vad som menas med detta är inte självklart. Dels för att begreppet “AI” i sig är en notoriskt vag metafor. Dels för att “musik” är ett sorts paraplybegrepp för en rad olika praktiker, vilka var för sig i någon mån kan överlåtas till mjukvara. Här har onekligen vissa genombrott skett med de senaste årens utveckling av generativ AI, det vill säga stora språkmodeller (jag står fast vid att “syntetisk media” är en bättre benämning).

Betyder detta att vi är på väg mot att få vad man kallar för fullständigt AI-genererad musik? Nej. Här måste vi åter fundera på vad fullständig automatisering ens skulle betyda i sammanhanget. Vilket såklart tvingar oss åter till frågan om vad musik är.

På ett sätt blir det en fråga om att inte se skogen för alla träd. Fast tvärtom: att inte höra träden för all skog.
På ett annat sätt blir det som den gamla frågan: om ett träd faller i skogen men ingen hör det, gör det då något ljud? Fast nu är det inte ett träd som faller, utan miljoner och åter miljoner, inte i en skog utan i en streamingtjänst.

Min grundhållning är att det egentligen inte finns någon stor vattendelare i “AI-musik”. Vi måste se saken som mer av en gradfråga och som en pågående omförhandling. Jag tänker mig en skala där varken 0 eller 100 är särskilt intressanta, rent musikaliskt.

Så länge musik är digitalt förmedlad får vi räkna med att den har ett inslag av så kallad AI. Även om det inte skulle användas i låtskrivandet, i de elektroniska instrumenten eller i framförandet så är det sedan flera år legio att använda så kallad AI vid mastringen av en inspelning. När inspelningen laddas upp till en streamingtjänst så kommer den genast att komprimeras och de olika nivåerna att åter modifieras – med hjälp av så kallad AI. Vilket kan ske ännu en gång när musiken spelas upp på ett ljudsystem eller i ett par brusreducerande hörlurar.

Vi har heller inte närmat oss något som skulle kunna kallas för en 100 procent AI-genererad musik. Tvärtom återstår fortfarande en massa inslag av mänsklig handpåläggning. Detta blir desto tydligare om vi lyckas bortse från den förvillande metaforen “intelligens” och i stället ser till vilken data som går in respektive kommer ut.
När en “generativ AI” kan spotta ur sig musik är det för att den har tränat sig på att efterlikna befintlig musik. Redan i urvalet av träningsdata har människor styrt utfallet.

Ingen ska inbilla sig att dessa språkmodeller har tränat sig på “all musik”, som i all musik från alla kulturer och alla tider. (Detta vore förvisso en intressant övning som kanske skulle resultera i den första musik någonsin som verkligen gjorde skäl för namnet “världsmusik”. Bortsett då från att det mesta av “all musik någonsin” aldrig spelats in. Och att det inte är givet hur olika epoker och kulturer skulle viktas mot varandra. Min övertygelse är för övrigt att denna hypotetiskt universella världsmusik skulle bli fullständigt intetsägande och kanske inte ens kunna kallas för musik.)

Alla försöken att skapa “AI-musik” har varit kulturellt partikulära. Träningsdatan tenderar att ha en kraftig slagsida mot västerländsk topplistepop (eller mot typ Mozart). Någon har valt ut en viss typ av musik mot vilken språkmodellen svarar som en stokastisk papegoja. Även i valet av och hanteringen av parametrar i modellerna sker såklart massor av mänsklig handpåläggning som gör att vi inte kommer i närheten av en “fullständigt automatisk” musik.

Och detta gäller bara vad som går in. Ännu mer intressant är att tänka på vad som kommer ut och hur det över huvud taget når fram till ett öra.

Mänsklig musik hotar att drunkna i AI-skval” står idag som rubrik för en artikel på DN Kultur där även jag är intervjuad. Jag går med på att en s.k. AI skulle kunna skapa en poplåt – inom mänskligt satta ramar för vad en “poplåt” ska vara – från grunden, men:

– Så snart den kan göra en habil poplåt så innebär det att den kan bli lika bra på att göra hundratusen habila poplåtar. Och det är steget mellan en och hundratusen som blir problematiskt eftersom den automatiska överproduktionen av musik kommer att svämma över marknaden med produkter som ingen egentligen har efterfrågat, säger Fleischer:

– Den logiska följden blir ju hyperinflation, att musiken tappar i värde.

Utifrån min tidigare Aftonbladetartikel om syntetisk media tar jag upp tanken på en ny sorts framväxande uppdelning mellan högkultur och lågkultur, grundad i det simpla kriteriet på om det finns en mänsklig avsändare. Jag tror nämligen just att avsändaren är en rätt avgörande sak här, viktigare än i vilken mån som datorhjälpmedel har använts i själva produktionen.

Han beskriver det som ett A- och B-lag som utgörs av konnässörsmusik och funktionsmusik.

– Många människor kommer säkert nöja sig med att musik bara är en vagt välbekant ljudmatta som ligger och skvalpar i bakgrunden, medan andra inte kommer att göra det, säger han.

Så hur ska man som lyssnare kunna orientera sig i det enorma utbud som AI kan leda till? Rasmus Fleischer tror att vi kommer att få fler varianter av strömningssajter, där vissa håller vidöppna slussar medan andra erbjuder ett slimmat premiumutbud med mänskligt innehåll.

– I slutändan kommer vi att fortsätta efterfråga musik av en mänsklig avsändare, i form av en artist eller åtminstone en curator. Det är avsändaren som blir det viktiga, snarare än hur musiken har gjorts, säger han:

– Det här kan ironiskt nog leda till att skivbolagen får en viktigare roll, som garanter för något kvalitetsstämplat. Har någon fattat ett mänskligt beslut om att musiken är värd att ge ut, då är vi mer benägna att lyssna.

Vilka kriterier som växer fram är en fråga för den begynnande omförhandling av musiklandskapet som sker och som inbegriper såväl estetiska som ekonomiska intressen. Snarare än att uppställa ett kriterium för “riktig musik” tror jag att det vore mer intressant med en flerfald av olika musikkulturer, så som musik alltid har funkat – trots det ekonomiska intresset att homogenisera allt i ett enda gränssnitt.
Här finns historiska paralleller till tidigare omförhandlingar om musikens sociala status, exempelvis när bruket av högtalarmusik slog igenom under mellankrigstiden och man för första gången började värdesätta “levande musik” som en grej. Eller diskoteken. (Jag skrev min avhandling om sånt där.)
Personligen tänker jag att detta i hög grad är en fråga om hur intetsägande skval vi står ut med. Men frågan förtjänar också att vändas på: i vilken mån orkar vi utmana våra öron? Frågan om musikens framtid är i slutändan bara en fråga om hur vi ska leva tillsammans. Helt avgörande är vilka möjligheter vi får att uppleva musik tillsammans med andra, i de fysiska rum där det aldrig kan rymmas 100000 låtar åt gången utan bara 1. Detta var väl ganska exakt själva budskapet i min första bok från 2009: lösningen på det digitala överflödets problem kan bara vara kollektiv.