Om ljud, del 1: Tvådimensionell representation av skiftningar i lufttryck

Tänkte ställa samman en serie inlägg kring ljud, ljudinspelning, ljudvisualisering och det lite underliga begreppet “inspelad musik”. Utgångspunkten blir i en alldeles utmärkt bok av Aden Evens: Sound ideas. Music, machines and experience (University of Minnesota Press, 2005). Upptäckte den via underbara aaaarg.org (för att ladda hem pdf:er ur deras sagolika arkiv krävs först en simpel registrering). Komplement blir Das Lexikon der elektronischen Musik av Herbert Eimert och Hans Ulrich Humpert (1973),
en gul bok hittad på Chris kontor tidigare idag. Detta inlägg blir först och främst ett referat av bokens förord samt dess första kapitel, med diverse utvikningar. Förhoppningen är att stimulera till kommentarer, helst utifrån både musikaliska, akustiska och musikaliska synvinklar. Nej, förresten, inga “synvinklar”. Syftet med att resonera audiocentriskt är just att komma bort från visuellt dominerade tänkandet!

Fråga: Vad innebär det att höra?
Svar: Att förnimma förändringar i lufttrycket.

Våra öron är inte organ som kan uppfatta lufttrycket i sig. Vi kan inte höra nivån på dagens lufttryck och jämföra med gårdagens så som vi minns det. Med andra ord: ljud är inte. Ljud sker eller (som det heter i Det postdigitala manifestet) äger rum.
Vad vi hör är bara relativa förändringar i lufttrycket, därtill bara sådana som går relativt snabbt: trycket måste falla samt stiga åtminstone femton gånger per sekund (Hz) för att örat ska kunna höra ljud. Att höra är att förnimma skillnad och repetition.

När vi talar om dessa förändringar i lufttrycket som “ljudvågor” är vi redan halvvägs inne i metaforernas rike. Vågor är, till skillnad från ljud, möjliga att visualisera (utan inslag av fantasifull synestesi). Tvådimensionella visualiseringar av ljudvågor kallas oscillogram och de två dimensionerna svarar mot två grundläggande parametrar: amplitud (ljudstyrka) och våglängd (ljudfrekvens eller tonhöjd). Kombinationer mellan dessa avgör ljudets klangfärg (timbre). J.B.Fourier (1768-1830) visade att vilken vågform som helst – inklusive ljudvågor – kan beskrivas som ett aggregat av sinuskurvor av olika frekvens, varav vissa är mer framträdande (har högre amplitud) än andra.

The significance of this conclusion for acoustics cannot be overstated. Every sound has regularity and is nothing but regularity. Every sound can be decomposed into sine waves.

Sinustoner – kan de ens sägas förekomma i någon reellt ljudande musik? Strikt talat inte. Strikt talat har inget mänskligt öra någonsin hört en sinuston, då det skulle förutsätta att örat befann sig utanför Kosmos, som alltid levererar ett visst bakgrundsbrus.
Därmed hamnar vi i frågan om vad för slags kurvor som det mänskliga örat hör – eller närmare bestämt: Är det ens rimligt att säga att vi hör kurvor? Givetvis inte. Kurvor är visuella representationer, ägnade för ögat, inte för örat. Vi hör inte kurvor utan ljud, alltså kontinuerliga förändringar i lufttrycket. Fast enligt Ohms lag (efter Georg Ohm, 1789-1854, som införde Fourier-analysen i akustiken) utför örat vid hörandet just en slags Fourier-analys.

Fouriersk analys låter ett ljud bli synligt för ögat som en tvådimensionell rumslig representation. Rent praktiskt kan det ske via ett analogt medium som oscilloskopet, eller genom vanlig mjukvara för digital ljudredigering. Men detta sker till ett pris: ljudets egen flerdimensionella rumslighet går förlorad.

Sound at a given point in space is nothing but the changing amplitude of the air pressure at that point.

Fråga: Fast vad är då en punkt i rummet?
Svar: En cartesiansk abstraktion.

Eller hur?

För att ljud ska kunna visualiseras eller beräknas med fouriersk analus måste det reduceras till en abstrakt punkt i ett rumsligt koordinatsystem av cartesiansk typ. Den abstrakta punktens lokalisering i rummet blir godtycklig eftersom det konkreta lyssnandet aldrig sker på en enda punkt – om inte annat involveras två öron på var sin sida av ett rörligt huvud på en rörlig kropp. Ljud, i Fouriersk bemärkelse, äger inte rum. Ljud föreställs då som ren tid, ren repetition.
(Här inställer sig ytterligare en fråga, särskilt till de ingenjörsvetenskapligt skolade läsare som har erfarenhet av Fourier-analys av andra slags svängningar än hörbara ljud. Frågan är: Inom vilka frekvensområden använder man i praktiken Fourier-analys? Jordbävningar och norrsken, till exempel – får någon för sig att reducera dem till punktfenomen?)

Att visualisera ljud förutsätter dess lokalisering till en abstrakt punkt, och själva tanken på en abstrakt punkt förutsätter mätinstrument som är hyfsat små, för att inte säga oändligt små. Små mikrofoner, liksom små högtalare (samma sak, inte sant?), innebär att lägre frekvenser måste väljas bort. Vi kan omöjligen veta vilka djupa basfrekvenser som i ett givet ögonblick vibrerar inuti en violin, helt enkelt eftersom mätredskapen som kan registrera dessa frekvenser inte får plats där.
Vad mikrofoner kan spela in är vare sig ljudet i ett rum (t.ex. en konsertsal, ett förhörsrum, en musikstudio) eller ljudet på en abstrakt nolldimensionell punkt i en cartesiansk matris. Nej, inspelningen registrerar helt enkelt svängningen i ett membran, vilket har en viss utsträckning i rummet. Där musik äger rum är det absurt att tänka sig att en viss membranutsträckning skulle generera en mer “sann” återgivning av musiken än vad en annan membranutsträckning skulle göra.

Vi skulle i princip kunna montera kontaktmikrofoner direkt på sångarens stämband: det skulle säkert låta coolt men knappast som sång. Eller så skulle det bara låta groteskt.

Normen för ljudinspelning är inte att rekonstruera ljudet så som det låter “vid dess källa”, ej heller så som det låter för medmusikerna, utan som det låter för publiken – givet rådande normer för var i rummet som publik respektive musiker brukar hålla till.

An open E-string bowed on a violin excites at once the string, the body of the violin, the other strings, the body of the violinist, the air around the violin, the material of the room, and the bodies of the listeners.
When one wave meets another, they add together, reinforcing each other when they are in phase and canceling each other when they are out of phase. Thus, every sound interacts with all the vibrations already present in the surrounding space; the sound, the total timbre of an instrument is never just that instrument, but that instrument in concert with all the other vibrations in the room, other instruments, the creaking of chairs, even the constant, barely perceptible motion of the air. Measured at some point in space, all of this vibration adds up to a continuous variation in pressure, a wave. Complex, irregular, and erratic, this wave changes constantly and incorporates many frequencies and shifting amplitudes, though the dominant fundamental frequency may dwarf the other components of the wave. The timbre of the sound includes not only the many other components issuing from the violin but all of the incidental vibration that already animates the space, waiting to be modulated to the point of audibility by a suitable sound.

Följaktligen riktar Aden Evens i Sound ideas en förgörande kritik mot så kallad audiofili.

The zealous audiophile devotes a room to his obsession, sonically isolating himself if possible from the distractions of the rest of the home and family. The head and ears generally need to stay still, having been properly aligned in relation to the speakers and the rest of the room /…/ The work of art to be appreciated deserves an utter concentration, a total focus

Är detta den yttersta konsekvensen av att underkasta sig den fourierska reduktionen? Vi kan tänka oss en (manlig) audiofil, isolerad och orörlig, på jakt efter musikupplevelsen som tar tid fast utan att äga rum (§ 47). Frågan är om han ens kommer så långt. Fourierskt ljud som abstraktion kan knappast sägas ta tid – vad skulle det ta tid från, om det inte ens äger rum?

16 kommentarer ↓

#1 Tor on 24 October 2009 at 9:21 pm

“Ljud föreställs då som ren tid, ren repetition.”

Jag vet inte om jag förstår vad du menar med detta som inte “äger rum”. Vår hörsel förmodar jag fungerar så att vi undermedvetet skapar något slags frekvensspektrum över ett löpande tidsfönster av begränsat omfång och att differentialer i detta kan omvandlas till hjärnan på ett sätt som gör att vi kan tolka ljuden som vi hör. Det finns inget som säger att du behöver använda Fourier-analys för att analysera signalen i sin helhet. Det finns många sammanhang där det är intressant att just titta på mindre tidsfönster (likt hur jag föreställer mig att örat fungerar) och åskådliggöra förändringar över tid i form av t ex. spektrogram.

“Nej, inspelningen registrerar helt enkelt svängningen i ett membran, vilket har en viss utsträckning i rummet.”

Precis som örat alltså.

För övrigt tycker jag att det är märkligt att vi så sällan reflekterar över ytterörats funktion. Hur många kan på rak arm säga vad det är bra för? Det var någonting som slog mig när jag läste om ett par forskare som byggde robotöron, som också krävde ytterörats del för att fungera (endast mikrofoner räckte inte).

Jag har för mig att har jag läst att även synen bygger på att ögat gör små snabba rörelser som gör det möjligt att uppfatta differentialer (snarare än absoluta värden).

#2 rasmus on 24 October 2009 at 9:47 pm

Tor: Först av allt, tack för kommentaren! Inlägget skrevs (med alla sina oklarheter och preliminariteter) just för att få till sådana reflexioner.
Ytterörats funktion är en intressant fråga som du lyfte fram, särskilt med tanke på att vår tids musiklyssnande omväxlande sker med hela ytterörat och (via hörsnäckor) utan. Och vad säger hifi-audiofiler egentligen om relationen mellan mikrofon och ytteröra?
Din jämförelse med seendet – som ju heller inte utgår från någon antagen statisk position, utan från rörelser – påminner mig om lite grejer som filosofen Brian Massumi skriver om. Får se om jag orkar återvända dit.

Frågan som förblir är vad vi hör. Att säga att vi hör frekvenser är inte tillräckligt. Själv vet jag inte riktigt vart man ska vända sig. Jag anar att den fenomenologi (kvalificerad solipsism) som Aden Evens ägnar sig åt måste förlita sig på en cartesiansk uppfattning av rummet och funderar på hur man kan tänka ljud efter att ha övergett abstraktionen av dimensionslösa punkter…
Med mera. Åh, fler kommentarer tack!

#3 Tor on 24 October 2009 at 10:39 pm

På tal om musiklyssnande med hörsnäckor så finns ju sätt att återskapa ytterörats riktningsberoende frekvensfilter. Vet inte vad den svenska termen är men på engelska kallas det för binaural recording.

#4 Johan Landgren on 24 October 2009 at 11:15 pm

Binarual recording är intressant. Det finns ju även sätt att simulera detta utan att spela in ljuden med specialutrusning. Vet att bland annat Logic har en sån funktion inbyggd. Resultatet blir såklart inte kanon, men man kan i alla fall få till ett slags låtsas-surroundljud.

Jag blev själv upplyst om detta av en vän som ville lära sig att bemästra att göra musik för hörlurar. Det är ett fint politiskt ställningstagande: att göra sin musik beroende av hörlurar, som alla har, i stället för avancerade grejor som surroundsystem och musikspelare med stöd för mer än två kanaler. Framför allt eftersom binaural recording/simulering funkar som bäst i “in-ear”-hörlurar, som ofta brukar tillhöra de billigare sorternas lurar.

#5 ... on 24 October 2009 at 11:52 pm

Ett litet tillägg till parentesen om praktisk användning:

Denna “reduktion till punktfenomen” — eller digitalisering — krävs ju inte bara för Fourieranalys utan all mätning och analys med digitala instrument. Det finns en matematisk sats som säger oss hur hög samplingsfrekvens som krävs för att troget beskriva en svängning av viss frekvens. Så vi måste välja vilka frekvenser vi tror är viktiga, och sedan sampla tillräckligt ofta för att fånga dem. Frågan skulle alltså kunna ställas: hur snabba svängningar finns det instrument som kan mäta?

Det är nog inte det du menar, men det enda norrsken jag sett, till exempel, är digitaliserade tvådimensionella signaler (fotografier) av norrsken.

(Analoga mätinstrument är inte såklart heller fria från inbyggda antaganden om vad som är viktigt, allra minst våra sinnensorgan, väl?)

#6 johan on 25 October 2009 at 12:29 am

att säga att det är just lufttrycksförändringarna vi (i fenomenologisk mening) hör implicerar bilden av nervsystemet som informationsbehandlare. det är just denna bild varela m.fl. försöker ersätta med sin “enactive cognition”. här förorsakas perception av interaktion med omvärlden samtidigt som vad som “faktiskt hörs” bestäms av det egna nervsystemets struktur. ett enkelt exempel är att namngivning av färger inte korrelerar med ljusets våglängder men däremot med den neuronala aktiviteten.

om man orkar kan man exempelvis läsa “ways of coloring: comparative color vision as a case study in cognitive science” i “behavioral brain sciene” nr 15.

#7 ZeS on 25 October 2009 at 7:13 am

Johan inleder här något intressant ovan.
Vad han syftar på kan man se ett exempel på här: http://www.planetperplex.com/en/item166

Du nämner punkter och rum och jag tycker man ska angripa det från ett annat håll än det objektiva. “Binarual recording” har redan nämnts och det syftar ju just till att försöka fånga ytterligare subjektiva dimensioner av ljudet. Åtminståne syn, hörsel och känsel/kroppsuppfattning ordnas av hjärnan i någon sorts rum, dvs de har inte bara någon form av amplitud (i synfältet tex färg, glans, hårdhet, ljusstyrka) utan också en plats, vi kan metaforiskt kalla det för fältupplevelser. “Amplituden” i en punkt i fältet är inte en direkt tolkning av någon motsvarande vibration “ute i verkligheten” som tydligt framgår i “illusionen” ovan.

Är det verkligen förändringar i lufttrycket vi hör? Det beror på var vi placerar Självet. Räknar vi oss som vår fysiska kropp så kan det väl sägas vara sant, men räknar vi oss som vår kognitiva upplevelse så är det ju något annat vi hör. Alla extra frekvenser som ytterörat lägger till har jag aldrig “hört”, annat än som en placering av ljudet i rummet. Det är bland annat bristen på denna utbredning som gör mig trött i huvudet av att lyssna på musik i hörlurar, min hjärna försöker (gissar jag) tolka varifrån ljuden kommer men saknar frekvenserna som behövs för dessa “beräkningar”.

Jaja, jag ville mest ge dig lite tankar att spinna vidare på som du bad om, så du får ursäkta om det inte blev så strukturerat. Fascinerande ämne!

#8 Jonas B. on 25 October 2009 at 11:22 am

Jag känner på mig att den här kommentaren är på väg att bli icke-konstruktiv på ett sätt som jag ogillar. Den är inte något försök till gnäll utan snarare att försöka inringa ett resonemang.

Några saker måste avklaras först. Det är inte en kombinationen av ljudstyrka och frekvens som avgör klangfärg. Ljudstyrka är ljudstyrka och tonhöjd är tonhöjd. Klangfärgen utgörs av övertonerna, komplexet av sinusvågor som på bilden får tonen att se suddig ut. Även rena toner kan dock, till skillnad från vad som påstås här, i praktiken uppfattas av det mänskliga örat. Örat har en hörtröskel och ligger bruset under denna uppfattas det inte. Rena toner är otäckt att lyssna på.

Huvudresonemanget kring punktformighet och mätproblem spretar mycket och är svårast att ringa in. Som redan påpekats att det är själva mätningen som reducerar ljudet till en punkt. Det har inget med fourieruppdelningen att göra. Inte heller har det med digitaliseringen att göra som vissa kommentarer verkar tro.

Fourieruppdelning innebär att byta synsätt, att se det inspelade som toner (eller vågor om man så vill), men det är något som är aktuellt när inspelningen väl är avklarad. Självklart används fourier inom allt från seismologi till astronomi. Här finns teoretiskt intressanta aspekter, dessa i grunden olika sätt att beskriva ljudet innehåller till exempel ändå samma informationsmängd. Punktformigheten har dock med mätningen att göra.

Själva mätningen görs naturligtvis med en mikrofon. Hur storleken av denna skulle begränsa basupptagsförmågan framgår inte, men det är antagligen fel. Sambandet finns inte, prova själv. Inte heller är det något krav att just svängande membran är det som används för att mäta tryckförändringar i luft.

Det som till sist framhålls som riktlinjer för inspelad musik i inlägget är överraskande snävt för att vara Copyriot. Antalet mickar och förhållandet mellan direktljud och ambiens är yrkeskunnande för inspelningstekniker. Även denne sätter sin prägel på resultatet, för inspelning är en högst subjektiv konst. Men att just publikens upplevelse skulle vara central stämmer till exempel inte alls vid inspelning av elektronisk musik.

#9 Tor on 25 October 2009 at 11:48 am

Jonas B skrev “Det är inte en kombinationen av ljudstyrka och frekvens som avgör klangfärg. Klangfärgen utgörs av övertonerna, komplexet av sinusvågor som på bilden får tonen att se suddig ut.”

Men det var ju precis det som Rasmus sade – att klangfärgen kan beskrivas utifrån övertonernas olika amplituder.

“Hur storleken av denna skulle begränsa basupptagsförmågan framgår inte, men det är antagligen fel.”

Jag tycker intuitivt sett att det känns rimligt att storleken på membranet påverkar frekvensresponsen på grund av att trögheten borde variera mellan olika storlekar. Men jag är litet osäker.

#10 rasmus on 25 October 2009 at 1:30 pm

Jag är också lite osäker på detta med membranstorleken och blir hemskt tacksam om det kan redas ut inför uppföljande inlägg.
Sen har vi ju också detta med mikrofoners riktadhet, som inte heller riktigt går ihop med tanken på att spela in ljud på en punkt.

#11 PN on 25 October 2009 at 3:42 pm

Några kommentarer och reflektioner (ursäkta om det blir lite fragmentariskt och splittrat):

Jag gillar dina anspråk på att “resonera audocentriskt” och att komma bort från visualla metaforer. Frågan är om det ens är möjligt. Det är intressant hur språket har en sådan slagsida mot det visuella, att vi kan beskriva synintryck med ganska stor detaljrikedom, medan hörsel-, smak- och luktintryck lätt blir trubbiga i språkdräkt (tänk smakbeskrivningar på viner som kräver stor övning för att få ut något av).

Den visuella kopplingen till ljud och musik kan dock vara ganska spektakulär och fantasieggande, spektrogram är ett bra exempel. I låten med en matematisk formel som namn från Aphex Twins Windowlicker EP kan man skåda ett förvridet självporträtt av Richard James. Venetian Snares har gjort en låt med katter i spektogrammet:

http://www.youtube.com/watch?v=u-KMFxzA_Lk (slutet av videon)
http://www.youtube.com/watch?v=6OZJGpKluVM

*

Med sinustoner är det väl lite som med cirklar. En matematiskt perfekt cirkel har vi aldrig sett, men har man sett en ganska bra cirkel kan man med intellektets hjälp föreställa sig en ideal cirkel. På samma sätt kan väl alla som lekt med en tongenerator eller varit hos en audionom föreställa sig en ideal sinuston. Nåja, det spelar egentligen inte så stor roll för ditt resonemang.

*

Tycker det är värt att poängtera att Fourieranalys inte i första hand är ett verktyg för visualisering, utan för att uttrycka vågfenomen matematiskt i en frekvensdomän. Alltså, grunden för Fouriertransformer ligger inte i ett visuellt eller metaforiskt synsätt (såvida man inte anser att alla vågfenomen är metaforiska i grunden).

*

Intressant med den cartesianska abstraktionen som en kritik av den “sanna” ljudupptagningen och återgivningen och som kritik mot audiofili. Jobbade med en akustiker för några år sedan som kallade audiofiler för “ljudantroposofer”. Tyckte det var ganska bra och träffande.

*

Ljudupptagning med vanliga mikrofoner sker alltså i någon mening i en “punkt”, men den är sämre än så: den är också mer eller mindre anisotropisk, alltså riktningsberoende. Det finns en teknik (eller samling med tekniker) som kallas Ambisonics, med vars hjälp man kan spela in isotropiskt, 3D-ljud alltså. Detta kräver dock minst fyra – helst sex eller fler – högtalare för uppspelning.

*

Kan rekommendera ett några år gammalt, mycket bra inlägg från Jet Set Junta-bloggen av Tor Billgren – kanske är det han som kommenterat här ovan – som handlar om ljud ur många intressant synvinklar (akustisk ekologi, ljudmiljöförstöring, psykoakustik, etc):

http://www.thejetsetjunta.se/?p=275

Kan tänka mig att du kommer in mer på såna områden i senare delar av serien. Ser fram emot kommande läsning.

#12 AndersH on 25 October 2009 at 9:46 pm

“Binarual recording” som flera har nämnt heter “konsthuvudstereo” på svenska. Namnet beskriver hur inspelningen går till. Man har ett dockhuvud i naturlig storlek med mikrofoner monterade inne i öronen. Ska enligt uppgift ge en extremt verklig ljudupplevelse när man lyssnar i hörlurar. Trots detta är det en väldigt ovanlig teknik. Kanske för att man så uppenbart måste “välja plats” för inspelningen. Man kan inte ha illusionen av “abstrakt publik” och kan heller inte göra pålägg och mixningar. De enda konsthuvudstereoinspelningar jag själv har hört har varit av typen museidokumentation; ljudet av olika antika båtmotorer och liknande.

***

Storleken på membranet i mikrofonen spelar i allra högsta grad roll. Man pratar vid musikinspelning om stormembrans- och småmembransmikrofoner. Olika storlek gör att olika frekvenser fångas upp olika bra. Stort membran är bättre på basljud än på diskant, ger en varm och rund klang och passar därför till tal och solosång på nära håll. Litet membran är bättre på diskant och kan därför ge lite för vasst ljud för tal, men passar bra till kör eller orkester på avstånd där man behöver maximal detaljåtergivning i diskanten.

#13 AndersH on 25 October 2009 at 9:48 pm

@Jonas B: Det är kombinationen av ljudstyrka och frekvens hos övertonerna som avgör klangfärg. Klangfärgen hos hela tonen, alltså. Rasmus kanske uttryckte sig otydligt där.

#14 Max on 26 October 2009 at 9:19 am

Jag måste bara tipsa om Alvin Lucier när jag läser det här.
http://en.wikipedia.org/wiki/Alvin_Lucier
http://www.ubu.com/sound/lucier.html

#15 T on 26 October 2009 at 9:24 am

Några korta relevanta och irrelevanta kommentarer:

-) Fouriertransformeringar behöver inte vara digitala, det finns mycket häftiga analoga kretsar som gör transformeringen fram och tillbaka (med tillhörigt analogt brus/informationsförlust). Då kan man se det mer som ett slags analogt filter med diverse konstiga effekter som vårt medvetande kanske uppfattar som något högt intressant och givande men som elektriska impulser fullständigt struntar i då deras huvudsyfte är att susa fram enligt etablerade fysiska lagar.

-) Fouriertransformeringen är en mer specifik variant av Laplacetransformeringen. Laplace skuttar inte in i ett frekvensplan från ett tidsplan utan in i ett mer abstrakt och svårgreppbart laplace-plan. Båda sträcker sig dock över tid på insignalen.

-) Tid och rum är fyra sidor av samma mynt.

Kort anekdot:
Jag jobbade med motorstyrningar en gång i tiden; elektriska stora saker som snurrade jättejättefort (en SI-enhet, 1e2 större än jättefort). Givetvis krånglade det en hel del och saker och ting slutade fungera; bokstavligen med smällar och rök. En av mina kollegor anmärkte på att en provmotor lät lite lustigt jämfört med de andra och att denna motor var en notorisk seriemördare av styrkretsar. Mikrofoner kopplades upp, analysutrustning startades och vi fann ingen skillnad mellan motorerna om man analyserade ljudet, dock var alla överens om att just den motorn hade ett litet pip som de andra inte hade. Finare dyrare utrustning införskaffades och mycket riktigt, det fanns ett högfrekvent pip i den som härstammade från en trasig komponent. En lösning konstruerades och iskall joltkola konsumerades.

Det mänskliga örat kan identifiera problem i frekvensplanet som hyfsat skaplig utrustning från Texas Instrument inte kan. Det tycker jag är en seger för köttrymden.

/T

#16 ctail on 26 October 2009 at 10:09 am

Ripley: What’s it key off?
Ash: Micro changes in air density.

Kommentera