Till innehåll på sidan

Grattis Anders Elowsson och Anders Friberg!

Best Paper Award

Publicerad 2020-02-19

Anders Elowsson och hans medförfattare Anders Friberg har fått ett ISMIR Best Paper Award för sitt paper "Modelling Music Modality with a Key-Class Invariant Pitch Chroma CNN". Anders Elowsson svarar på några frågor.

Grattis till att ha vunnit Best Paper Award på konferensen International Society for Music Information Retrieval (ISMIR)! Hur känns det att ha fått denna utmärkelse?

Tackar! Det är kul att få ett erkännande i en framstående konferens och att forskningsmetodiken i artikeln uppskattas.

Vad arbetar ni med just nu?

Jag har just börjat en anställning på RITMO Centre for Interdisciplinary Studies in Rhythm, Time and Motion på Universitet i Oslo, som en postdoctoral research fellow. Här kommer jag fortsätta min forskning kring analys av musik med hjälp av maskininlärning. Tanken är att vidareutveckla de transkriptionssystem jag byggt upp under min doktorandtid samt att applicera dessa i samarbete med musikvetare för att få en djupare förståelse för ljudande musik.

Berätta lite om ert paper.

Detta paper behandlar uppfattad modalitet i musik, vilket refererar till om musiken går i dur eller moll. Lite kortfattat har vi skapat ett neuralt nätverk (ett så kallat convolutional neural network, CNN) som kan analysera en ljudfil med musik och predicera vilken modalitet människor kommer uppfatta när de lyssnar. Detta CNN är designat till att sammanväga toner som tillhör samma tonklass vilket förbättrar prediktionen eftersom varje tonklass uppfyller en liknande harmonisk funktion, oavsett tonens oktav. De olika tonklasserna slås sedan samman genom så kallad max-pooling. Detta gör analysen invariant med hänseende till tonartsklass, vilket är fördelaktigt eftersom vår perception av modalitet är densamma för ett musikstycke oavsett vilken tonartsklass den spelats i (den uppfattade modaliteten är exempelvis densamma för en låt transponerad mellan Cm, Dm eller Em). En annan intressant detalj var att vi använde prediktioner från mitt tidigare system för polyfonisk transkription som input vilket gjorde det möjligt att designa CNN:et att ta bättre hänsyn till ovan nämnda musikaliska invarianser. Jag brukar kalla denna metodik för ”deep layered learning”.

För att träna systemet användes medelvärdet av skattningar av modalitet från 20 lyssnare för drygt 200 musikstycken. Systemets svar låg närmare detta medelvärde än skattningarna från individuella lyssnare. Med andra ord får man ett bättre värde på genomsnittligt uppfattad modalitet genom att fråga det utvecklade systemet än att fråga en människa (i alla fall för den typ av klassisk filmmusik samt syntetiserad pop som förekom i experimentet).