Je computer als muziekkenner

Stefaan
Lippens

Je computer als muziekkenner

Stefaan Lippens

13 oktober 2003

Over een hokjesmentaliteit in de muziekwereld

durft men zich wel eens

minachtend uitlaten. Maar wie zou de

vier seizoenen van Vivaldi durven verwarren

met het gitaargeweld van Metallica?

Ontkennen dat er muziekgenres

bestaan, is zonder twijfel een brug

te ver. Meer nog, de mens blinkt uit

in het herkennen van genres. Dit soort

interpretatie van muziek speelt zich af

in de hogere regionen van onze geest

en kan daar veel meer teweeg brengen

dan de naakte nulletjes en eentjes van

een MP3-bestand of cd kunnen doen

vermoeden. Zou een computer ons dat

kunnen nadoen? Het lijkt een beetje

een heiligschennende vraag, maar de

toepassing ervan biedt wel interessante

perspectieven.

Sinds de opkomst van het internet en het

populaire bestandsformaat MP3 is het downloaden

en elektronisch verzamelen van muziek

een harde realiteit geworden. Botsingen

tussen de muziekindustrie en de consumenten

brengen regelmatig verhitte discussies

met zich mee omtrent de legaliteit van

het zaakje, waarbij de ene partij de andere

partij beschuldigt van onheuse praktijken.

Maar ondertussen krimpt de diebare ruimte

op je harde schijf omdat Casper, de jongste

spruit van de familie, steeds de laatste singletjes

downloadt. Probeer die onoverzichtelijke

berg aan muziek maar eens te onderhouden,

zoals ordenen op uitvoerder, titel of album.

Op termijn wordt die manuele verwerking

een onhoudbaar en vervelend werkje.

De computer zou ons hier en handje kunnen

helpen. Snelheid en een voorkeur voor

bandwerk zijn enkele van zijn specialiteiten

die hier ongetwijfeld van pas kunnen komen.

Onderzoekers aan de Universiteit van Gent

hebben zich recent vastgebeten in dit probleem.

In mijn thesis “automatische genreclassificatie

van muziek” is het bijvoorbeeld

de bedoeling om een muziekgenre te herkennen

enkel op basis van de zogenaamde nulletjes

en eentjes. De werkwijze bestaat in

essentie uit 2 elementaire stappen: eerst halen

we specifieke kenmerken uit de muziek en

vervolgens bepalen we op basis van deze kenmerken

het muziekgenre. Deze kenmerken

kunnen in principe vanalles zijn dat zinvol is

voor het bepalen van een muziekgenre. Onmiddellijk

denken we aan kenmerken in de

aard van ‘zijn er opvallend strijkers aanwezig?’,

‘beuken de gitaren er op los?’ of ‘zingt

de stem zacht zoals in opera, ruw zoals in

punk of scanderend zoals in rap?’.

Omdat muziek zo een complex gegeven is,

blijkt het niet eenvoudig om deze kenmerken

zomaar door een computer te laten vaststellen.

Muziek is typisch een opeenstapeling

van verschillende stemmen en lagen (zoals

zang, gitaar, ritme, saxofoon, enzovoort).

Wiskundig gezien gaat het zelfs om een eenvoudige

optelling. Maar stel dat je enkel de

uitkomst krijgt van de som van tien willekeurige

getallen zonder extra informatie, probeer

dan maar eens die afzonderlijke getallen

te bepalen. Bij muziek ligt het gelukkig een

beetje anders en slaagt de mens er wonder

boven wonder wel in om stemmen en lagen

te onderscheiden.

1

De huidige stand van de techniek op het

gebied van signaalverwerking is spijtig genoeg

niet zo geavanceerd om die lagen in dezelfde

mate te scheiden. Voorlopig moeten

we onze toevlucht nemen tot de zogenaamde

‘laag niveau kenmerken’ van muziek, waarbij

we vragen stellen zoals ‘is de muziek ruw,

zoals ruis, of eerder sterk tonaal?’, ‘hoe is de

energie verdeeld: vooral in de bassen of in

de hogere tonen?’, ‘zijn er een terugkerende

patronen aanwezig?’ en ‘hoe sterk of hoe

snel vari¨eren deze verschillende eigenschappen?’.

Je kan hierin de beschrijving zien van

de ‘textuur’ van het geluid, net zoals een stuk

stof of een boomschors een bepaalde textuur

heeft. De computer drukt deze eigenschappen

uit in getallen zodat hij er gemakkelijk

mee kan werken. Dit wil dus zeggen dat we

een volledig muziekstuk (enkele megabytes

aan gegevens) samenvatten met een tien- tot

een honderdtal cijfertjes.

Voor de uiteindelijke classificatie moet de

computer de link kennen tussen dit handje

vol getallen en de muziekgenres. Dit verband,

dat we het ‘genremodel’ noemen, laten

we bij voorkeur door de computer zelf opstellen.

Wij mensen werken immers niet graag

met (veel) getallen en hebben het dus moeilijk

om het verband te zien tussen de laag niveau

kenmerken en de muziekgenres. Via een

recept vol wiskunde en statistiek trainen we

de computer met de kenmerken van stukken

muziek en zeggen er ook bij over welke muziekgenres

het gaat. Zodoende kan de computer

een genremodel afleiden en daarmee

andere muziekstukken klasseren, zonder op

voorhand het genre te kennen.

Ik kon deze idee¨en eens toepassen op een

echte muziekcollectie bestaande uit 160 stukken

muziek. De genres werden bepaald via

een luisterexperiment met 27 proefpersonen.

Ze hadden keuze uit de volgende 6 mogelijkheden:

‘klassiek’, ‘dance’, ‘pop’, ‘rap’, ‘rock’

en ‘geen van voorgaande’. Elk muziekstuk

werd natuurlijk gelabeld met het meest gekozen

genre. Het luisterexperiment wees er

ook op dat door subjectiviteit en smaakverschillen

er gemiddeld slechts 76% overeenkomstige

classificatie was tussen de proefpersonen

en de uiteindelijk verkozen labeling.

Tijdens de experimenten slaagde de

computer er in om in 58% van de muzieknummers

juist te klasseren. Dit is duidelijk

beter dan het gebruiken van een dobbelsteen

met een genre op elk vlakje. Door het toeval

te laten beslissen zouden we dan slechts

17% juiste classificatie behalen. Het systeem

kan ons dus een hoop classificatiewerk besparen,

hoewel er nog grofweg 20% achterstand

is ten opzichte van het menselijk classificatievermogen.

Verschillende verbeteringen zijn immers

nog mogelijk. De signaalverwerking is een

bloeiende tak van de technologie en zal dus

op termijn betere, robuustere en meer relevante

kenmerken opleveren die muziek ook

op hogere niveaus kunnen beschrijven. Dit

is niet alleen ten voordele van genreherkenning.

Ook andere geautomatiseerde verwerking

van muziek is denkbaar, zoals bijvoorbeeld

de lokalisatie van gezongen fragmenten,

het zoeken naar refrein-strofe structuren,

het vinden van een kenmerkend fragment

om het grasduinen in muziekcollecties

te vergemakkelijken, de extractie van partituren

of tekst, het opzoeken van muziekstukken

door een stukje te neuri¨en of te fluiten,

het schatten van de gemoedstoestand die

muziek kan teweegbrengen, enzovoort. Deze

idee¨en kunnen natuurlijk ook doorgetrokken

worden naar andere media zoals foto’s, tekst

of film. Hoewel het allemaal misschien nog

wat futuristisch klinkt, zal het Casper en zijn

familieleden heel wat tijd, moeite en ergernis

kunnen besparen.

2

Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2003