Je computer als muziekkenner
Stefaan Lippens
13 oktober 2003
Over een hokjesmentaliteit in de muziekwereld
durft men zich wel eens
minachtend uitlaten. Maar wie zou de
vier seizoenen van Vivaldi durven verwarren
met het gitaargeweld van Metallica?
Ontkennen dat er muziekgenres
bestaan, is zonder twijfel een brug
te ver. Meer nog, de mens blinkt uit
in het herkennen van genres. Dit soort
interpretatie van muziek speelt zich af
in de hogere regionen van onze geest
en kan daar veel meer teweeg brengen
dan de naakte nulletjes en eentjes van
een MP3-bestand of cd kunnen doen
vermoeden. Zou een computer ons dat
kunnen nadoen? Het lijkt een beetje
een heiligschennende vraag, maar de
toepassing ervan biedt wel interessante
perspectieven.
Sinds de opkomst van het internet en het
populaire bestandsformaat MP3 is het downloaden
en elektronisch verzamelen van muziek
een harde realiteit geworden. Botsingen
tussen de muziekindustrie en de consumenten
brengen regelmatig verhitte discussies
met zich mee omtrent de legaliteit van
het zaakje, waarbij de ene partij de andere
partij beschuldigt van onheuse praktijken.
Maar ondertussen krimpt de diebare ruimte
op je harde schijf omdat Casper, de jongste
spruit van de familie, steeds de laatste singletjes
downloadt. Probeer die onoverzichtelijke
berg aan muziek maar eens te onderhouden,
zoals ordenen op uitvoerder, titel of album.
Op termijn wordt die manuele verwerking
een onhoudbaar en vervelend werkje.
De computer zou ons hier en handje kunnen
helpen. Snelheid en een voorkeur voor
bandwerk zijn enkele van zijn specialiteiten
die hier ongetwijfeld van pas kunnen komen.
Onderzoekers aan de Universiteit van Gent
hebben zich recent vastgebeten in dit probleem.
In mijn thesis “automatische genreclassificatie
van muziek” is het bijvoorbeeld
de bedoeling om een muziekgenre te herkennen
enkel op basis van de zogenaamde nulletjes
en eentjes. De werkwijze bestaat in
essentie uit 2 elementaire stappen: eerst halen
we specifieke kenmerken uit de muziek en
vervolgens bepalen we op basis van deze kenmerken
het muziekgenre. Deze kenmerken
kunnen in principe vanalles zijn dat zinvol is
voor het bepalen van een muziekgenre. Onmiddellijk
denken we aan kenmerken in de
aard van ‘zijn er opvallend strijkers aanwezig?’,
‘beuken de gitaren er op los?’ of ‘zingt
de stem zacht zoals in opera, ruw zoals in
punk of scanderend zoals in rap?’.
Omdat muziek zo een complex gegeven is,
blijkt het niet eenvoudig om deze kenmerken
zomaar door een computer te laten vaststellen.
Muziek is typisch een opeenstapeling
van verschillende stemmen en lagen (zoals
zang, gitaar, ritme, saxofoon, enzovoort).
Wiskundig gezien gaat het zelfs om een eenvoudige
optelling. Maar stel dat je enkel de
uitkomst krijgt van de som van tien willekeurige
getallen zonder extra informatie, probeer
dan maar eens die afzonderlijke getallen
te bepalen. Bij muziek ligt het gelukkig een
beetje anders en slaagt de mens er wonder
boven wonder wel in om stemmen en lagen
te onderscheiden.
1
De huidige stand van de techniek op het
gebied van signaalverwerking is spijtig genoeg
niet zo geavanceerd om die lagen in dezelfde
mate te scheiden. Voorlopig moeten
we onze toevlucht nemen tot de zogenaamde
‘laag niveau kenmerken’ van muziek, waarbij
we vragen stellen zoals ‘is de muziek ruw,
zoals ruis, of eerder sterk tonaal?’, ‘hoe is de
energie verdeeld: vooral in de bassen of in
de hogere tonen?’, ‘zijn er een terugkerende
patronen aanwezig?’ en ‘hoe sterk of hoe
snel vari¨eren deze verschillende eigenschappen?’.
Je kan hierin de beschrijving zien van
de ‘textuur’ van het geluid, net zoals een stuk
stof of een boomschors een bepaalde textuur
heeft. De computer drukt deze eigenschappen
uit in getallen zodat hij er gemakkelijk
mee kan werken. Dit wil dus zeggen dat we
een volledig muziekstuk (enkele megabytes
aan gegevens) samenvatten met een tien- tot
een honderdtal cijfertjes.
Voor de uiteindelijke classificatie moet de
computer de link kennen tussen dit handje
vol getallen en de muziekgenres. Dit verband,
dat we het ‘genremodel’ noemen, laten
we bij voorkeur door de computer zelf opstellen.
Wij mensen werken immers niet graag
met (veel) getallen en hebben het dus moeilijk
om het verband te zien tussen de laag niveau
kenmerken en de muziekgenres. Via een
recept vol wiskunde en statistiek trainen we
de computer met de kenmerken van stukken
muziek en zeggen er ook bij over welke muziekgenres
het gaat. Zodoende kan de computer
een genremodel afleiden en daarmee
andere muziekstukken klasseren, zonder op
voorhand het genre te kennen.
Ik kon deze idee¨en eens toepassen op een
echte muziekcollectie bestaande uit 160 stukken
muziek. De genres werden bepaald via
een luisterexperiment met 27 proefpersonen.
Ze hadden keuze uit de volgende 6 mogelijkheden:
‘klassiek’, ‘dance’, ‘pop’, ‘rap’, ‘rock’
en ‘geen van voorgaande’. Elk muziekstuk
werd natuurlijk gelabeld met het meest gekozen
genre. Het luisterexperiment wees er
ook op dat door subjectiviteit en smaakverschillen
er gemiddeld slechts 76% overeenkomstige
classificatie was tussen de proefpersonen
en de uiteindelijk verkozen labeling.
Tijdens de experimenten slaagde de
computer er in om in 58% van de muzieknummers
juist te klasseren. Dit is duidelijk
beter dan het gebruiken van een dobbelsteen
met een genre op elk vlakje. Door het toeval
te laten beslissen zouden we dan slechts
17% juiste classificatie behalen. Het systeem
kan ons dus een hoop classificatiewerk besparen,
hoewel er nog grofweg 20% achterstand
is ten opzichte van het menselijk classificatievermogen.
Verschillende verbeteringen zijn immers
nog mogelijk. De signaalverwerking is een
bloeiende tak van de technologie en zal dus
op termijn betere, robuustere en meer relevante
kenmerken opleveren die muziek ook
op hogere niveaus kunnen beschrijven. Dit
is niet alleen ten voordele van genreherkenning.
Ook andere geautomatiseerde verwerking
van muziek is denkbaar, zoals bijvoorbeeld
de lokalisatie van gezongen fragmenten,
het zoeken naar refrein-strofe structuren,
het vinden van een kenmerkend fragment
om het grasduinen in muziekcollecties
te vergemakkelijken, de extractie van partituren
of tekst, het opzoeken van muziekstukken
door een stukje te neuri¨en of te fluiten,
het schatten van de gemoedstoestand die
muziek kan teweegbrengen, enzovoort. Deze
idee¨en kunnen natuurlijk ook doorgetrokken
worden naar andere media zoals foto’s, tekst
of film. Hoewel het allemaal misschien nog
wat futuristisch klinkt, zal het Casper en zijn
familieleden heel wat tijd, moeite en ergernis
kunnen besparen.
2