Do you like my TV-show?

Dries

Vanmeert

Wat vind je van mijn TV-show?

Televisie kijken is een natuurlijk deel van ons leven geworden. Een gemiddeld huishouden heeft dan ook meerdere tv-toestellen, waar gemiddeld enkele uren per dag naar gekeken wordt. Tijdens dat men tv kijkt, doet men bovendien vaak bij-activiteiten, zoals praten, eten, drinken... Bovendien wordt de televisie steeds meer een interactief gebeuren. Voor televisiezenders en -producenten zou het bijgevolg interessant zijn om te weten wat men zoal doet tijdens het kijken, en hoe men zich bij het programma voelt. Hierop kan dan worden ingespeeld, om een optimale kijkervaring aan te bieden.

Dieptecamera's
Tot op heden was het voor onderzoekers moeilijk om informatie te verzamelen over het gedrag van mensen. Vaak moest men terugvallen op vragenlijsten, of op sensoren die uitgeoefende kracht, hartslag, of andere eigenschappen meten, om te weten te komen hoe iemand zich voelt, of wat iemand doet. Bij vragenlijsten loopt men echter het gevaar dat deze niet volledig waarheidsgetrouw ingevuld worden, of dat men het correcte antwoord niet meer precies herinnert. Sensoren hebben op hun beurt andere nadelen. Zo kan bijvoorbeeld de bewegingsvrijheid van een persoon beperkt worden door allerlei kabels, of moet die persoon precies juist voorbij een sensor passeren. Kortom, deze methoden kunnen de correctheid van de data beïnvloeden. Een oplossing kan gezocht worden in dieptecamera's. Dit soort sensoren is tegenwoordig relatief goedkoop verkrijgbaar, en bovendien al in veel huiskamers aanwezig, onder de vorm van de Kinect voor XBox 360. Een dieptecamera werkt analoog aan een gewone camera, maar in plaats van kleurenbeelden, genereert deze dieptebeelden met een infraroodsensor. De grijstint van elk punt in dit dieptebeeld geeft weer wat de afstand is van de camera tot dit punt. Bijgevolg maakt een dieptecamera een soort driedimensionale foto. Deze dieptecamera's kunnen bovenop de tv geplaatst worden in de huiskamer, beïnvloeden het gedrag van de kijker niet, en beperken zijn bewegingen ook niet.

Postuurherkenning
Uit de verkregen dieptebeelden kan automatisch een virtueel skelet gegenereerd worden, met de positie en oriëntatie van de gewrichten van de kijker. Zo is steeds het volledige postuur van de kijker gekend. Op dit skelet kan dan postuurherkenning toegepast worden. Hierbij worden een aantal kenmerken berekend die van toepassing zijn op het huidig postuur, waarmee de totale houding eenvoudig beschreven kan worden. Voorbeelden hiervan zijn de afstand van de handen tot het hoofd, de hoek tussen het bovenlichaam en de benen, de hoek van de elleboog... Op basis van deze kenmerken is het mogelijk van zowel emoties als activiteiten te herkennen.

Emotieherkenning
Om emoties trachten te herkennen, wordt gebruik gemaakt van een artificieel neuraal netwerk. Dit is een programmastructuur die de zenuwverbindingen in een brein nabootst. Het netwerk kan leren emoties herkennen uit de gegeven postuurkenmerken, door een grote hoeveelheid voorbeelden te geven. Dit kan bijvoorbeeld gedaan worden door de postuurkenmerken te genereren van iemand die tv kijkt, en aan het netwerk door te geven. Gelijktijdig kan het netwerk van bijvoorbeeld gezichtsherkenningssoftware de huidige getoonde emotie ontvangen. Zo kan het netwerk het huidige postuur later opnieuw associëren met die emotie, zonder de gezichtsherkenning.

Activiteitherkenning
Om activiteiten te herkennen, worden er eerst nieuwe postuurkenmerken gegenereerd van een hoger niveau. Zo kan bijvoorbeeld een bepaalde set waarden van de gewone postuurkenmerken geassocieerd worden met het uitstrekken van een arm, of het vasthouden van een voorwerp. Voor elk moment in de tijd wordt dan een volledige staat van het postuur bijgehouden: voor elk postuurkenmerk van hoger niveau wordt bijgehouden of het al dan niet herkend werd opt dit moment. Om elementaire activiteiten (een voorwerp opnemen, een hand tegen het hoofd houden...) te herkennen, worden dan de afgelopen staten van postuur vergeleken met een reeks van trainingsvoorbeelden. Voor elke herkenbare activiteit wordt dan een percentage van overeenkomst berekend. Indien dit percentage een bepaalde drempel overschrijdt, dan is deze activiteit herkend. Uiteraard is het de bedoeling van meer complexe activiteiten te herkennen, zoals telefoneren, een bericht versturen, van zender wisselen of in een magazine lezen. Deze kunnen zonder dat enige extra training nodig is toegevoegd worden. Dergelijke activiteiten worden namelijk voorgesteld als een sequentie van elementaire activiteiten. Zo kunnen we telefoneren bijvoorbeeld definiëren als volgende korte sequentie:

*Neem voorwerp op;

*Houd voorwerp voor onbepaalde duur tegen het oor.

Evaluatie
Het systeem dat hierboven beschreven staat werd uitgetest op een groep van elf testpersonen. Elk van deze testpersonen kreeg in een eerste fase zes videofragmenten te zien, die telkens een andere emotie uitlokten. In een tweede fase werd hun gevraag om een korte reeks van activiteiten uit te voeren. Gedurende het hele experiment werden ze door een Kinect gefilmd. Uit deze experimenten bleek dat mensen erg weinig bewegen als ze in hun eentje tv kijken, en herkennen van emoties uit postuur in dit geval dus erg moeilijk is. Het systeem zou mogelijk wel nog gebruikt kunnen worden in een sociale context, wanneer meerdere mensen tegelijk kijken. De activiteit herkenning was meer succesvol, maar er zijn twee belangrijke bronnen van fouten. Ten eerste heeft het dieptebeeld van Kinect last van ruis en occlusie, waardoor de skeletherkenning mislukt. Occlusie treedt op wanneer een bepaald deel van het lichaam niet zichtbaar is voor de dieptecamera, omdat er zich een groot voorwerp, of een ander lichaamsdeel voor bevindt. Een andere bron van fouten komt voort uit het opnemen of wegleggen van een voorwerp. Gezien deze twee handelingen erg op elkaar lijken, kunnen ze moeilijk onderscheiden worden. Hierdoor worden vaak activiteiten herkend, wanneer de persoon het voorwerp niet in handen heeft.

Conclusie
Er zijn een aantal werkpunten vooraleer deze methode met dieptecamera's in de praktijk gebruikt kan worden. Zo moet voornamelijk de skeletdetectie stabieler gemaakt worden, en moet een oplossing gevonden worden om het opnemen en wegleggen van voorwerpen van elkaar te kunnen onderscheiden. Verder zou emotieherkenning voornamelijk in een sociale context gebruikt kunnen worden. Desondanks zouden dieptecamera's een goed middel kunnen zijn om de kijkervaring voor tv's te verbeteren.