Do you like my TV-show?

Dries

Vanmeert

Wat vind je van mijn TV-show?

Televisie kijken is een natuurlijk deel van ons leven geworden. Een gemiddeld huishouden heeft dan ook meerdere tv-toestellen, waar gemiddeld enkele uren per dag naar gekeken wordt. Tijdens dat men tv kijkt, doet men bovendien vaak bij-activiteiten, zoals praten, eten, drinken... Bovendien wordt de televisie steeds meer een interactief gebeuren. Voor televisiezenders en -producenten zou het bijgevolg interessant zijn om te weten wat men zoal doet tijdens het kijken, en hoe men zich bij het programma voelt. Hierop kan dan worden ingespeeld, om een optimale kijkervaring aan te bieden.

Dieptecamera's
Tot op heden was het voor onderzoekers moeilijk om informatie te verzamelen over het gedrag van mensen. Vaak moest men terugvallen op vragenlijsten, of op sensoren die uitgeoefende kracht, hartslag, of andere eigenschappen meten, om te weten te komen hoe iemand zich voelt, of wat iemand doet. Bij vragenlijsten loopt men echter het gevaar dat deze niet volledig waarheidsgetrouw ingevuld worden, of dat men het correcte antwoord niet meer precies herinnert. Sensoren hebben op hun beurt andere nadelen. Zo kan bijvoorbeeld de bewegingsvrijheid van een persoon beperkt worden door allerlei kabels, of moet die persoon precies juist voorbij een sensor passeren. Kortom, deze methoden kunnen de correctheid van de data beïnvloeden. Een oplossing kan gezocht worden in dieptecamera's. Dit soort sensoren is tegenwoordig relatief goedkoop verkrijgbaar, en bovendien al in veel huiskamers aanwezig, onder de vorm van de Kinect voor XBox 360. Een dieptecamera werkt analoog aan een gewone camera, maar in plaats van kleurenbeelden, genereert deze dieptebeelden met een infraroodsensor. De grijstint van elk punt in dit dieptebeeld geeft weer wat de afstand is van de camera tot dit punt. Bijgevolg maakt een dieptecamera een soort driedimensionale foto. Deze dieptecamera's kunnen bovenop de tv geplaatst worden in de huiskamer, beïnvloeden het gedrag van de kijker niet, en beperken zijn bewegingen ook niet.

Postuurherkenning
Uit de verkregen dieptebeelden kan automatisch een virtueel skelet gegenereerd worden, met de positie en oriëntatie van de gewrichten van de kijker. Zo is steeds het volledige postuur van de kijker gekend. Op dit skelet kan dan postuurherkenning toegepast worden. Hierbij worden een aantal kenmerken berekend die van toepassing zijn op het huidig postuur, waarmee de totale houding eenvoudig beschreven kan worden. Voorbeelden hiervan zijn de afstand van de handen tot het hoofd, de hoek tussen het bovenlichaam en de benen, de hoek van de elleboog... Op basis van deze kenmerken is het mogelijk van zowel emoties als activiteiten te herkennen.

Emotieherkenning
Om emoties trachten te herkennen, wordt gebruik gemaakt van een artificieel neuraal netwerk. Dit is een programmastructuur die de zenuwverbindingen in een brein nabootst. Het netwerk kan leren emoties herkennen uit de gegeven postuurkenmerken, door een grote hoeveelheid voorbeelden te geven. Dit kan bijvoorbeeld gedaan worden door de postuurkenmerken te genereren van iemand die tv kijkt, en aan het netwerk door te geven. Gelijktijdig kan het netwerk van bijvoorbeeld gezichtsherkenningssoftware de huidige getoonde emotie ontvangen. Zo kan het netwerk het huidige postuur later opnieuw associëren met die emotie, zonder de gezichtsherkenning.

Activiteitherkenning
Om activiteiten te herkennen, worden er eerst nieuwe postuurkenmerken gegenereerd van een hoger niveau. Zo kan bijvoorbeeld een bepaalde set waarden van de gewone postuurkenmerken geassocieerd worden met het uitstrekken van een arm, of het vasthouden van een voorwerp. Voor elk moment in de tijd wordt dan een volledige staat van het postuur bijgehouden: voor elk postuurkenmerk van hoger niveau wordt bijgehouden of het al dan niet herkend werd opt dit moment. Om elementaire activiteiten (een voorwerp opnemen, een hand tegen het hoofd houden...) te herkennen, worden dan de afgelopen staten van postuur vergeleken met een reeks van trainingsvoorbeelden. Voor elke herkenbare activiteit wordt dan een percentage van overeenkomst berekend. Indien dit percentage een bepaalde drempel overschrijdt, dan is deze activiteit herkend. Uiteraard is het de bedoeling van meer complexe activiteiten te herkennen, zoals telefoneren, een bericht versturen, van zender wisselen of in een magazine lezen. Deze kunnen zonder dat enige extra training nodig is toegevoegd worden. Dergelijke activiteiten worden namelijk voorgesteld als een sequentie van elementaire activiteiten. Zo kunnen we telefoneren bijvoorbeeld definiëren als volgende korte sequentie:

*Neem voorwerp op;

*Houd voorwerp voor onbepaalde duur tegen het oor.

Evaluatie
Het systeem dat hierboven beschreven staat werd uitgetest op een groep van elf testpersonen. Elk van deze testpersonen kreeg in een eerste fase zes videofragmenten te zien, die telkens een andere emotie uitlokten. In een tweede fase werd hun gevraag om een korte reeks van activiteiten uit te voeren. Gedurende het hele experiment werden ze door een Kinect gefilmd. Uit deze experimenten bleek dat mensen erg weinig bewegen als ze in hun eentje tv kijken, en herkennen van emoties uit postuur in dit geval dus erg moeilijk is. Het systeem zou mogelijk wel nog gebruikt kunnen worden in een sociale context, wanneer meerdere mensen tegelijk kijken. De activiteit herkenning was meer succesvol, maar er zijn twee belangrijke bronnen van fouten. Ten eerste heeft het dieptebeeld van Kinect last van ruis en occlusie, waardoor de skeletherkenning mislukt. Occlusie treedt op wanneer een bepaald deel van het lichaam niet zichtbaar is voor de dieptecamera, omdat er zich een groot voorwerp, of een ander lichaamsdeel voor bevindt. Een andere bron van fouten komt voort uit het opnemen of wegleggen van een voorwerp. Gezien deze twee handelingen erg op elkaar lijken, kunnen ze moeilijk onderscheiden worden. Hierdoor worden vaak activiteiten herkend, wanneer de persoon het voorwerp niet in handen heeft.

Conclusie
Er zijn een aantal werkpunten vooraleer deze methode met dieptecamera's in de praktijk gebruikt kan worden. Zo moet voornamelijk de skeletdetectie stabieler gemaakt worden, en moet een oplossing gevonden worden om het opnemen en wegleggen van voorwerpen van elkaar te kunnen onderscheiden. Verder zou emotieherkenning voornamelijk in een sociale context gebruikt kunnen worden. Desondanks zouden dieptecamera's een goed middel kunnen zijn om de kijkervaring voor tv's te verbeteren.

Bibliografie

[1] N. Bianchi-Berthouze, P. Cairns, A. Cox, C. Jennett, and W.W. Kim. On posture as a modality for expressing and recognizing emotions. In Emotion and HCI workshop at BCS HCI London, 2006.

[2] J. G. Carney and P. Cunningham. The epoch interpretation of learning. 1998.

[3] M. Coulson. Attributing emotion to static body postures: Recognition accuracy, confusions, and viewpoint dependence. Journal of nonverbal behavior, 28(2):117-139, 2004.

[4] A. Dakkak and A. Husain. Recovering missing depth information from microsofts kinect. Technical report, Carnegie Mellon University, Robotics Institute, 2012.

[5] P. M. A. Desmet, M. H. Vastenburg, D. Van Bel, and N. Romero. Pick-a-mood: Development and application of a pictorial moodreporting instrument. In Proceedings of the eighth International Design and Emotion Conference London 2012, 2012.

[6] P. Ekman. Basic emotions. Handbook of cognition and emotion, 98:45-60, 1999.

[7] TNS Emnid and IP Deutschland. Digitalbarometer - parallelnutzung: Interaktivitat beim fernsehen, December 2011.

[8] T. Fujine, Y. Yoshida, and M. Sugino. The relationship between preferred luminance and tv screen size. In Proc. SPIE, volume 6808, page 68080Z, 2008.

[9] R. Gallagher, G. Cottle, C. Drake, A. Ladbrook, and N. Thomas. The future of tv: Strategies for becoming connected, social and in the cloud. White paper, Informa telecoms & media, Imforma Telecoms and Media - Head Oce, Mortimer House, Mortimer Street, London, 2012.

[10] R. Hepach, D. Kliemann, S. Gruneisen, H. R. Heekeren, and I. Dziobek. Conceptualizing emotions along the dimensions of valence, arousal and communicative frequency - implications for social-cognitive test and training tools. Frontiers in Psychology, 2(266), 2011.

[11] Recommendation BT ITU-R. Report itu-r bt.2129: User requirement for a flat panel display (fpd) as a master monitor in an hdtv programme production environment, 2008.

[12] D. Janssen, W.I. Schollhorn, J. Lubienetzki, K. Folling, H. Kokenge, and K. Davids. Recognition of emotions in gait patterns by means of articial neural nets. Journal of Nonverbal Behavior, 32:79-92, 2008.

[13] X. Jin and Z. Wang. An emotion space model for recognition of emotions in spoken chinese. In J. Tao, T. Tan, and R. W. Picard, editors, Affective Computing and Intelligent Interaction, volume 3784 of Lecture Notes in Computer Science, pages 397-402. Springer Berlin Heidelberg, 2005.

[14] A. Kapoor, W. Burleson, and R.W. Picard. Automatic prediction of frustration. International Journal of Human-Computer Studies, 65(8):724-736, 2007.

[15] A. Kapoor, R.W. Picard, and Y. Ivanov. Probabilistic combination of multiple modalities to detect interest. In Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on, volume 3, pages 969-972. IEEE, 2004.

[16] K. Khoshelham and S.O. Elberink. Accuracy and resolution of kinect depth data for indoor mapping applications. Sensors, 12(2):1437-1454, 2012.

[17] A. Kleinsmith and N. Bianchi-Berthouze. Recognizing affective dimensions from body posture. In Affective Computing and Intelligent Interaction, pages 48-58. Springer, 2007.

[18] A. Kleinsmith, T. Fushimi, and N. Bianchi-Berthouze. An incremental and interactive affective posture recognition system. In International Workshop on Adapting the Interaction Style to Affective Factors, 2005.

[19] H. Knoche and M. A. Sasse. The big picture on small screens delivering acceptable video quality in mobile tv. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP), 5(3):20, 2009.

[20] T.M. Larsen. App consumer behaviour patterns, October 2011.

[21] J. J. LaViola. Double exponential smoothing: an alternative to kalman filter-based predictive tracking. In Proceedings of the workshop on Virtual environments 2003, pages 199-206. ACM, 2003.

[22] J. Lazar, J.H. Feng, and H. Hochheiser. Research methods in human-computer interaction. Wiley, 2010.

[23] R. L. Mandryk. Modeling user emotion in interactive play environments: A fuzzy physiological approach. PhD thesis, School of Computing Science-Simon Fraser University, 2005.

[24] M.-J. Montpetit, P. Cesar, M. Matijasevic, Z. Liu, J. Crowcroft, and O. Martinez Bonastre. Surveying the social, smart and converged tv landscape: Where is television research headed? arXiv preprint arXiv:1209.2905, 2012.

[25] B. Mutlu, A. Krause, J. Forlizzi, C. Guestrin, and J. Hodgins. Robust, low-cost, non-intrusive sensing and recognition of seated postures. In Proceedings of the 20th annual ACM symposium on User interface software and technology, pages 149-158. ACM, 2007.

[26] A. Nakasone, H. Prendinger, and M. Ishizuka. Emotion recognition from electromyography and skin conductance. In Proc. of the 5th International Workshop on Biosignal Interpretation, pages 219-222. Citeseer, 2005.

[27] J.A. Neufeld. Ipads, mobiles, & social media: The perfect tv companions. 2011.

[28] Special Committee on FPD-TV Ergonomics. Ergonomic design guidelines for flat panel display televisions, January 2012. Japan Ergonomics Society.

[29] R. D. Ray. Emotion elicitation using films. Handbook of emotion elicitation and assessment, page 9, 2007.

[30] R. Rojas. Neural networks: a systematic introduction. Springer, 1996.

[31] K. Schindler, L. Van Gool, and B. de Gelder. Recognizing emotions expressed by body pose: A biologically inspired neural model. Neural networks, 21(9):1238-1246, 2008.

[32] K.L. Schmitt, K. Duyck Woolf, and D.R. Anderson. Viewing the viewers: Viewing behaviors by children and adults during television programs and commercials. Journal of communication, 53(2):265-281, 2003.

[33] J. Shotton, A. Fitzgibbon, M. Cook, T. Sharp, M. Finocchio, R. Moore, A. Kipman, and A. Blake. Real-time human pose recognition in parts from single depth images. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1297-1304. IEEE, 2011.

[34] N.E. Tanton. Results of a survey on television viewing distance. BBC R&D White Paper WHP, 90, 2004.

[35] E. M. Tapia, S. S. Intille, and K. Larson. Activity recognition in the home using simple and ubiquitous sensors. Springer, 2004.