L’analyse des sentiments appliquée sur des tweets politiques: une étude de corpus

Cynthia
Van Hee

Twitter: de opiniepeiling van de 21e eeuw?

Via Twitter en Facebook worden dagelijks miljoenen berichten de wereld ingestuurd. Mensen bloggen er op los om hun doen en laten te delen met vrienden, kennissen of vreemden. Steeds meer mensen vinden de weg naar sociale media en dat wekt natuurlijk de interesse van bedrijven en politici; zij speuren het web af op zoek naar de mening en voorkeur van consumenten en kiezers. Tools voor tekstanalyse op het web bestonden al, maar de onstuitbare opmars van sociale media stelt de technologie voor een nieuwe uitdaging: webteksten worden korter en bevatten steeds minder standaardtaal. Zijn de bestaande tools ook geschikt voor dit soort teksten? Op basis van een verzameling politieke tweets onderzochten we in deze studie hoe we met de bestaande taaltechnologische systemen kunnen bepalen wat de publieke opinie was over politieke partijen en politici tijdens de gemeenteraadsverkiezingen van oktober 2012. Om na te gaan hoe betrouwbaar Twitter de publieke opinie weerspiegelt, hebben we de resultaten van onze analyse vergeleken met de uiteindelijke verkiezingsuitslag. Ten slotte wierpen we een blik op de thema’s die vaak aan bod kwamen in de tweets. We zagen dat de huidige systemen, mits een gedetailleerde analyse, toelaten om via Twitter heel wat informatie te verzamelen over de politieke voorkeur van twitteraars en over de verschillen tussen mannen en vrouwen. Uit de gelijkenissen tussen onze analyse en de verkiezingsuitslag blijkt dat Twitter in de toekomst mogelijk als politieke voorspeller kan worden gebruikt. Populaire Twitterthema’s bleken voornamelijk omstreden partijen en gebeurtenissen te zijn.

Het web, een rijke bron van informatie
Marketeers, politici en bedrijven zijn al jaren geïnteresseerd in methodes om webteksten te analyseren. Een van die methodes is sentimentanalyse, een manier om na te gaan in welke mate een tekst subjectief is. Een vaak gebruikte maatstaf daarvoor is het aantal subjectieve woorden in de tekst: hoe hoger dat aantal, hoe subjectiever de tekst. Door de subjectieve woorden in te delen in positieve en negatieve kan ook worden achterhaald of de tekst een positief of een negatief oordeel bevat. Zo wijst het woord flop in de zin “de nieuwe Spielberg-film is een flop” op een negatief oordeel.

Sentimentanalyse anno 2013
Hoewel sentimentanalyse op basis van positieve en negatieve woorden in het verleden haar nut heeft bewezen,  zijn er aanwijzingen dat de methode niet altijd het gewenste resultaat oplevert. Zo wordt de zin “Kaat is intelligenter dan Alex” door het woord intelligenter als positief beschouwd. Dat is wel het geval voor Kaat, maar niet voor Alex. Om dergelijke dubbelzinnige analyses te vermijden, werd tijdens deze studie een diepe tekstanalyse uitgevoerd waarbij de zinsstructuur van de tekst onder de loep werd genomen. De resultaten van deze aanpak waren positief: met een gedetailleerde analyse kon sentiment zelfs worden gedetecteerd in complexe zinnen met verschillende niveaus en in zinnen die op het eerste gezicht objectief lijken zoals “Groen behaalde meer stemmen dan vorig jaar”. Zonder diepe analyse zou de zin als objectief worden beschouwd aangezien hij geen positieve noch negatieve woorden bevat. Onze analyse onthulde echter dat er in de zin iets positiefs wordt gezegd over de partij Groen. Vergelijkbare voorbeelden uit onze verzameling van tweets bevestigen eveneens dat een diepe analyse van de tekst betere resultaten oplevert dan het opzoeken van subjectieve woorden.

Twitter: mannen vs vrouwen
De diepe sentimentanalyse leverde ook interessante bevindingen op over de vergelijking tussen de mannelijke en vrouwelijke twitteraars in onze dataset. Buiten het feit dat vrouwen algemeen positiever waren over traditionele partijen dan mannen, waren er ook verschillen merkbaar in de manier waarop ze hun mening uitten. Zo bleek dat vrouwen hun mening vaak voorzichtiger uitdrukken dan mannen: hun tweets bevatten veel vaker elementen van modaliteit (woorden als misschien, blijkbaar) en afzwakkingen (woorden als een beetje, relatief) dan die van mannen. Het oordeel van vrouwen was vaak ook gematigder dan dat van mannen. De volgende tweets over een politiek debat maken dat duidelijk: “persoon x was aangenaam om naar te kijken”, “persoon x deed het weer geweldig”. Hoewel in beide tweets iets positiefs wordt gezegd over persoon x, is er duidelijk een verschil. De eerste zin werd geschreven door een vrouw en is opvallend neutraler dan de tweede, die werd geschreven door een man.

Tweet mee via #vk2012”
Een tweede doelstelling van dit onderzoek was nagaan in welke mate Twitter het politieke landschap in Vlaanderen weerspiegelt. Met andere woorden: zijn politici terecht bezorgd over wat er over hen wordt getwitterd? We verzamelden 4629 tweets met de hashtag #vk2012 waarin werd gesproken over de gemeenteraadsverkiezingen van oktober 2012. Daarin gingen we na hoe vaak bepaalde politici en partijen werden vermeld en hoe ze werden beoordeeld. Hoewel onze dataset eerder beperkt was, waren er duidelijke indicaties dat tweets een beeld kunnen schetsen van de politieke voorkeur van twitteraars. Zo bleek bijvoorbeeld dat er over Groen en PVDA heel vaak en doorgaans erg positief werd getwitterd. Een interessante vaststelling is dat het net die partijen zijn die in oktober de sterkste toename van het aantal stemmen hebben geregistreerd in vergelijking met de verkiezingen van 2006[1].

Trending Twittertopics
Het derde luik van deze studie onderzocht over welke thema's het vaakst werd getwitterd in de aanloop naar de verkiezingen. Zogenaamde trending topics waren onder andere de partijen Open Vld en N-VA en de stad Antwerpen. Het is opvallend dat mensen op Twitter graag napraten over veelbesproken partijen en controversiële thema’s zoals de hevige strijd voor de burgemeesterssjerp in Antwerpen.

Sentimentanalyse op grote schaal
Met deze masterproef wilden we nagaan hoe we de huidige technologie voor sentimentanalyse kunnen inzetten om te onthullen wat de twitterende bevolking denkt over politieke partijen en politici. Hoewel onze dataset relatief beperkt was, zijn we erin geslaagd interessante informatie over de publieke opinie uit de tweets te halen. Nieuwe studies zouden kunnen nagaan wat de mogelijkheden zijn van sentimentanalyse op grote schaal: kan de analyse van een zeer groot aantal tweets bijvoorbeeld verkiezingsresultaten helpen voorspellen? Ambitieuze doelstelling of niet, de bevindingen van deze studie zijn alvast hoopgevend.

 

[1] Resultaten geraadpleegd op de website http://www.vlaanderenkiest.be/verkiezingen2012/index.html [12.04.2013].

 

Bibliografie

Brooke, J., Tofiloski, M., & Taboada, M. (2009). Cross-Linguistic Sentiment Analysis: FromEnglish to Spanish. Proceedings of RANLP 2009, Recent Advances in Natural Language Processing. Voorgesteld op de RANLP-conferentie in 2009, Borovets, Bulgarije.Cohen, J. 1960. A coefficient of agreement for nominal scales. Educational andPsychological Measurement, 20, 37–46.Dedecker: "LDD niet van de kaart geveegd". (14.10.2012). De Morgen. [Online]http://www.demorgen.be/dm/nl/3625/Verkiezingen2012/article/detail/15168… [24.04.2013].De Lobel, P. (13.10.2012). Over de parking geen tweets. De Standaard, p. 8.El Jardín de Junio. (2011). Sentitext, el tesoro escondido en las palabras. [Online]http://www.sentitext.com/bienvenida.html [08.04.2013].Goret , C. (29.10.2012). De eerste sociale campagne. Metro, p. 6.Herregods, J. (10.10.2012). Verkiezingen : ‘Vind ik leuk’. Metro, p. 4.Kageura, Kyo et Bin Umino. (1996). Methods for automatic term recognition : A review.Terminology,3(2), 259–289.Language and translation technology team (s.d.). Terminology Extraction for SemanticInteroperability and Standardization, TExSIS. [Online] http://lt3.hogent.be/en/projects/texsis [24.04.2013].Long J., Mo Y., Ming Z., Xiaohua L. & Tiejun Zhao. (2011). Target-dependent TwitterSentiment Classification. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 151–160.Moreno-Ortiz, A. & Pérez Hernández, C. (2012). Lexicon-Based Sentiment Analysis ofTwitter Messages in Spanish. Studie gepubliceerd op : http://www.daedalus.es/TASS. [12.04.2013].Nek-aan-nekrace naar Antwerpse stadhuis. (01.09.2012). De Standaard. [Online]http://www.standaard.be/artikel/detail.aspx?artikelid=DMF20120901_017 [12.04.2013].Pang, B. & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trendsin Information Retrieval, 2(1-2), 1-135.Pennebaker, J.W., Francis, M.E. & Booth, R.J. (2007). Linguistic Inquiry and Word Count(LIWC): LIWC2007. Mahwah, NJ: Erlbaum Publishers.Python software foundation. (1990-2013). Python Programming Language – Official Website.[Online] http://python.org/ [15.03.2013].Sentiment. (2009). In Le Nouveau Petit Robert de la langue Française en ligne[11.02.2013].TASS 2013.(s.d.). Workshop on Sentiment Analysis at SEPLN. [Online]http://www.daedalus.es/TASS2012/about.php [18.02.2013].The Brat contributors. (2010-2012). Brat rapid annotation tool. [Online]http://brat.nlplab.org/ [14.04.2013].Tjong Kim Sang, E. & Bos, J. (2012) Predicting the 2011 Dutch Senate Election Results withTwitter, Proceedings of SASN 2012, the EACL 2012 Workshop on Semantic Analysis in Social Networks, Avignon, Frankrijk, 2012.Tumasjan, A. et al. (2010). Predicting Elections with Twitter: What 140 Characters Revealabout Political Sentiment, Proceedings of the Fourth AAAI conference on Weblogs and Social Media, 2010.Vintar, S. (2010). "Bilingual term recognition revisited. The bag-of-equivalents termalignment approach". Terminology, 16(2), 141-158.Vlaanderen kiest. [Databank van de verkiezingsuitslag van 2012].Http://www.vlaanderenkiest.be/verkiezingen2012/index.html [12.04.2013].Wiebe, J. (2002). Instructions for annotating opinions in newspaper articles. ComputerScience Technical Report TR-02-101 departement, Universiteit van Pittsburgh, Pittsburgh.Wiebe, J., Wilson, T. & Cardie C. (2005). Annotating expressions of opinions and emotionsin language. Language Resources and Evaluation (formerly Computers and the Humanities), 39(2/3), 164-210.Wilson, A. (2008). Fine-grained Subjectivity and Sentiment Analysis: Recognizing theIntensity, Polarity, and Attitudes of Private States. Ongepubliceerde scriptie. Universiteit van Pittsburgh, Pittsburgh.

Download scriptie (1.22 MB)
Universiteit of Hogeschool
Hogeschool Gent
Thesis jaar
2013