Behavioural profiling: Implementing the European cookie law

Mathias
Raets

PRIVACY OP HET WEB EN DE MOORD OP HET COOKIEMONSTER

Wanneer je aan het surfen bent op het internet kan je er niet meer aan ontsnappen: pop-ups, waarschuwingen, bijna dreigementen: “Opgelet, deze website bevat cookies”.
Dit is een gevolg van de Europese cookiewet, bedoeld om de privacy van mensen te beschermen. Cookies worden immers al jaren gebruikt om mensen te “tracken” op het internet. Op deze manier weten advertentiebedrijven welke websites je bezoekt. Zo kunnen ze reclame sturen die gebaseerd is op de webpagina’s waar je naartoe surft.

Deze thesis zoekt een alternatieve methode om mensen te volgen op het internet, een methode die geen inbreuk doet tegen de nieuwe cookiewet, zodat advertentiebedrijven toch door kunnen gaan met het sturen van reclame die is afgestemd op jouw interesses. Het is misschien al opgevallen dat wanneer je aan het surfen bent op het internet de advertenties lijken te weten wat je aan het doen bent: na het bezoeken van de website van Samsung krijg je plots reclame over de nieuwste smartphone, en als je op zoek bent naar een recensie van de laatste Tarantino-film word je overstelpt met advertenties voor Blu-rays.

De oorzaak hiervan is een techniek die Behavioural Profiling wordt genoemd: bedrijven proberen te volgen welke websites je bezoekt en gaan aan de hand daarvan advertenties tonen. Hiervoor wordt er typisch gebruik gemaakt van cookies. Cookies zijn kleine bestandjes die worden opgeslagen op je webbrowser. Ze zijn ontworpen om informatie bij te houden die nuttig is voor het bezoeken van een webpagina: ben je ingelogd, in welke taal wil je de pagina bekijken, welke producten zitten er in je winkelmandje,...

Ze kunnen echter ook gebruikt worden om je te herkennen wanneer je een webpagina bezoekt: bij een eerste bezoek wordt er een bestandje opgeslagen met een code in waaraan je herkend kan worden (zoals een soort barcode). Bij een volgend bezoek kan de webpagina je herkennen aan de hand van de code in de cookie. Advertentiebedrijven kunnen internetgebruikers herkennen over een heel netwerk van websites, zodat ze kunnen zien welke webpagina’s je bezocht hebt.

Het volgen van bezoekers over verschillende websites wordt door velen beschouwd als een inbreuk op de privacy, en daarom keurde de Europese Unie in 2009 de Europese Cookiewet goed. Deze wet verplicht websites om toestemming te vragen aan hun bezoekers om cookies te mogen gebruiken. Hierbij moeten de bezoekers ook ingelicht worden over de functie van de cookies. Op deze manier wil de Europese Unie de privacy van de internetgebruikers beschermen.

Een gevolg van deze cookiewet is dat webpagina’s hun bezoekers moeten inlichten indien ze cookies gebruiken voor advertentie-doeleinden, en vervolgens toestemming moeten krijgen om deze cookies te mogen plaatsen. Hierdoor zullen advertentiebedrijven veel minder in staat zijn om internetgebruikers te volgen over verschillende websites, met als gevolg dat ze minder accuraat kunnen voorspellen in welke advertenties ze geïnteresseerd zijn. Als resultaat hiervan zal er minder op advertenties geklikt worden, en dit betekent een verlies van inkomsten.

In deze thesis wordt er een alternatieve methode gezocht voor het herkennen van internetgebruikers zodat ze toch nog gevolgd kunnen worden over het internet zonder de cookiewet te schenden. In eerste instantie werd er op zoek gegaan naar bestaande technieken die hiervoor gebruikt kunnen worden. Na onderzoek van het domein werd er een taxonomie opgesteld. De taxonomie bestaat uit 4 types van technieken: lokale opslag, hardware, locatie en de webbrowser.

Methoden die gebruik maken van lokale opslag proberen een bezoeker te herkennen door die bezoeker een eigenschap te geven waardoor deze herkend kan worden; door een soort van naamkaartje op de bezoeker te kleven. Cookies zijn het bekendste voorbeeld van deze techniek. Lokale opslag mag sinds de cookiewet dus niet meer gebruikt worden zonder de toestemming van de bezoeker. De hardware-methoden proberen informatie op te vragen over het apparaat waarmee de webpagina bezocht wordt. Indien er nuttige informatie wordt verkregen kan deze opgeslagen worden. Bij een volgend bezoek wordt de apparatuur vergeleken met die van vorige bezoekers, zodat een terugkerende bezoeker herkend kan worden. Een derde methode maakt gebruik van de locatie vanaf waar iemand een webpagina bezoekt. Bij een bezoek wordt de locatie van de gebruiker opgevraagd en opgeslagen. Deze locatie kan vergeleken worden met de locaties van vorige bezoekers om in te schatten wie de huidige bezoeker is. De laatste methode maakt gebruik van je webbrowser (bijvoorbeeld Internet Explorer of Firefox). Deze methode probeert zoveel mogelijk informatie over je browser te weten te komen: bijvoorbeeld welke lettertypes geïnstalleerd zijn, of welke versie van browser je gebruikt. Indien er voldoende informatie beschikbaar is kan een bezoeker op deze manier uniek herkend worden.

Er moet echter rekening gehouden worden met het feit dat deze informatie kan veranderen, bijvoorbeeld na de installatie van een nieuw lettertype. Om een keuze te maken tussen deze technieken werden ze met elkaar vergeleken door gebruik te maken van criteria die speciaal voor deze vergelijking zijn opgesteld: bijvoorbeeld ‘Hoe uniek kan iemand herkend worden?’ en ‘Hoe lang duurt het om een overeenkomstig profiel te vinden’. Uit deze vergelijking bleek dat de webbrowser techniek de meest geschikte techniek is. Om te verifiëren in welke mate bezoekers nu écht herkend kunnen worden, werd er een webpagina gemaakt die bezoekers probeerde te herkennen aan de hand van de webbrowser-techniek. Hierbij werd er ook rekening gehouden met de inhoud van de pagina’s die bezocht werden (bijvoorbeeld sport, actualiteit,...) om een bezoeker te herkennen. Uit de test bleek dat 77% van de bezoekers correct werden herkend.

De cookiewet probeert het volgen van mensen op het internet aan banden te leggen. Deze thesis bewijst dat het verbieden van cookies onvoldoende is om dit te stoppen. Er zijn verscheidene alternatieve technieken beschikbaar. Deze worden in deze thesis uitvoerig met elkaar vergeleken, en hieruit blijkt dat browser fingerprinting de meest geschikte methode is. Deze methode werd ook effectief getest, en hieruit blijkt dat ondanks de cookiewet een groot deel van de bezoekers van een webpagina nog steeds herkend kan worden, en dus ook gevolgd kan worden over meerdere websites.

 

Bibliografie

[10g]

10gen. Mongodb. http://www.mongodb.org/. Accessed: april 2013.

[ATM+12]

Erwan Abgrall, Yves Le Traon, Martin Monperrus, Sylvain Gombault, Mario Heiderich, and Alain Ribault.arXiv preprintXss-fp:arXiv:Browser1211.4812fin-

gerprinting using html parser quirks. , pages 1–13, 2012.

[BE09]

Andrew J Blumberg and Peter Eckersley.Electronic FrontierOn locationalFoundationprivacy, and

how to avoid losing it forever. , pages

1–8, 2009.

[BFGI12]

K´aroly Boda, Ad´ ´am M´at´e Foldes,¨ G´abor Gyorgy¨ Guly´as, and

S´andor Imre.InformationUser trackingSecurityon theTechnologyweb viaforcross-browserApplications finger-

printing. In          , pages

31–46. Springer, 2012.

[Bla07]

Paul E. Black. Dictionary of Algorithms and Data Structures [online].

U.S. National Institute of Standards and Technology, December 2007. Accessed: april 2013, URL: http://xlinux.nist.gov/dads/ HTML/ratcliffObershelp.html.

[Bro12]

Ralph Broenink.Twente StudentUsing browserConferencepropertieson IT for fingerprinting pur-

poses. In              , 2012.

[Cas12]

Claude Castelluccia. BehaviouralEuropean DatatrackingProtection:on the Iinternet:n Good Health?A tech-

nical perspective. In        , pages 21–33. Springer, 2012.

[CEB+11]

Marco Casario, Peter Elst, Charles Brown,HTMLNathalie5 Solutions:Wormser,Essentialand

TechniquesCyril Hanquez.for HTMLHtml55Developerslocal storage.                In, pages 281–303. Apress, 2011.

[Com12]

European Commission. Cookies. http://online-behavior.com/

targeting/unintended-consequences-of-targeting-1461,      September 2012. Accessed: may 2013.

i

[Cro06]

Douglas Crockford. The application/json media type for javascript object notation (json). 2006.

[Cub12]

Nik Cubrilovic. Facebook and many other sites also by-

pass internet explorer privacy controls. www.nikcub.com/posts/ facebook-also-doesnt-honor-p3p, 2012. Accessed: may 2013.

[Dan12]

Brian Danchilla. Beginning WebGL for HTML5. Apress, Berkely, CA, USA, 1st edition, 2012.

[DMS04]

Roger Dingledine, Nick Mathewson,Proceedingsand Paul Syverson.of the 13thTor:USENTheIX second-generationSecurity Symposium onion router. In

, August 2004.

[Duo11]

A Proposal of a Cross-Browser User Tracking Method

withVu XuanBrowserDuong.Fingerprint . PhD thesis, Keio University, 2011.

[Eck10]

Privacy

PeterEnhancingEckersley.TechnologiesHow unique is your web browser?                In

, pages 1–18. Springer, 2010.

[ECM]

ECMAScript.org. Ecmascript language test262. http://test262.

ecmascript.org/. Accessed: april 2013.

[Ecm99]

ECMA (Euro-

peanECMAAssociationEcma. 262for: EcmascriptStandardizinglanguageInformationspecifiandcation.Communication

Systems), pub-ECMA: adr,, 1999.

[FK12]

Erik Flood and Joel Karlsson. Browser fingerprinting. Master’s thesis, Chalmers University of Technology, 2012.

[FL11]

M. FredriksonIEEEandSymposiumB. Livshits.on SecurityRepriv:andRe-envisioningPrivacy in-browser

privacy. In           , 2011.

[FMT+06] J. Franklin, D. McCoy, P. Tabriz, V. Neagoe, J.V. Randwyk, and D. Sic-

ker. PassiveProc.dataUSENlinkIX Securitylayer 802Symposium.11 wireless device driver fingerprin-

ting. In         , 2006.

[Fou] Electronic Frontier Foundation. Panopticlick. https://

panopticlick.eff.org/. Accessed: april 2013.

[Ger13] Eric Gerds. Browser plugin detection with plugindetect. http://

www.pinlady.net/PluginDetect/, November 2013. Accessed: may 2013.

[Goo] Google. V8 benchmark suite - version 7. http://v8.googlecode.

com/svn/data/benchmarks/v7/run.html. Accessed: april 2013.

HTML5 Geolocation

[Hol11]

Anthony T. Holdener. . O’Reilly Media, Inc., 1st edition, 2011.

[IEE13]

IEEE. Institute of electrical and electronics engineers - the world’s largest professional association for the advancement of technology. http://www.ieee.org, 2013. Accessed: april 2013.

[JBB92]

TCP extensions for

highV Jacobson,performanceR Braden, and D Borman. Rfc 1323.

, pages 1–38, 1992.

[JO10]

Artur Janc and Lukasz Olejnik. FeasibilityProceedingsand real-worldof W2SPimplicati-

ons of web browser history detection.  , 2010.

[JT09]

J.Buzek and A. Torstensson. Directive 2009/136/ec of the european parliament and of the council. Directive, The European parliament and the council of the European Union, November 2009.

[KBC05]

T. Kohno, A. Broido,Dependableand andK.C. SecureClaffy. Computing,Remote physicalIEEE Transactionsdevice fin-

gerprinting.on

, 2(2):93–108, 2005.

[Liv]

Ben Livshits. Repriv - microsoft research. http://research. microsoft.com/en-us/projects/repriv/. Accessed: april 2013.

[MBYS11]

Keaton Mowery, Dillon Bogenreif, Scott Yilek, and Hovav Shacham.Pro-

Fingerprintingceedings of Webinformation in javascript implementations. In

, volume 2, 2011.

[Mic]

Microsoft. Sql server 2012. http://www.microsoft.com/nl-nl/ Server-Cloud/sql-server/default.aspx. Accessed: april 2013.

[MRH+11]

Martin Mulazzani, Philipp Reschl, Markus Huber, Manuel Leithner, Sebastian Schrittwieser, Edgar Weippl, and FH Campus Wien. Fast and reliable browser identification with javascript engine fingerprinting. 2011.

[MS12]

Keaton Mowery and HovavIEEE ComputerShacham.SocietyPixel perfect:Security andFingerprin-Privacy Workshopsting canvas in html 5.

, pages 1–12, 2012.

[Nig]

Johnathan Nightingale. Every six weeks. http://blog.mozilla.

org/channels/2011/07/18/every-six-weeks/.             Accessed:            april 2013.

[NKJ+13]

Nick Nikiforakis, Alexandros Kapravelos, Wouter Joosen, Christopher Kruegel, Frank Piessens, and Giovanni Vigna. Cookieless monstatus:ster: Exploringacceptedthe ecosystem of web-based device fingerprinting.

, 2013.

[OCJ+12]

Lukasz Olejnik, Claude Castelluccia, Artur Janc, et al. Why johnny can’t browse in peace:5th WorkshopOn the uniquenesson Hot TopicsofinwebPrivacybrowsingEnhancinghistoryTechnologiespatterns.(HotPETsIn 2012)

, 2012.

[Pat07]

Lalit Patel. Javascript/css font detector. http://www.lalit.org/ lab/javascript-css-font-detect/, March 2007. Accessed: may 2013.

[Pro12a]

Emil Protalinski. Facebook to microsoft: P3p is outdated, what else ya got? http://www.zdnet.com/blog/facebook/ facebook-to-microsoft-p3p-is-outdated-what-else-ya-got/ 9332, 2012. Accessed: may 2013.

[Pro12b]

Emil Protalinski. Not just google: Facebook also bypasses privacy settings in ie. http://www.zdnet.com/blog/facebook/ not-just-google-facebook-also-bypasses-privacy-settings-in- ie/ 9302, 2012. Accessed: may 2013.

[RMHW11] Philipp           Reschl,  Martin  Mulazzani,          Markus Huber,  and        Edgar

Weippl.        EfficientAnnualbrowserComputeridentiSecurityfication Applicationswith javascriptConferenceengine fi(ACSACngerprinting. )

, pages 1–2, January 2011.

[SHS12] Swati Sharma, Alefiya Hussain, and Huzur Saran. ExperienceProceedingswith heterogenousof the 2012clock-skewWorkshop onbasedLearningdevicefromfingerprinting.AuthoritativeInSecu-

rity Experiment Results, pages 9–18. ACM, 2012.

[Soc12] IEEE Computer Society. IEEE Std. 802.11-2012. IEEE, 2012.

[SW48] Claude Elwood Shannon and Warren Weaver. A mathematical the-

ory of communication, 1948. American Telephone and Telegraph Company.

[W3C]   W3C.     World wide web consortium (w3c). www.w3.org.            Accessed:

april 2013.

[Wai10] Isaac Waisberg. Unintended consequences of targeting: Less in-

formation, less serendipity - part i. http://ec.europa.eu/ipg/ standards/cookies/index_en.htm, December 2010. Accessed: april 2013.

[WCJJ11]

Zachary Weinberg, Eric Y Chen, Pavithra Ramesh Jayaraman, and Collin Jackson. I still know what you visited last summer: Leaking browsingSecurity andhistoryPrivacyvia (userSP), 2011interactionIEEE Symposiumand side channelon attacks. In

, pages 147–161.

IEEE, 2011.

[Web]

WebKit. Sunspider javascript benchmark. http://www.webkit.

org/perf/sunspider/sunspider.html. Accessed: april 2013.

[Wen07]

Rigo Wenning. Platform for privacy preferences (p3p) project.

http://www.w3.org/P3P/, 2007. Accessed: may 2013.

[WF05]

Data Mining:     Practical machine

Ilearningan H Wittentools andandtechniquesEibe Frank.

. Morgan Kaufmann, 2005.

[WS03]

Mason Woo and David Shreiner. OpenGL Programming Guide: The

Official Guide to Learning OpenGL, Version 1. 4 .               Addison-Wesley

Longman Publishing Co., Inc., Boston, MA, USA, 4 edition, 2003.

[YHMR09] Ting-Fang Yen, Xin Huang, Fabian Monrose, and Michael K Rei-

ter. Browser fingerprinting fromDetectioncoarseoftraIntrusionsffic summaries:and Malware,Techniquesand Vulnerabilityand implications.AssessmentIn

, pages 157–175. Springer, 2009.

Download scriptie (256.55 KB)
Universiteit of Hogeschool
Universiteit Hasselt
Thesis jaar
2013