Gebruik van semantisch-webtechnologieën voor (semi-)automatische metadatageneratie bij multimediale data

Ruben
Verborgh

Intelligente internet helpt je slimmer zoeken
Zoek je de laatste nieuwtjes over Johnny Depp of Keira Knightley? Google is je vriend: in een fractie van een seconde schotelt de zoekrobot je alle pagina's over deze filmsterren voor. Dit komt omdat Google iedere internetpagina op voorhand heeft gelezen en ingedeeld per onderwerp. Maar hoe werkt het dan als je afbeeldingen wil van deze acteurs? In zijn masterscriptie schrijft Ruben Verborgh hoe het intelligente internet Google kan helpen om foto's te vinden.
 
Momenteel doorloopt Google alle pagina's en verzamelt de afbeeldingen hierop aan de hand van de tekst die erbij staat. Dit is echter niet steeds een goede indicatie voor inhoud van de afbeelding zelf. Als je zoekt op "Johnny Depp Keira Knightley", vind je enkel webpagina's waarop iets over beide celebrities staat. Bij de afbeeldingen zie je echter vanalles, waaronder verbazend genoeg zelfs foto's van Angelina Jolie en Daniel Craig. Blijkbaar helpt de tekst op de pagina Google niet genoeg om de foto's te begrijpen. Google weet alles over teksten, maar zo weinig over afbeeldingen?
 
Laat ons in gedachten even zelf voor Google spelen: wij zijn de bibliothecaris van het hele internet, en een vrouw aan de balie vraagt ons om een foto van haar twee favoriete filmsterren. Daarom hebben we de afgelopen week - of zeg maar 10 jaar - alle foto's op het hele internet bekeken, genummerd, gezichten herkend en het nummer bij de juiste naam geplaatst in een lange lijst. Een reuzenwerk, maar het lukt, tenminste voor de mensen die we herkennen. Hoe komen we dan te weten wie de vreemde man met baard naast Angelina Jolie is? En hoe heet de jongste dochter van Prins Filip nu weer? Dankzij Wikipedia kunnen we ook Brad Pitt en prinses Eléonore aan de lijst toevoegen.
 
In zijn masterscriptie aan de Universiteit Gent dacht Ruben Verborgh na over hetzelfde probleem, maar vroeg zich af hoe computers dit langdurige en vervelende werk in onze plaats kunnen uitvoeren. Hij stootte daarbij op enkele belangrijke problemen. Er bestaan wel een hoop programma's die mensen herkennen, maar die werken nog niet echt betrouwbaar. Sinds kort probeert Facebook bijvoorbeeld ook om je vrienden automatisch te taggen in je fotoalbum. Met de nadruk op "probeert", want de software heeft het wel vaker bij het verkeerde eind. Gelukkig laat Facebook je zelf kiezen of je de suggesties aanvaardt, zodat je kleine zusje niet per ongeluk aanwezig lijkt op die uitgangsavond met je vrienden. Maar zelfs voor een gigantisch bedrijf als Google is het onmogelijk om genoeg mensen in te schakelen om de dagelijkse stroom aan miljoenen nieuwe afbeeldingen te bekijken.
 
Mocht Google slim genoeg zijn om zelf Wikipedia te lezen, dan zou hij die herkenningsprogramma's kunnen bijsturen zodat menselijke hulp overbodig wordt. Als je weet dat Angelina trouwde met Brad en dat prins Filip een dochtertje van 2 jaar opvoedt, lijkt het plots een stuk makkelijker om iedereen op de foto te herkennen. Eén probleem: hoewel Google maandelijks alle woorden uit Wikipedia haalt, begrijpt hij niet wat de artikels betekenen. Als je zoekt op "koningin Paola", zoekt hij gewoon naar pagina's met "koningin" en "Paola", maar niet naar "koningin van België". Gelukkig bestaat er ook zoiets als DBpedia, een soort Wikipedia voor computers, waarop alle artikels vertaald staan in computertaal. DBpedia vormt een onderdeel van het semantisch web, het toekomstige intelligente internet dat men ook wel "Web 3.0" noemt, de volgende evolutie van de digitale snelweg.
 
Dit bracht Ruben, student computerwetenschappen, op het idee om een programma te schrijven dat - net zoals mensen - op het internet kan surfen om namen van mensen aan foto's te koppelen. Daarna is het een koud kunstje voor Google om die foto's tevoorschijn te halen als je zoekt naar deze mensen. Nieuw aan deze techniek is dat niet alleen de informatie uit de afbeelding zelf, maar de informatie uit het hele internet wordt ingeschakeld om zoekopdrachten te vervullen. Hierdoor krijg je betere resultaten dan wanneer enkel de tekst van de bronpagina meespeelt.
 
Het programma werd getest op verschillende foto's en blijkt aardig te werken, ook wanneer je de gezichten op de foto moeilijk kan herkennen door schaduwen of onscherpte. Net zoals Wikipedia, weet DBpedia vanalles over de meest uiteenlopende onderwerpen en kan daardoor zeer verschillende situaties onderscheiden. De samenwerking tussen het herkenningsprogramma en het intelligente internet maakt computers dus werkelijk een pak slimmer. Daarnaast kan het programma ook informatie halen uit je Facebookprofiel, zodat hij je vrienden kent (en je kleine zusje). De pixels in de foto komen op die manier tot leven voor Google en andere zoekrobotten.
 
In de nabije toekomst komen er nog interessante uitdagingen: kunnen we het intelligente internet ook gebruiken om bijvoorbeeld dieren en voorwerpen te herkennen? Is het mogelijk om ook gezichten in YouTube-video's of stemmen in iTunes-liedjes te herkennen? Eén ding staat vast: het intelligente internet zal de manier waarop mensen informatie vinden voor altijd veranderen.

Bibliografie

Beknopte bibilografie 

Tim Berners-Lee, James Hendler, and Ora Lassila. “The Semantic Web”. In: Scientific American 284.5 (2001), p. 34. ISSN: 00368733. URL: http://search.ebscohost.com/login.aspx?direct=true&db=buh&AN=4328935&lo….

 
Christian Bizer et al. “DBpedia - A crystallization point for the Web of Data”. In: Web Semant. 7.3 (2009), pp. 154–165. ISSN: 1570-8268. DOI: http://dx.doi.org/10.1016/j.websem.2009.07.002.
 
Jelena Tešic ́.“Metadata Practices for Consumer Photos”. In: IEEE MultiMedia 12.3 (2005), pp. 86–92. ISSN: 1070-986X. DOI: http://dx.doi.org/10.1109/MMUL.2005. 50.
 
Paul Viola and Michael J. Jones. “Robust Real-Time Face Detection”. In: International Journal of Computer Vision 57.2 (May 1, 2004), pp. 137–154. ISSN: 0920-5691. DOI: 10. 1023/B:VISI.0000013087.49260.fb.
 
Steven Verstockt et al. “Actor recognition for interactive querying and automatic an- notation in digital video”. In: IASTED International conference on Internet and Multimedia Systems and Applications, 13th, Proceedings. Honolulu, HI, USA: ACTA Press, 2009, pp. 149–155.
 
Ruben Verborgh et al. "SPARQL Endpoints as Front-end for Multimedia Processing Algorithms". In: Service Matchmaking and Resource Retrieval in the Semantic Web (November 8, 2010) - accepted.
 
Uitgebreide bibliografie
 
Zie bijlage.

Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2010