Het gebruik van Computer Vision API's voor de beschrijving van cultureel-erfgoedcollecties

Nastasia Vanderperren
In deze bachelorproef werd onderzocht of Computer Vision API’s zoals Clarifai, Google Cloud Vision of Microsoft Computer Vision gebruikt kunnen worden om museummedewerkers te ondersteunen bij het beschrijven van cultureel-erfgoedobjecten. Het registreren van beelden vraagt immers veel werk. Computer Vision API’s zijn sneller dan menselijke registratoren en kunnen een inhaalbeweging realiseren. Die API’s worden echter getraind met hedendaagse beelden waardoor het niet geweten is hoe goed ze zijn in het beschrijven van historische beelden.

Computers met artificiële intelligentie beschrijven museumcollecties

Je hebt vast al eens een foto getrokken met je smartphone. Maar heb je ook al eens in je fotobibliotheek gezocht naar foto’s met de zoekfunctie? Als je in de zoekbalk van Google Photos of Apple Photos 'honden' intikt, dan wordt in je fotobibliotheek gezocht naar alle foto’s waar een hond op staat. Dit is een techniek die beeldherkenning genoemd wordt en die ons helpt bij het organiseren en zoeken van foto’s en video’s.

Schermafbeelding 2019-10-06 om 22.05.18 0

Probleemstelling

De Vlaamse musea bewaren ook veel digitale beelden. Het ontbreekt hen echter aan tijd en mankracht om die beelden te voorzien van metadata of tags. Nochtans is het zoeken of vinden van die digitale beelden moeilijk als je bij de zoekactie geen gebruik kunt maken van trefwoorden. Dit verschilt van digitale tekstbestanden, waarbij op basis van full text search bestanden teruggevonden kunnen worden. Het gevolg is dat slechts een deel van de beelden beschreven werden en dat musea over een grote hoeveelheid beelden beschikken die niet gebruikt of ontsloten kunnen worden.

Bij de beelden die wel beschreven werden, zijn de beschrijvingen meestal beperkt tot formele en administratieve gegevens die nodig zijn voor het beheer van de collectiestukken. Registratie is immers tijdrovend werk dat door domeinexperten gedaan wordt. Voor het beschrijven van inhoudelijke informatie zoals afgebeelde personen of objecten, emoties en sfeer ontbreekt het de musea aan tijd en personeel, terwijl dat net de informatie is die interessant is voor het publiek en onderzoek.

In de bachelorproef werd daarom onderzocht of beeldherkenning de museummedewerkers kunnen bijstaan in het beschrijven van  hun collecties. Beeldherkenningssoftware is er de laatste jaren enorm op vooruitgegaan en wordt ook steeds eenvoudiger in gebruik.

Computer Vision

Computer Vision is het onderzoeksveld waarin technieken ontwikkeld worden om computers te helpen bij het zien en begrijpen van de inhoud van digitale beelden zoals foto’s en video’s. Het is een deelgebied van Artificiële Intelligentie (AI). Computer Vision wordt met succes toegepast voor een breed scala van uitdagingen zoals inspectie van machines,  geautomatiseerde kassa-afrekeningen in de retail, medische beeldvorming, bewaking en politieonderzoek en het assisteren van mensen bij het identificeren van de inhoud van een foto of video.

Beeldherkenning is een techniek binnen computer vision. Hiervoor wordt de AI-toepassing een model aangeleerd dat bestaat uit het geheel van concepten die het moet herkennen. Dat wordt gedaan aan de hand van een trainingset. Als je wil dat het een bus herkent, dan bestaat de trainingsset uit verschillende voorbeelden van een bus, maar ook van wat een bus niet is. Wanneer, na de training, het model nieuwe beelden ziet, zou het moeten kunnen zeggen of het afgebeelde object een bus is of niet. Als de AI-toepassing nog andere objecten moet herkennen, dan moet het nieuwe trainingsbeelden krijgen, bijvoorbeeld foto’s van een fiets om te leren wat een fiets is.

Google, Amazon, Microsoft en Clarifai bieden beeldherkenningsdiensten aan die het mogelijk maken om Computer Vision te gebruiken, zonder dat je een expert in AI moet zijn. Deze diensten zijn al getraind, waardoor het niet nodig is om zelf trainingsbeelden te voorzien en modellen te trainen. Daarnaast kan je ook zelf in de meeste van deze diensten eenvoudig een eigen model creëren. 

Case study

Beeldherkenningsdiensten zijn doorgaans getraind met hedendaagse beelden, waaronder de foto’s die we dagelijks maken en opslaan in hun cloudinfrastructuur. We  wisten daarom niet hoe goed deze diensten zijn in het beschrijven van historische foto’s. Dit werd onderzocht aan de hand van een case study met historische foto’s van het Gentse museum Huis van Alijn. We testten ook uit hoe eenvoudig het is om de beeldherkenningsdiensten te gebruiken en om eigen modellen te bouwen. Kunnen museummedewerkers zonder IT-kennis hier zelf mee aan de slag?

Huis van Alijn heeft een grote fotocollectie over het dagelijkse leven in België in de twintigste eeuw. Om de foto’s te kunnen ontsluiten of te doorzoeken, heeft het museum nood aan gegevens die een idee geven van wat er op het beeld staat. De foto’s worden door het museum ingedeeld in thema’s (bv. huwelijk, vakantie en speelgoed) en decennia (bv. 50s, 60s). Het zou voor het museum een enorme hulp zijn als via beeldherkenning de foto’s voorzien worden van beschrijvingen en ingedeeld in het juiste thema en periode.

Aan Huis van Alijn werd voorgesteld om drie cases te onderzoeken:

  • Het automatisch beschrijven van iedere foto - in de vorm van tags - door het ingebouwde model van de beeldherkenningsdienst. De tags werden vergeleken met de bestaande beschrijvingen van de museumregistratoren.
  • Het classificeren van de foto’s in de thema’s van Huis van Alijn. Hiervoor werd een eigen model gecreëerd en werd de beeldherkenningsdienst getraind.
  • Het indelen van de foto’s in het decennium waarin ze gemaakt werden. Ook hiervoor werd een custom model ontwikkeld en werd de CV API getraind.

Resultaten

clarifai kopie 0

We stelden vast dat de beeldherkenningsdienst eenvoudig in gebruik is en geschikt om twee van de drie cases goed uit te voeren. Ongeveer 70% van de tags die het ingebouwde model van beeldherkenningsdienst aanleverde, waren correct. Het scoorde vooral goed op universele thema's, zoals geboorte, huwelijk en vakantie. We merkten ook dat heel andere termen gegeven werden dan gangbaar zijn in de registratiepraktijk, zoals tags die de sfeer, emoties en kleur van de foto's weergeven. Bij foto's van lokale tradities, zoals Sinterklaas, werd ervaren dat het model in de VS gemaakt was. Hierop scoorde het ondermaats.

Voor het classificeren van de foto’s per thema volstond het ingebouwde model niet. Het zelfgemaakte Themamodel, dat de foto's moest indelen volgens thema, deed dit wel goed (bijna 90% correctheid). Voor het indelen van de foto's volgens decennium was de trainingset te beperkt. Een pijnpunt tijdens het trainen was immers de kleine en ongelijke set beelden. Dat is echter een gangbaar fenomeen in erfgoedcollecties.

performantie themamodel

Conclusie

Museumregistratoren hoeven nog niet voor hun job te vrezen. Vooralsnog zijn ze preciezer en correcter dan beeldherkenningsdiensten. Niettemin kunnen de diensten een goede aanvulling zijn en het werk van de registrator verlichten. De kracht van de beeldherkenningsdiensten ligt vooral in hun snelheid en het aanleveren van andere soort termen, zoals beschrijven van sfeer.

Bibliografie

Agentschap Kunsten en Ergoed (Red.). (2014). Handleiding bij het Cultureel-Erfgoeddecreet: Het Kwaliteitslabel.

Blessings, A. & Wen, K. (2013). Using Machine Learning for Identification of Art Paintings. Stanford University.

Brownlee, J. (2017, juli 14). What is the Difference Between Test and Validation Datasets? Verkregen 21 maart 2019, van https://machinelearningmastery.com/difference-test-validation-datasets/

Brownlee, J. (2019a, maart 19). A Gentle Introduction to Computer Vision. Verkregen 21 maart 2019, van https://machinelearningmastery.com/what-is-computer-vision/

Brownlee, J. (2019b, mei 1). A Gentle Introduction to the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Verkregen 21 juni 2019, van https://machinelearningmastery.com/introduction-to-the-imagenet-large-s…

Clairbot. (2019). General FAQ | Clarifai Help Center. Verkregen 24 juni 2019, van http://help.clarifai.com/articles/687603-general-faq

Clarifai. (n.d.-a). API Guide. Verkregen 2 juli 2019, van http://developer-dev.clarifai.com/developer/guide/

Clarifai. (n.d.-b). General Model | Clarifai. Verkregen 2 juli 2019, van https://www.clarifai. com/models/general-image-recognition-model-aaa03c23b3724a16a56b629203edc62c# documentation

Departement Cultuur, Jeugd en Media. (2018, juli 12). Inhaalbeweging voor digitale collectieregistratie. Verkregen 8 december 2018, van http://www.kunstenenerfgoed.be/nl/nieuws/inhaalbeweging-voor-digitale-c…

Derveaux, A. (2019). Beeldherkenning in de registratiepraktijk. Verkregen 22 juni 2019, van https://www.fotomuseum.be/collectie/onderzoek0/projecten/Beeldherkennin…

Dickson, A. (2018, juli 20). A.I. and the Art of Spotting Fakes. Verkregen 1 april 2019, van https://medium.com/s/story/a-i-and-the-art-of-spotting-fakes-6a674b0bdf…

Dickson, A. (2019, maart 29). A.I. Will Enhance - Not End - Human Art. Verkregen 1 april 2019, van https://onezero.medium.com/a-i-will-enhance-not-end-human-art-f575e9ff9…

Elgammal, A. (2017, november 16). Picasso, Matisse, or a Fake? A.I. for Attribution and Authentication of Art at the Stroke Level. Verkregen 4 april 2019, van https://medium.com/@ahmed_elgammal/picasso-matisse-or-a-fake-a-i-for-at…- and-autehntication-of-art-at-the-stroke-level-f4ec329c8c26

Elgammal, A., Mazzone, M., Liu, B., Kim, D. & Elhoseiny, M. (2018). The Shape of Art History in the Eyes of the Machine. Rutgers University en College of Charlston.

Fraser, M. (2018, maart 14). Using Google Cloud AutoML to classify poisonous Australian spiders. Verkregen 9 december 2018, van https://shinesolutions.com/2018/03/14/using-google-cloud-automl-vision-…

Gatz, S. (2016, maart). Conceptnota aan de Vlaamse Regering. Naar een duurzame cultureel-erfgoedwerking in Vlaanderen. Een langetermijnvisie voor cultureel erfgoed en cultureel-erfgoedwerking in Vlaanderen. Vlaamse Regering.

Gong, K. (2017, november 13). Best Practices for Custom Models in Watson Visual Recognition. Verkregen 5 maart 2019, van https://medium.com/ibm-watson/best-practices-for-custom-classifiers-in-…

Haskiya, D. (2019, april 9). How to set up a generous interface prototype in less than a day. Verkregen 1 april 2019, van https://pro.europeana.eu/post/how-to-set-up-a- generous-interface-prototype-in-less-than-a-day

Heemkunde Vlaanderen. (2011, november 7). Huis van Alijn zoekt taggers (m/v) voor beschrijven van anonieme snapshots. Verkregen 11 augustus 2019, van https://www.heemkunde-vlaanderen.be/huis-van-alijn-zoekt-taggers-mv-voo…

Hindle, A. (2017, juni 20). Automated image analysis with IIIF: Using Artificial Intelligence for bulk image analysis. Verkregen 8 december 2018, van https://blog.cogapp. com/automated-image-analysis-with-iiif-6594ff5b2b32

ING. (2016). The Next Rembrandt. Verkregen 8 april 2019, van https://www.nextrembrandt.com/

Koehrsen, W. (2018, maart 3). Beyond Accuracy: Precision and Recall. Verkregen 6 augustus 2019, van https://towardsdatascience.com/beyond-accuracy-precision-and-recall-3da…

Lardinois, F. (2018, januari 17). Google’s AutoML lets you train custom machine learning models without having to code. Verkregen 17 juni 2019, van https://techcrunch.com/2018/01/17/ googles-automl-lets-you-train-custom-machine-learning-models-without-having-to-code

Lievens, S. (2017). Artificiële Intelligentie: Lesnota’s. Cursustekst HoGent Bedrijf en Organisatie.

Mensink, T. E. J. & van Gemert, J. C. (2014). The Rijksmuseum Challenge: Museum-Centered Visual Recognition. In ACM International Conference on Multimedia Retrieval.

MoMA. (2018). Identifying art through machine learning: A project with Google Arts & Culture Lab. Verkregen 8 december 2018, van https://www.moma.org/calendar/exhibitions/history/identifying-art

Moriarty, A. (2018, juli 23). AI and Museum Collections. Verkregen 26 april 2019, van https://medium.com/@adamrmor/ai-and-museum-collections-c74bdb724c07

Nasjonalmuseet. (2017). Project: "Principal Components". Verkregen 8 december 2018, van http://www.nasjonalmuseet.no/en/collections_and_research/collection_man… Components%C2%BB.b7C_wJjU4L.ips

Oberoi, G. (2016, juli 11). Comparing the Top Five Computer Vision APIs. Verkregen 9 december 2018, van https://goberoi.com/comparing-the-top-five-computer-vision- apis-98e3e3d7c647

Pim, H. (2018a, oktober 18). A new kind of image search. Verkregen 20 april 2019, van https://stacks.wellcomecollection.org/a-new-kind-of-image-search-5870c2…

Pim, H. (2018b, oktober 17). Exploring Wellcome Collection with computer vision. Verkregen 20 april 2019, van https://stacks.wellcomecollection.org/exploring-wellcome- collection-with-computer-vision-7513dff8126d

Pokharna, H. (2016, juli 26). For Dummies - The Introduction to Neural Networks we all need ! (Part 1). TechnologyMadeEasy. Verkregen 16 juni 2019, van https://medium.com/technologymadeeasy/for-dummies-the-introduction-to-n…

Raval, S. (2017, november 15). YOLO Object Detection (TensorFlow tutorial). Verkregen 21 maart 2019, van https://youtu.be/4eIBisqx9_g

Roddis, T. (2018, mei 16). When automated analysis goes wrong. Verkregen 8 december 2018, van https://www.slideshare.net/Europeana/when-automated-analysis-goes-wrong…

Rowe, P. (2017, oktober 31). Looking at Sarjeant Gallery’s collection through robot eyes. Verkregen 20 april 2019, van https://medium.com/@armchair_caver/looking-at-sarjeant-gallerys-collect…

Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., . . . Fei-Fie, L. (2014). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision - September 2014.

Sabatteli, M., Kestemont, M., Daelemans, W. & Geurts, P. (2018). Deep Transfer Learning for Art Classification Problems. Université de Liège en Universiteit Antwerpen.

Smith, R. P. (2017, november 3). How Artificial Intelligence Could Revolutionize Archival Museum Research. Verkregen 8 december 2018, van https://www.smithsonianmag.com/smithsonian-institution/how-artificial-i…

Stewart, M. (2019, februari 27). Simple Introduction to Convolutional Neural Networks. Verkregen 1 maart 2019, van https://towardsdatascience.com/simple-introduction-to-convolutional-neu…

Tsang, S.-H. (2018, augustus 19). Review: ZFNet - Winner of ILSVRC 2013 (Image Classification). Verkregen 2 juli 2019, van https://medium.com/coinmonks/paper-review-of-zfnet-the-winner-of-ilsvlc…

INSIGHT. (2017). Verkregen 8 december 2018, van http://uahost.uantwerpen.be/insight/index.php/about/

Vanstappen, H. (2019). VR4CH: Visual recognition voor erfgoedcollecties: Eindrapport. Datable. Verkregen 15 augustus 2019, van http://www.datable.be/wp-content/uploads/2019/08/VR4CH_rapport_1-0.pdf

Vu, K. (2018, november 29). Beginner’s Guide: Image Recognition And Deep Learning. Verkregen 10 maart 2019, van https://dzone.com/articles/beginners-guide-image-recognition-and-deep-l…

Westvang, E. (2017). Principal Components: Machine learning in search of the uncanny. Verkregen 8 december 2018, van http://bengler.no/principalcomponents

Wiericx, B. (2011, augustus 9). Crowdsourcing in het Huis van Alijn. Verkregen van https://faro.be/blogs/bram-wiercx/crowdsourcing-in-het-huis-van-alijn

Wikipedia contributors. (2019a). Computer vision — Wikipedia, The Free Encyclopedia. Verkregen 15 juni 2019, van https://en.wikipedia.org/w/index.php?title=Computer_ vision&oldid=896283892

Wikipedia contributors. (2019b). ImageNet — Wikipedia, The Free Encyclopedia. Verkre- gen 26 juni 2019, van https://en.wikipedia.org/w/index.php?title=ImageNet&oldid= 900080629

Universiteit of Hogeschool
Toegepaste Informatica
Publicatiejaar
2019
Promotor(en)
Koen Mertens, Henk Vanstappen
Kernwoorden
https://twitter.com/nvanderperren
Share this on: