Automated recognition of people and identification of animal species in camera trap images

Laura Hoebeke Michiel Stock Stijn Van Hoey Jim Casaer
In deze masterthesis werd een convolutioneel neuraal netwerk getraind om mensen te herkennen en dieren te identificeren in cameravalbeelden. Cameravallen worden namelijk steeds vaker gebruikt om dieren in het wild te monitoren, maar het verwerken van het enorme aantal beelden vormt hierbij nog een knelpunt. Bovendien is het omwille van privacyredenen noodzakelijk om foto's van toevallige voorbijgangers te verwijderen alvorens de beelden publiek gemaakt kunnen worden.

Wat staat er op de foto? - Everzwijn gespot!

U heeft ze misschien al zien hangen, kleine bakjes bevestigd aan bomen. Deze bakjes bevatten een camera die gebruikt wordt om dieren te fotograferen. Ze zijn uitgerust met een warmtegevoelige bewegingsdetector zodat er een foto gemaakt wordt wanneer een dier voor de camera passeert. De bewegingsdetector van deze cameravallen reageert echter niet enkel op dieren, maar ook op andere bewegingen zoals mensen en takken. Als u zo’n camera al eens van dichtbij bent gaan bekijken, heeft deze waarschijnlijk een foto van u gemaakt. Ook voorbijgangers die de camera niet opmerken, kunnen ongewild gefotografeerd worden. Wanneer deze foto’s publiek gemaakt worden, stelt zich een belangrijk privacyprobleem. In mijn thesis heb ik een computermodel ontwikkeld om dieren in cameravalbeelden te herkennen en uw privacy veilig te stellen.

image-20180924110958-1

Waarom worden cameravallen gebruikt?Cameravalbeeld van twee everzwijnen in het Nationaal Park Hoge Kempen.

Het gebruik van cameravallen is een manier om dieren in het wild op te volgen. Het grote voordeel van cameravallen in vergelijking met andere technieken zoals het gebruik van zenders of markeringen is dat dieren niet verstoord moeten worden om informatie te verzamelen. Het is niet meer nodig dieren te vangen of te verdoven om ze van een halsband te voorzien om hun positie te volgen. Hoewel sommige dieren de camera wel opmerken, ondervinden ze hier geen hinder van. Bovendien kan informatie verzameld worden zonder dat iemand aanwezig moet zijn om de dieren te observeren. De camera’s maken zowel overdag als ‘s nachts foto’s die dan achteraf onderzocht kunnen worden.

Begin dit jaar werden cameravallen bijvoorbeeld gebruikt om de terugkeer van de wolf naar Vlaanderen te bevestigen. Wolvin Naya en later ook haar partner August konden door het gebruik van cameravallen op beeld vastgelegd worden. Ook everzwijnen worden gemonitord met cameravallen. Hoewel de terugkeer van het in Vlaanderen uitgestorven everzwijn gezien kan worden als een succes, vrezen boeren voor schade aan hun gewassen. Ook tuinen gelegen in het leefgebied van de everzwijnen worden omgewoeld en een teveel aan everzwijnen kan problemen voor het natuurbeheer met zich meebrengen. In het Nationaal Park Hoge Kempen wordt de populatie everzwijnen gemonitord om meer informatie te verzamelen over hun verspreiding, voortplanting en gedrag om zo een goed beheer te kunnen uitstippelen.

Het verwerken van de cameravalbeelden vormt echter nog een knelpunt bij het gebruik van cameravallen. Cameravallen produceren namelijk enorme aantallen foto’s en het bekijken ervan neemt veel tijd in beslag.

 

Citizen science

Om het grote aantal cameravalbeelden te verwerken, kan een beroep gedaan worden op citizen science, ook wel burgerwetenschap genoemd. Hierbij bekijken vrijwilligers via het internet de cameravalbeelden en geven aan wat er op te zien is. De inzet van deze vrijwilligers is voor heel wat projecten van groot belang. ‘s Werelds grootste online platform voor citizen science, Zooniverse, kent meer dan een miljoen vrijwilligers. Er is voor ieder wat wils te vinden tussen de projecten van over heel de wereld met diverse onderwerpen gaande van geneeskunde over astrologie tot kunst. Aan de hand van eenvoudige instructies kan iedereen de foto’s, video’s en audiofragmenten helpen labelen, zonder dat enige voorkennis noodzakelijk is.

Omwille van privacyredenen mogen cameravalbeelden die voorbijgangers bevatten echter niet publiek gemaakt worden. Foto’s van mensen moeten uit de databank verwijderd worden alvorens deze online beschikbaar gesteld kan worden aan vrijwilligers. In mijn onderzoek heb ik dit proces geautomatiseerd.

 

Artificiële hersenen onderscheiden mensen van dieren

Om het manuele werk bij het verwerken van cameravalbeelden te reduceren, werd een computermodel ‘getraind’ om mensen en dieren te herkennen. De opbouw van het model, een neuraal netwerk, is geïnspireerd op het menselijk brein. Het computermodel van de hersenen, dat oorspronkelijk bedoeld was voor medische doeleinden, bleek in staat te zijn te leren. Net zoals je een kind kan leren hoe verschillende dieren eruitzien door het foto’s van deze dieren te tonen, kan een neuraal netwerk ook leren mensen en dieren te herkennen door het voldoende voorbeelden te geven.

Het model is in staat mensen te herkennen zodat foto’s van toevallige voorbijgangers verwijderd kunnen worden en de dataset daarna online geplaatst kan worden zonder dat hun privacy geschonden wordt. Daarnaast werd het model ook getraind om lege beelden aan te wijzen zodat ook deze verwijderd kunnen worden. De bewegingsdetector reageert namelijk bijvoorbeeld ook op takken die door de wind heen en weer bewegen. Het automatisch verwijderen van deze beelden zorgt voor een grote tijdsbesparing aangezien ongeveer de helft van de beelden die door cameravallen gemaakt worden, beelden zijn waarop geen dieren staan. Door het verwijderen van deze lege beelden wordt het aantal foto’s dat bekeken moet worden al gehalveerd en is het labelen van de beelden bovendien minder saai voor de vrijwilligers.

Het model classificeert de beelden in verschillende stappen. Eerst wordt er nagegaan of er iets op de foto staat. Daarna wordt bepaald of het om een mens of een dier gaat. Voor dieren wordt er vervolgens onderscheid gemaakt tussen zoogdieren en vogels, waarna de zoogdieren nog verder onderverdeeld worden in de verschillende diersoorten. Wanneer in de toekomst nog meer gelabelde cameravalbeelden als voorbeeld aan het model gegeven kunnen worden, kan deze gedetailleerde classificatie nog verder verbeterd worden. Cameravalbeelden tonen dieren namelijk onder zeer verschillende omstandigheden en de dieren zijn niet altijd even goed zichtbaar op de foto’s. Soms staat enkel het hoofd of de achterkant op de foto, is het dier gedeeltelijk verborgen achter een boom of zorgen regendruppels op de camera voor onduidelijke foto’s. Het model moet dieren dus in al deze verschillende situaties kunnen identificeren.

Om meer gelabelde beelden te verkrijgen is een wisselwerking met citizen science voordelig. Het model kan gebruikt worden om foto’s waarop mensen staan uit de dataset te verwijderen, waarna vrijwilligers de overige foto’s kunnen labelen. Deze gelabelde beelden kunnen dan weer gebruikt worden om het model verder te trainen waardoor het de verschillende diersoorten beter leert herkennen.

 

Dit onderzoek werd uitgevoerd aan onderzoekseenheid KERMIT onder leiding van Bernard De Baets en Michiel Stock en is in samenwerking met Stijn Van Hoey en Jim Casaer van het Instituut voor Natuur- en Bosonderzoek. De gebruikte cameravalbeelden zijn afkomstig uit het doctoraatsonderzoek van Jolien Wevers aan de Universiteit Hasselt.

 

Bibliografie

Bonney, R., Cooper, C. B., Dickinson, J., Kelling, S., Phillips, T., Rosenberg, K. V., and Shirk, J. (2009). Citizen science: A developing tool for expanding science knowledge and scientific literacy. BioScience, 59(11):977–984.

Burton, A. C., Neilson, E., Moreira, D., Ladle, A., Steenweg, R., Fisher, J. T., Bayne, E., and Boutin, S. (2015). Wildlife camera trapping: A review and recommendations for linking surveys to ecological processes. Journal of Applied Ecology, 52:675–685.

Chollet, F. (2018). Deep Learning with Python. Manning. Cohn, J. P. (2008). Citizen science: Can volunteers do real research? BioScience, 58(3):192–197.

Cook, A. (2017). Global average pooling layers for object localization. Retrieved from https://alexisbcook.github.io/2017/global-average-pooling-layers-for-ob….

Dasgupta, S. (2017). ResNet-50. Retrieved from http://ethereon.github.io/netscope/#/gist/db945b393d40bfa26006.

Foster, R. J. and Harmsen, B. J. (2012). A critique of density estimation from camera-trap data. Journal of Wildlife Management, 76(2):224–236.

Gomez, A., Diez, G., Salazar, A., and Diaz, A. (2016). Animal identification in low quality camera-trap images using very deep convolutional neural networks and confidence thresholds. In Advances in Visual Computing, pages 747–756. Springer.

Gomez, A., Salazar, A., and Vargas, F. (2017). Towards automatic wild animal monitoring: Identification of animal species in camera-trap images using very deep convolutional neural networks. Ecological Informatics, 41:24–32.

Haralick, R. M. and Shapiro, L. G. (1985). Image segmentation techniques. Computer Vision, Graphics, and Image Processing, 29:100–132.

Haralick, R. M., Sternberg, S. R., and Zhuang, X. (1987). Image analysis using mathematical morphology. IEEE Transactions on Pattern Analysis and Machine Intelligence, 9(4):532–550.

Hasselt University (2015). Year report field research centre Hasselt University. Technical report.

Hedges, L., Lam, W. Y., Campos-Arceiz, A., Rayan, D. M., Laurance, W. F., Latham, C. J., Saaban, S., and Clements, G. R. (2015). Melanistic leopards reveal their spots: Infrared camera traps provide a population density estimate of leopards in Malaysia. Journal of Wildlife Management, 79(5):846–853.

Henschel, P., Azani, D., Burton, C., Malanda, G. U. Y., Saidu, Y., Sam, M., and Hunter, L. (2010). Lion status updates from five range countries in West and Central Africa. Cat News, 52:34–39.

Huber, P. J. (2011). Robust Statistics. In International Encyclopedia of Statistical Science, pages 1248–1251. Springer.

Jeanloz, S., Lizin, S., Beenaerts, N., Brouwer, R., Van Passel, S., and Witters, N. (2016). Towards a more structured selection process for attributes and levels in choice experiments: A study in a Belgian protected area. Ecosystem Services, 18:45–57.

Karpathy, A., Li, F.-F., and Johnson, J. (2016). CS231n: Convolutional Neural Networks for Visual Recognition. Retrieved from http://cs231n.github.io.

Khatib, F., Dimaio, F., Cooper, S., Kazmierczyk, M., Gilski, M., Krzywda, S., Zabranska, H., Pichova, I., Thompson, J., Popovi´c, Z., Jaskolski, M., and Baker, D. (2010). Crystal structure of a monomeric retroviral protease solved by protein folding game players. Nature Structural and Molecular Biology, 18(10):1175–1177.

Lambrechts, J., Boers, K., Keulemans, G., Jacobs, M., Moens, L.,  Renders, M., and Willems, W. (2013). Monitoring ecoduct ’De Warande’ over de N25 in Meerdaalwoud (Bierbeek).

Li, C., Zhao, C., and Fan, P. F. (2015). White-cheeked macaque (Macaca leucogenys): A new macaque species from Medog, southeastern Tibet. American Journal of Primatology, 77:753–766.

López, V., Fernández, A., García, S., Palade, V., and Herrera, F. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Information Sciences, 250:113–141.

MacKenzie, D. I., Nichols, J. D., Lachman, G. B., Droege, S., Royle, A. A., and Langtimm, C. A. (2002). Estimating site occupancy rates when detection probabilities are less than one. Ecology, 83(8):2248–2255.

McShea, W. J., Forrester, T., Costello, R., He, Z., and Kays, R. (2016). Volunteer-run cameras as distributed sensors for macrosystem mammal research. Landscape Ecology, 31(1):55–66.

Natuurpunt (2018). Het grote vogelweekend van Natuurpunt. Retrieved from https://vogelweekend.natuurpunt.be.

Norouzzadeh, M. S., Nguyen, A., Kosmala, M., Swanson, A., Packer, C., and Clune, J. (2017). Automatically identifying wild animals in camera trap images with deep learning.

Privacycommissie (2018). Camera’s voor verschillende doeleinden: Andere privacyregels. Retrieved from https://www.privacycommission.be/nl/cameras.

Reconyx (2013). HyperFire instruction manual.

Reed, J., Raddick, M. J., Lardner, A., and Carney, K. (2013). An exploratory factor analysis of motivations for participating in Zooniverse, a collection of virtual citizen science projects. In Proceedings of the Annual Hawaii International Conference on System Sciences, pages 610–619.

Regionaal Landschap Kempen en Maasland (2015). Nationaal Park Hoge Kempen. Retrieved from https://www.nationaalparkhogekempen.be.

Ribeiro, M. T., Singh, S., and Guestrin, C. (2016). "Why should I trust you?" Explaining the predictions of any classifier. In Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Rovero, F., Rathbun, G. B., Perkin, A., Jones, T., Ribble, D. O., Leonard, C., Mwakisoma, R. R., and Doggart, N. (2008). A new species of giant sengi or elephant-shrew (genus Rhynchocyon) highlights the exceptional biodiversity of the Udzungwa Mountains of Tanzania. Journal of Zoology, 274(2):126–133.

Rovero, F., Zimmermann, F., Berzi, D., and Meek, P. (2013). "Which camera trap type and how many do I need?" A review of camera features and study designs for a range of wildlife research applications. Hystrix, the Italian Journal of Mammalogy, 24(2):148–156.

Rowcliffe, J. M. and Carbone, C. (2008). Surveys using camera traps: are we looking to a brighter future? Animal Conservation, 11(3):185–186.

Rowcliffe, J. M., Field, J., Turvey, S. T., and Carbone, C. (2008). Estimating animal density using camera traps without the need for individual recognition. Journal of Applied Ecology, 45(4):1228–1236.

Senthilkumaran, N. and Rajesh, R. (2009). Edge detection techniques for image segmentation - a survey of soft computing approaches. International Journal of Recent Trends in Engineering, 1(2):250–254.

Shane, J. (2018). Do neural nets dream of electric sheep? Retrieved from http://aiweirdness.com/post/171451900302/do-neural-nets-dream-of-electr….

Silver, S. C., Ostro, L. E. T., Marsh, L. K., Maffei, L., Noss, A. J., Kelly, M. J., Wallace, R. B., Gómez, H., and Ayala, G. (2004). The use of camera traps for estimating jaguar Panthera onca abundance and density using capture/recapture analysis. Oryx, 38(02):148–154.

Simpson, R., Page, K. R., and De Roure, D. (2014). Zooniverse: observing the world’s largest citizen science platform. In Proceedings of the 23rd International Conference on World Wide Web, pages 1049–1054.

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2014). Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15:1929–1958.

Stanford Vision Lab (2016). ImageNet. Retrieved from http://www.image-net.org.

Steenweg, R. W. (2016). Large-scale camera trapping and large-carnivore monitoring, occupancy-abundance relationships, and food-webs. PhD thesis, The University of Montana.

Swann, D. E., Hass, C. C., Dalton, D. C., and Wolf, S. A. (2004). Infrared-triggered cameras for detecting wildlife: An evaluation and review. Wildlife Society Bulletin, 32(2):357–365.

Swann, D. E., Kawanishi, K., and Palmer, J. (2011). Evaluating types and features of camera traps in ecological studies: a guide for researchers. In Camera Traps in Animal Ecology: Methods and Analyses, chapter 3, pages 27–43. Springer.

Swann, D. E. and Perkins, N. (2014). Camera trapping for animal monitoring: Case studies.In Camera Trapping: Wildlife Management and Research, chapter 1, pages 3–12. CSIRO Publishing.

Swanson, A., Kosmala, M., Lintott, C., Simpson, R., Smith, A., and Packer, C. (2015). Snapshot Serengeti, high-frequency annotated camera trap images of 40 mammalian species in an African savanna. Scientific Data, 2:150026.

Swinnen, K. R. R., Reijniers, J., Breno, M., and Leirs, H. (2014). A novel method to reduce time investment when processing videos from camera trap studies. PloS ONE, 9(6):e98881.

Tobler, M. W., Zúñiga Hartley, A., Carrillo-Percastegui, S. E., and Powell, G. V. (2015). Spatiotemporal hierarchical modelling of species richness and occupancy using camera trap data. Journal of Applied Ecology, 52(2):413–421.

Wang, J. and Perez, L. (2017). The effectiveness of data augmentation in image classification using deep learning. Technical report.

Weinstein, B. G. (2015). MotionMeerkat: Integrating motion video detection and ecological monitoring. Methods in Ecology and Evolution, 6(3):357–362.

Welbourne, D. J., Claridge, A. W., Paull, D. J., and Lambert, A. (2016). How do passive infrared triggered camera traps operate and why does it matter? Breaking down common misconceptions. Remote Sensing in Ecology and Conservation, 2(2):77–83.

Wu, S., Zhong, S., and Liu, Y. (2016). Deep residual learning for image steganalysis. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778.

Yu, X., Wang, J., Kays, R., Jansen, P. A., Wang, T., and Huang, T. (2013). Automated identification of animal species in camera trap images. Eurasip Journal on Image and Video Processing, 2013(52).

Zeiler, M. D. and Fergus, R. (2014). Visualizing and understanding convolutional networks. In Computer Vision - ECCV 2014, pages 818–833.

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., and Torralba, A. (2016). Learning deep features for discriminative localization. In 2016 IEEE Conference on Computer Vision and Pattern Recognition, pages 2921–2929.

Universiteit of Hogeschool
Master of Science in de bio-ingenieurswetenschappen: land- en waterbeheer
Publicatiejaar
2018
Promotor(en)
Bernard De Baets
Kernwoorden
Share this on: