Tachtig jaar na het einde van de Tweede Wereldoorlog ligt de bodem van de Noordzee nog steeds bezaaid met gevaarlijke zeemijnen en andere munitie. Dat vormt een groeiend probleem. Vissers lopen risico wanneer ze de explosieven in hun netten krijgen, het onderwatermilieu lijdt eronder, en ook toekomstige bouwprojecten worden bemoeilijkt.
Daarom trekken de Belgische en Nederlandse marine steeds vaker de zee op om deze oude wapens op te sporen en onschadelijk te maken. Hun belangrijkste hulpmiddel? Sonar: een technologie die geluidsgolven gebruikt om een beeld te schetsen van de zeebodem.
Alleen is er één groot probleem. Tijdens zo’n missie genereert de sonar duizenden beelden. Elk beeld moet vervolgens door een expert individueel worden geanalyseerd. Wat zien we hier? Een rots, een wrak, of misschien toch een mijn? Dat is enorm tijdrovend én duur.
Dus rijst de vraag: kan artificiële intelligentie dit proces slimmer en sneller maken?
Sonar is onmisbaar om de zeebodem in kaart te brengen: niet alleen om mijnen te vinden, maar ook voor archeologisch onderzoek of het vrijhouden van scheepsroutes.
Toch levert sonar geen heldere foto’s op zoals een camera. De beelden zijn ruw, korrelig en moeilijk te interpreteren. Daarom moeten experts elk object manueel aanduiden en benoemen – een proces dat we labelen noemen. Bij duizenden beelden lopen de werkuren al snel heel hoog op.
Het gevolg? Onderzoek en inspecties verlopen traag en kosten handenvol geld, terwijl de nood aan snelle detectie alleen maar stijgt.
Het zou dus handig zijn mocht dit dure en tijdrovende proces geautomatiseerd kunnen worden. Zo zouden missies veel sneller kunnen worden afgerond en zou er veel efficiënter worden gewerkt.
De dag van vandaag bestaan er moderne AI-technieken die hiervoor gebruikt kunnen worden. Deze kunnen objecten op beelden herkennen. Denk maar aan je smartphone die automatisch gezichten detecteert op foto’s.
Echter duikt het eerdere probleem hier opnieuw op: om gezichten te herkennen is je telefoon getraind op miljoenen gelabelde foto’s die vrij op het internet beschikbaar zijn. Voor sonar bestaan zo’n grote, kant-en-klare, publieke datasets niet.
Om AI dus efficiënt te kunnen inzetten voor dit probleem moeten we een manier vinden om een model te kunnen trainen zonder al te veel data.
Gelukkig is dit geen probleem die uniek is voor objectherkenning op sonarbeelden. Daarom is er afgelopen jaren enorm veel onderzoek gevoerd naar hoe je een AI-model kan maken die zo goed mogelijk presteert, terwijl het getraind is met zo min mogelijk data. In mijn onderzoek heb ik twee grote technieken binnen dit onderzoeksdomein gebruikt.
Enerzijds is er semi-supervised learning (SSL): het model krijgt een klein aantal gelabelde beelden en leert de rest van de dataset zelf verder te begrijpen.
Anderzijds is er self-supervised learning (Self-SL): het model start volledig zonder labels. Het lost slimme puzzels op met de ruwe data en bouwt zo een “gevoel” op voor de structuur van de beelden. Daarna kan het beter ingezet worden voor taken zoals objectherkenning.
In mensentaal: in plaats van dat een leraar (de expert) alles uitlegt, leert de computer zelf bij door te spelen en uit te proberen.
Om dit te testen, gebruikte ik een van de weinige publieke datasets met 7 600 sonarbeelden. Drie modellen werden vergeleken: een klassiek model dat volledig afhankelijk is van labels, een semi-supervised model (FixMatch) dat slechts 5 à 10% gelabelde data kreeg en een self-supervised model (BYOL) dat eerst volledig zonder labels trainde en later gefinetuned werd voor objectdetectie.
De resultaten waren duidelijk. Het klassieke model scoorde uitstekend zolang bijna alle beelden gelabeld waren. Maar zodra ik de hoeveelheid labels drastisch verminderde, stortte de nauwkeurigheid in.
De self-supervised aanpak daarentegen hield goed stand: met slechts 10% gelabelde data haalde het bijna dezelfde resultaten als het klassieke model met 100%.
Wat betekent dit nu concreet? Stel dat een expert normaal 1000 sonarafbeeldingen moet labelen. Met self-supervised learning volstaat het om er 100 te annoteren. De computer doet daarna het zware werk.
Dat scheelt niet alleen in werkuren, maar ook in kosten. Bovendien kunnen onderzoekers sneller schakelen in situaties waar tijd cruciaal is, zoals bij het ruimen van niet-ontplofte mijnen.
Hoewel mijn onderzoek zich richtte op sonar, zijn de inzichten veel breder toepasbaar. Denk aan medische beeldvorming, waar dokters vaak duizenden scans moeten analyseren en labelen. Ook daar zijn labels schaars en duur. AI-technieken die slim omgaan met weinig gelabelde data, kunnen dus in meerdere domeinen een gamechanger zijn.
Toch is het verhaal niet af. Sonar blijft complex. Het model moet leren omgaan met ruis en met de enorme variatie in onderwateromgevingen. Ook real-time toepassingen, zoals autonome onderwaterrobots die tijdens hun missie meteen objecten moeten herkennen, vormen nog een uitdaging.
Maar de eerste stap is gezet: we weten nu dat self-supervised AI een veelbelovende richting is.
Wat begon als een vraag tijdens mijn stage groeide uit tot een bachelorproef met concrete resultaten. Voor mij was dit niet alleen een technische uitdaging, maar ook een kans om te tonen hoe AI niet enkel in de digitale wereld, maar ook onder water een verschil kan maken.
Met mijn onderzoek wil ik aantonen dat technologie een brug kan slaan tussen mens en machine, tussen data en inzicht, en zelfs tussen de zee en de veiligheid erboven.
Alle code, PDFs en ander materiaal dat te maken heeft met deze thesis is vrij toegankelijk via GitHub: https://github.com/Yoran-Gyselen/bsc-thesis-sonar-object-detection.
Adaloglou, N. (2022, May 12). BYOL tutorial: self-supervised learning on CIFAR images with code in Pytorch. https://theaisummer.com/byol/
Álvarez-Tuñón, O., Marnet, L. R., Antal, L., Aubard, M., Costa, M., & Brodskiy, Y. (2024). SubPipe: A Submarine Pipeline Inspection Dataset for Segmentation and Visual-inertial Localization. https://doi.org/10.48550/ARXIV.2401.17907
Álvarez-Tuñón, O., Ribeiro Marnet, L., Antal, L., Aubard, M., Costa, M., & Brodskiy, Y. (2024). SubPipe: A Submarine Pipeline Inspection Dataset for Segmentation and Visual-inertial Localization. Zenodo. https://doi.org/10.5281/ZENODO.10053564
Anish Dev, J. (2014). Bitcoin mining acceleration and performance quantification. 2014 IEEE 27th Canadian Conference on Electrical and Computer Engineering (CCECE), 1–6. https://doi.org/10.1109/ccece.2014.6900989
Aridgides, T., Antoni, D., Fernandez, M. F., & Dobeck, G. J. (1995). Adaptive filter for mine detection and classification in side-scan sonar imagery. In A. C. Dubey, I. Cindrich, J. M. Ralston, & K. A. Rigano (Eds.), Detection Technologies for Mines and Minelike Targets (Vol. 2496, pp. 475–486). SPIE. https://doi.org/10.1117/12.211345
Aubard, M., Antal, L., Madureira, A., Teixeira, L. F., & Ábrahám, E. (2024). ROSAR: An Adversarial Re-Training Framework for Robust Side-Scan Sonar Object Detection. https://doi.org/10.48550/ARXIV.2410.10554
Aubard, M., Antal, L., Madureira, M., F. Teixeira, L., & Ábrahám, E. (2024). SWDD: Sonar Wall Detection Dataset. Zenodo. https://doi.org/10.5281/ZENODO.10528134
Aubard, M., Madureira, A., Teixeira, L., & Pinto, J. (2024). Sonar-based Deep Learning in Underwater Robotics: Overview, Robustness and Challenges. https://doi.org/10.48550/ARXIV.2412.11840
Awalludin, E. A., Arsad, T. N. T., Yussof, W. N. J. H. W., Bachok, Z., & Hitam, M. S. (2022). A Comparative Study of Various Edge Detection Techniques for Underwater Images. Journal of Telecommunictions and Information Technology, 1(2022), 23–33. https://doi.org/10.26636/jtit.2022.155921
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., & Raffel, C. A. (2019). MixMatch: A Holistic Approach to Semi-Supervised Learning. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alché Buc, E. Fox, & R. Garnett (Eds.), Advances in Neural Information Processing Systems (Vol. 32). Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2019/file/1cd138d0499a68f4bb72bee04bbec2d7-Paper.pdf
Bochkovskiy, A., Wang, C.-Y., & Liao, H.-Y. M. (2020). YOLOv4: Optimal Speed and Accuracy of Object Detection. https://doi.org/10.48550/ARXIV.2004.10934
Bourke, P. (1998). Bmp image format. BMP Files. July, 8.
C A Padmanabha Reddy, Y., Viswanath, P., & Eswara Reddy, B. (2018). Semi-supervised learning: a brief review. International Journal of Engineering & Technology, 7(1.8), 81. https://doi.org/10.14419/ijet.v7i1.8.9977
Carranza-García, M., Torres-Mateo, J., Lara-Benítez, P., & García-Gutiérrez, J. (2020). On the Performance of One-Stage and Two-Stage Object Detectors in Autonomous Vehicles Using Camera Data. Remote Sensing, 13(1), 89. https://doi.org/10.3390/rs13010089
Cascante-Bonilla, P., Tan, F., Qi, Y., & Ordonez, V. (2020). Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning. https://doi.org/10.48550/ARXIV.2001.06001
Chen, C., Liu, M.-Y., Tuzel, O., & Xiao, J. (2017). R-CNN for Small Object Detection. In Computer Vision – ACCV 2016 (pp. 214–230). Springer International Publishing. https://doi.org/10.1007/978-3-319-54193-8_14
Chen, C., Zheng, Z., Xu, T., Guo, S., Feng, S., Yao, W., & Lan, Y. (2023). YOLO-Based UAV Technology: A Review of the Research and Its Applications. Drones, 7(3), 190. https://doi.org/10.3390/drones7030190
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. https://doi.org/10.48550/ARXIV.2002.05709
Dahn, N., Bande Firvida, M., Sharma, P., Mohrmann, J., Geisler, O., Sanghamreddy, P. K., Marquardt, K., & Christensen, L. (2024). An Acoustic and Optical Dataset for the Perception of Underwater Unexploded Ordnance (UXO). Zenodo. https://doi.org/10.5281/ZENODO.11068045
Dahn, N., Firvida, M. B., Sharma, P., Christensen, L., Geisle, O., Mohrmann, J., Frey, T., Kumar Sanghamreddy, P., & Kirchner, F. (2024). An Acoustic and Optical Dataset for the Perception of Underwater Unexploded Ordnance (UXO). OCEANS 2024 - Halifax, 1–6. https://doi.org/10.1109/oceans55160.2024.10754316
DeVries, T., & Taylor, G. W. (2017). Improved Regularization of Convolutional Neural Networks with Cutout. https://doi.org/10.48550/ARXIV.1708.04552
Dimitrova-Grekow, T., Salauyou, V., & Kowalski, K. (2017). Indoor Mapping Using Sonar Sensor and Otsu Method. Measurement Automation Monitoring, 63(6), 214–216. https://yadda.icm.edu.pl/baztech/element/bwmeta1.element.baztech-c104553b-2ef9-4d60-85b1-8d7623944a7d
Ding, L., & Goshtasby, A. (2001). On the Canny edge detector. Pattern Recognition, 34(3), 721–725. https://doi.org/10.1016/s0031-3203(00)00023-6
Diwan, T., Anirudh, G., & Tembhurne, J. V. (2022). Object detection using YOLO: challenges, architectural successors, datasets and applications. Multimedia Tools and Applications, 82(6), 9243–9275. https://doi.org/10.1007/s11042-022-13644-y
Everingham, M., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2009). The Pascal Visual Object Classes (VOC) Challenge. International Journal of Computer Vision, 88(2), 303–338. https://doi.org/10.1007/s11263-009-0275-4
Fan, Y., Kukleva, A., Dai, D., & Schiele, B. (2022). Revisiting Consistency Regularization for Semi-Supervised Learning. International Journal of Computer Vision, 131(3), 626–643. https://doi.org/10.1007/s11263-022-01723-4
Ferreira, R. E. P., Lee, Y. J., & Dórea, J. R. R. (2023). Using pseudo-labeling to improve performance of deep neural networks for animal identification. Scientific Reports, 13(1). https://doi.org/10.1038/s41598-023-40977-x
Géron, A. (2023). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems (Third edition). O’Reilly.
Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2013). Rich feature hierarchies for accurate object detection and semantic segmentation. https://doi.org/10.48550/ARXIV.1311.2524
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning (A. Courville & Y. Bengio, Eds.). The MIT Press.
Grill, J.-B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., Doersch, C., Pires, B. A., Guo, Z. D., Azar, M. G., Piot, B., Kavukcuoglu, K., Munos, R., & Valko, M. (2020). Bootstrap your own latent: A new approach to self-supervised Learning. arXiv. https://doi.org/10.48550/ARXIV.2006.07733
Gui, J., Chen, T., Zhang, J., Cao, Q., Sun, Z., Luo, H., & Tao, D. (2024). A Survey on Self-Supervised Learning: Algorithms, Applications, and Future Trends. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(12), 9052–9071. https://doi.org/10.1109/tpami.2024.3415112
Gupta, K., Ajanthan, T., Hengel, A. van den, & Gould, S. (2022). Understanding and Improving the Role of Projection Head in Self-Supervised Learning. https://doi.org/10.48550/ARXIV.2212.11491
Hady, M. F. A., & Schwenker, F. (2013). Semi-supervised Learning. In Handbook on Neural Information Processing (pp. 215–239). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-36657-4_7
Hall, P. (1987). On Kullback-Leibler Loss and Density Estimation. The Annals of Statistics, 15(4), 1491–1519. https://doi.org/10.1214/aos/1176350606
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). Momentum Contrast for Unsupervised Visual Representation Learning. https://doi.org/10.48550/ARXIV.1911.05722
http://www.freephotos.lu/. (2010, June 14). Image processing illustration, before Otsu algorithm. http://en.wikipedia.org/wiki/File:Image_processing_pre_otsus_algorithm.jpg
Imambi, S., Prakash, K. B., & Kanagachidambaresan, G. R. (2021). PyTorch. In Programming with TensorFlow (pp. 87–104). Springer International Publishing. https://doi.org/10.1007/978-3-030-57077-4_10
Jian, Y., & Kaibing, X. (2022). Underwater acoustic target detection (UATD) dataset. figshare. https://doi.org/10.6084/M9.FIGSHARE.21331143.V3
Jiang, P., Ergu, D., Liu, F., Cai, Y., & Ma, B. (2022). A Review of Yolo Algorithm Developments. Procedia Computer Science, 199, 1066–1073. https://doi.org/10.1016/j.procs.2022.01.135
Jiang, Z., & Wang, R. (2020). Underwater Object Detection Based on Improved Single Shot MultiBox Detector. 2020 3rd International Conference on Algorithms, Computing and Artificial Intelligence, 1–7. https://doi.org/10.1145/3446132.3446170
Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., Bates, S., Bhatia, S., Boden, N., Borchers, A., Boyle, R., Cantin, P., Chao, C., Clark, C., Coriell, J., Daley, M., Dau, M., Dean, J., Gelb, B., … Yoon, D. H. (2017). In-Datacenter Performance Analysis of a Tensor Processing Unit. Proceedings of the 44th Annual International Symposium on Computer Architecture, 1–12. https://doi.org/10.1145/3079856.3080246
Kage, P., Rothenberger, J. C., Andreadis, P., & Diochnos, D. I. (2024). A Review of Pseudo-Labeling for Computer Vision. https://doi.org/10.48550/ARXIV.2408.07221
Komari Alaie, H., & Farsi, H. (2018). Passive Sonar Target Detection Using Statistical Classifier and Adaptive Threshold. Applied Sciences, 8(1), 61. https://doi.org/10.3390/app8010061
Kumar, A., & Srivastava, S. (2020). Object Detection System Based on Convolution Neural Networks Using Single Shot Multi-Box Detector. Procedia Computer Science, 171, 2610–2617. https://doi.org/10.1016/j.procs.2020.04.283
Labbe-Morissette, G., & Gauthier, S. (2019). A machine vision meta-algorithm for automated recognition of underwater objects using sidescan sonar imagery. https://doi.org/10.48550/ARXIV.1909.07763
Lee, D.-H. (2013). Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. ICML 2013 Workshop : Challenges in Representation Learning (WREPL).
Lee, S., Park, B., & Kim, A. (2018). Deep Learning from Shallow Dives: Sonar Image Generation and Training for Underwater Object Detection. https://doi.org/10.48550/ARXIV.1810.07990
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y., & Berg, A. C. (2015). SSD: Single Shot MultiBox Detector. Computer Vision – ECCV 2016, 21–37. https://doi.org/10.1007/978-3-319-46448-0_2
Loshchilov, I., & Hutter, F. (2016). SGDR: Stochastic Gradient Descent with Warm Restarts. https://doi.org/10.48550/ARXIV.1608.03983
Lourey, S. (2017). Adaptive filtering for enhanced detection of continuous active sonar signals. Proc. Underwater Acoust. Conf. Exhib.(UACE), 145–152. https://www.uaconferences.org/docs/2017_papers/153_UACE2017.pdf
Lu, Z., Wang, J., & Song, J. (2019). Multi-resolution CSI Feedback with deep learning in Massive MIMO System. https://doi.org/10.48550/ARXIV.1910.14322
Lucas, T., Weinzaepfel, P., & Rogez, G. (2022). Barely-Supervised Learning: Semi-supervised Learning with Very Few Labeled Images. Proceedings of the AAAI Conference on Artificial Intelligence, 36(2), 1881–1889. https://doi.org/10.1609/aaai.v36i2.20082
Ma, W., Wang, X., & Yu, J. (2020). A Lightweight Feature Fusion Single Shot Multibox Detector for Garbage Detection. IEEE Access, 8, 188577–188586. https://doi.org/10.1109/access.2020.3031990
Micikevicius, P., Narang, S., Alben, J., Diamos, G., Elsen, E., Garcia, D., Ginsburg, B., Houston, M., Kuchaiev, O., Venkatesh, G., & Wu, H. (2017). Mixed Precision Training. https://doi.org/10.48550/ARXIV.1710.03740
Min, Z., Ge, Q., & Tai, C. (2022). Why the pseudo label based semi-supervised learning algorithm is effective? https://doi.org/10.48550/ARXIV.2211.10039
Murray-Rust, P. (2008). Open Data in Science. Nature Precedings. https://doi.org/10.1038/npre.2008.1526.1
Oord, A. van den, Li, Y., & Vinyals, O. (2018). Representation Learning with Contrastive Predictive Coding. https://doi.org/10.48550/ARXIV.1807.03748
Otsu, N. (1979). A Threshold Selection Method from Gray-Level Histograms. IEEE Transactions on Systems, Man, and Cybernetics, 9(1), 62–66. https://doi.org/10.1109/tsmc.1979.4310076
Pang, B., Nijkamp, E., & Wu, Y. N. (2019). Deep Learning With TensorFlow: A Review. Journal of Educational and Behavioral Statistics, 45(2), 227–248. https://doi.org/10.3102/1076998619872761
Pessanha Santos, N., & Moura, R. (2024). Side-scan sonar imaging for Mine detection. figshare. https://doi.org/10.6084/M9.FIGSHARE.24574879
Pessanha Santos, N., Moura, R., Sampaio Torgal, G., Lobo, V., & Neto, M. de C. (2024). Side-scan sonar imaging data of underwater vehicles for mine detection. Data in Brief, 53, 110132. https://doi.org/10.1016/j.dib.2024.110132
Pikez33. (2010, June 14). Image processing illustration, after Otsu algorithm. https://commons.wikimedia.org/wiki/File:Image_processing_post_otsus_algorithm.jpg
Poskanzer, J. (2016, October 9). pgm - Netpbm grayscale image format. https://netpbm.sourceforge.net/doc/pgm.html
Prechelt, L. (1998). Early Stopping - But When? In Neural Networks: Tricks of the Trade (pp. 55–69). Springer Berlin Heidelberg. https://doi.org/10.1007/3-540-49430-8_3
Priyadharsini, R., & Sharmila, T. S. (2019). Object Detection In Underwater Acoustic Images Using Edge Based Segmentation Method. Procedia Computer Science, 165, 759–765. https://doi.org/10.1016/j.procs.2020.01.015
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779–788. https://doi.org/10.1109/cvpr.2016.91
Redmon, J., & Farhadi, A. (2016). YOLO9000: Better, Faster, Stronger. https://doi.org/10.48550/ARXIV.1612.08242
Redmon, J., & Farhadi, A. (2018). YOLOv3: An Incremental Improvement. https://doi.org/10.48550/ARXIV.1804.02767
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. https://doi.org/10.48550/ARXIV.1506.01497
Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., & Savarese, S. (2019). Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression. https://doi.org/10.48550/ARXIV.1902.09630
Rosebrock, A. (2016, November 7). Intersection over Union (IoU) for object detection. https://pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/
Sohn, K., Berthelot, D., Li, C.-L., Zhang, Z., Carlini, N., Cubuk, E. D., Kurakin, A., Zhang, H., & Raffel, C. (2020). FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence. https://doi.org/10.48550/arXiv.2001.07685
Song, Z., Yang, X., Xu, Z., & King, I. (2021). Graph-based Semi-supervised Learning: A Comprehensive Review. https://doi.org/10.48550/ARXIV.2102.13303
soundmetrics.com. (n.d.). ARIS EXPLORER 3000. http://www.soundmetrics.com/products/aris-sonars/aris-explorer-3000
Sowe, E. A., & Bah, Y. A. (2025). Momentum Contrast for Unsupervised Visual Representation Learning. Journal of Advances in Civil and Mechanical Engineering. https://doi.org/10.20944/preprints202501.0668.v1
TechPowerUp. (n.d.-a). NVIDIA RTX A5000. https://www.techpowerup.com/gpu-specs/rtx-a5000.c3748
TechPowerUp. (n.d.-b). NVIDIA Tesla T4. https://www.techpowerup.com/gpu-specs/tesla-t4.c3316
Terven, J., Córdova-Esparza, D.-M., & Romero-González, J.-A. (2023). A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS. Machine Learning and Knowledge Extraction, 5(4), 1680–1716. https://doi.org/10.3390/make5040083
Torre, V., & Poggio, T. A. (1986). On Edge Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-8(2), 147–163. https://doi.org/10.1109/tpami.1986.4767769
Valdenegro-Toro, M. (2017). Objectness Scoring and Detection Proposals in Forward-Looking Sonar Images with Convolutional Neural Networks. Proceedings of ANNPR 2016, 209–219. https://doi.org/10.1007/978-3-319-46182-3_18
Valdenegro-Toro, M. (2019). Learning Objectness from Sonar Images for Class-Independent Object Detection. https://doi.org/10.48550/ARXIV.1907.00734
van Engelen, J. E., & Hoos, H. H. (2019). A survey on semi-supervised learning. Machine Learning, 109(2), 373–440. https://doi.org/10.1007/s10994-019-05855-6
van Laarhoven, T. (2017). L2 Regularization versus Batch and Weight Normalization. https://doi.org/10.48550/ARXIV.1706.05350
Wang, B. (2022). A Parallel Implementation of Computing Mean Average Precision. https://doi.org/10.48550/ARXIV.2206.09504
Wang, H., & Xiao, N. (2023). Underwater Object Detection Method Based on Improved Faster RCNN. Applied Sciences, 13(4), 2746. https://doi.org/10.3390/app13042746
Wang, W., Zhang, Q., Qi, Z., & Huang, M. (2024). CenterNet-Saccade: Enhancing Sonar Object Detection with Lightweight Global Feature Extraction. Sensors, 24(2), 665. https://doi.org/10.3390/s24020665
Wang, Y. E., Wei, G.-Y., & Brooks, D. (2019). Benchmarking TPU, GPU, and CPU Platforms for Deep Learning. https://doi.org/10.48550/ARXIV.1907.10701
Xie, K., Yang, J., & Qiu, K. (2022). A Dataset with Multibeam Forward-Looking Sonar for Underwater Object Detection. Scientific Data, 9(1). https://doi.org/10.1038/s41597-022-01854-w
Ying, X. (2019). An Overview of Overfitting and its Solutions. Journal of Physics: Conference Series, 1168, 022022. https://doi.org/10.1088/1742-6596/1168/2/022022
Yuan, X., Martínez, J.-F., Eckert, M., & López-Santidrián, L. (2016). An Improved Otsu Threshold Segmentation Method for Underwater Simultaneous Localization and Mapping-Based Navigation. Sensors, 16(7), 1148. https://doi.org/10.3390/s16071148
Yulin, T., Shaohua, J., Gang, B., Yonzhou, Z., & Fan, L. (2020). Wreckage Target Recognition in Side-scan Sonar Images Based on an Improved Faster R-CNN Model. 2020 International Conference on Big Data & Artificial Intelligence & Software Engineering (ICBASE), 348–354. https://doi.org/10.1109/icbase51474.2020.00080
Zeng, L., Sun, B., & Zhu, D. (2021). Underwater target detection based on Faster R-CNN and adversarial occlusion network. Engineering Applications of Artificial Intelligence, 100, 104190. https://doi.org/10.1016/j.engappai.2021.104190
Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization. https://doi.org/10.48550/ARXIV.1710.09412
Zhou, P., Xie, X., Lin, Z., & Yan, S. (2024). Towards Understanding Convergence and Generalization of AdamW. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(9), 6486–6493. https://doi.org/10.1109/tpami.2024.3382294
Zhu, X. J. (2005). Semi-Supervised Learning Literature Survey. CS Technical Reports.