Een gammele stelling op een bouwwerf of een e-bike batterij die niet waterdicht is. De gevolgen van productfouten kunnen groot zijn, en de oorzaak is vaak een defect dat met het blote oog werd gemist. Een nieuwe, intelligente inspectiemethode combineert speciale camera’s en geavanceerde AI om te zien wat mensen missen. Dit systeem, ontwikkeld in een masterproef, werkt als een onvermoeibare kwaliteitscontroleur die de veiligheid en betrouwbaarheid van alledaagse en industriële producten naar een hoger niveau tilt.
Stel je een enorme stapel stalen steigerpijpen voor, net terug van een ruwe bouwwerf. Elke pijp moet gecontroleerd worden op roest, cementresten en de meest verraderlijke boosdoener, deuken. Een deuk in een stellingsbuis kan catastrofale gevolgen hebben voor de stabiliteit van de stelling. Vandaag de dag is deze inspectie vaak nog mensenwerk: een getrainde operator die visueel elke pijp controleert. Een proces dat niet alleen traag en duur is, maar ook gevoelig voor menselijke fouten en vermoeidheid.
Dit is het probleem waar deze thesis een oplossing voor biedt. Er werd een geautomatiseerd, modulair inspectiesysteem ontwikkeld datkan dienen als een standaard voor de industrie. Het combineert verschillende technologieën om defecten sneller, consistenter en met een hogere precisie te detecteren dan een mens ooit zou kunnen. Het platform is bovendien zo flexibel dat het met een paar aanpassingen even makkelijk kan worden gebruikt op andere voorwerpen en defecten.
Meer dan het oog kan zien: De kracht van speciale camera’s
Het geheim van het systeem zit in de manier waarop het ‘kijkt’. In plaats van te vertrouwen op een standaardcamera (RGB), maakt het gebruik van "multimodale beeldvorming". Dit betekent dat het informatie uit verschillende soorten cameras combineert om een veel rijker beeld van het product te krijgen.
Een voorbeed is 3D-dieptezicht. Naast een gewone foto maakt het systeem verschillende 3D-fotos van het object. Hiermee kan het geometrische afwijkingen detecteren die voor het oog moeilijlk te zien zijn. Denk aan een subtiele afbuiging van een pijp die de structurele integriteit verzwakt, of het ontbreken van een klein schroefje in een batterijbehuizing, wat de waterdichtheid in gevaar brengt.
Daarnaast hebben we ook nabij-infrarood (NIR) camera geintroduceerd. Deze kijkt naar licht dat voor het menselijk oog onzichtbaar is. Materialen die er in normaal licht identiek uitzien, kunnen in NIR totaal verschillend reflecteren. Aangekoekte cement op een stalen pijp is hiervan het perfecte voorbeeld. Voor ons oog is het soms moeilijk te onderscheiden, maar voor de NIR-sensor licht het op als een kerstboom, waardoor geen enkel restje onopgemerkt blijft.
Twee soorten AI-hersenen: De flexibele detective en de specialist
Al die beelden zijn waardeloos zonder een intelligent brein om ze te analyseren. Het systeem heeft twee "takken" die, afhankelijk van de taak, ingezet kunnen worden.
De eerste tak is de 3D-analist. Deze gebruikt de 3D-fotos en AI om een digitale kopie van het product te maken. Deze kopie wordt vervolgens vergeleken met een perfect referentiemodel, een 'gouden standaard'. Door de twee modellen virtueel over elkaar te leggen, creëert de software een ‘anomaliekaart’ die exact aangeeft waar de afwijkingen zitten. Ontbrekende schroefjes of barsten lichten onmiddellijk rood op, met een precisie tot op de millimeter.

De tweede tak is de 2D-oppervlakte-inspecteur, en hier schuilt de meest geavanceerde AI. Deze tak heeft twee smaken:
Eenderzijds is er ‘De Specialist’. Dit is een AI-model dat je, net als een leerling, traint voor één specifieke taak. Door het honderden voorbeelden van ‘mortelresten’ te tonen, wordt het een bliksemsnelle en hypernauwkeurige expert in het herkennen van precies dat ene defect. Ideaal voor repetitieve, grootschalige inspecties waar snelheid en betrouwbaarheid cruciaal zijn.
Anderzijds hebben we ‘De flexibele Detective’. Het meest revolutionaire onderdeel is een AI (OWOD) waartegen je gewoon kunt ‘praten’. Zonder enige training kun je de opdracht geven: "zoek naar een metalen schroef" of "vind cement". Het model gebruikt zijn immense, vooraf getrainde kennis over de wereld om objecten te herkennen en lokaliseren op basis van een tekstuele beschrijving. Dit maakt het systeem ongelooflijk flexibel. Een fabriek kan vandaag batterijen inspecteren en morgen een compleet ander product, zonder dure en tijdrovende AI-trainingsprocessen te moeten doorlopen.
De proef op de som: Van bouwwerf tot consumentenelektronica
Om de veelzijdigheid te bewijzen, werd het systeem op twee totaal verschillende cases getest.
Voor de steigerbuizen bleek de combinatie van een normale camera met de nabij-infraroodcamera een gouden zet. De getrainde ‘Specialist’ AI haalde een detectiescore van meer dan 98%, en presteerde daarmee beter ten opzichte van een inspectie met enkel een gewone camera. Dit levert een concrete bijdrage aan de veiligheid op de bouwwerf.

Bij de e-bike batterijen lag de focus op geometrische perfectie. Hier toonde de 3D-analist zijn waarde. Door de scan te vergelijken met een perfect model, werden alle ontbrekende schroeven en scheurtjes van een paar millimeter feilloos gedetecteerd. Een interessant resultaat was dat het toevoegen van dieptedata aan de 2D-inspectie hier weinig tot geen meerwaarde bood; de textuur en kleur van de schroeven waren voor de AI al voldoende informatie. Dit toont dat meer informatie geven aan de AI niet altijd beter is als ze niet relevant is.
Een toekomstbestendig platform voor kwaliteit
Deze thesis levert meer dan alleen een oplossing voor steigerpijpen of batterijen. Het levert een blauwdruk voor een modulair en schaalbaar inspectieplatform. Door de slimme, losgekoppelde architectuur kunnen nieuwe sensoren (zoals thermische camera’s) of geavanceerdere AI-modellen in de toekomst eenvoudig worden toegevoegd.
Het onderzoek toont aan dat de combinatie van klassieke computervisie en de nieuwste generatie AI-modellen de sleutel is tot robuuste industriële inspectie. Terwijl ‘flexibele’ modellen een ongekende veelzijdigheid bieden, blijven gespecialiseerde, getrainde modellen voorlopig de koning als het op pure precisie en snelheid aankomt. Door het beste van beide werelden te verenigen, bouwen we aan een toekomst met veiligere constructies, betrouwbaardere producten en efficiëntere fabrieken. En dat alles dankzij een AI-oog dat nooit knippert.
3.3.9.7. Otsu thresholding—Scipy lecture notes. (n.d.). Retrieved 20 May 2025, from https://scipy-lectures.org/packages/scikit-image/auto_examples/plot_thr…
Adams, R., & Bischof, L. (1994). Seeded region growing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 16(6), 641–647. https://doi.org/10.1109/34.295913
Alaa, A. (n.d.). Week 6: Region Growing and Clustering Segmentation). Tutorials for SBME Students. Retrieved 20 May 2025, from https://sbme-tutorials.github.io/2019/cv/notes/6_week6.html
Argirusis, N., Achilleos, A., Alizadeh, N., Argirusis, C., & Sourkouni, G. (2025). IR Sensors, Related Materials, and Applications. Sensors, 25(3), Article 3. https://doi.org/10.3390/s25030673
Badrinarayanan, V., Kendall, A., & Cipolla, R. (2017). SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12), 2481–2495. https://doi.org/10.1109/TPAMI.2016.2644615
Besl, P. J., & McKay, N. D. (1992). A method for registration of 3-D shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(2), 239–256. https://doi.org/10.1109/34.121791
Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., Arx, S. von, Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (No. arXiv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners.
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-End Object Detection with Transformers. Computer Vision – ECCV 2020, 213–229. https://doi.org/10.1007/978-3-030-58452-8_13
Charles, R. Q., Su, H., Kaichun, M., & Guibas, L. J. (2017). PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 77–85. https://doi.org/10.1109/CVPR.2017.16
Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2018). DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834–848. https://doi.org/10.1109/TPAMI.2017.2699184
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations.
Çınar, Z. M., Nuhu, A. A., Zeeshan, Q., Korhan, O., Asmael, M., & Safaei, B. (2020). Machine Learning in Predictive Maintenance towards Sustainable Smart Manufacturing in Industry 4.0. Sustainability, 12(19), 8211. https://doi.org/10.3390/su12198211
CVAT.ai Corporation. (2023). Computer Vision Annotation Tool (CVAT) (Version 2.25.0) [Python]. https://github.com/cvat-ai/cvat (Original work published 2018)
Dice, L. R. (1945). Measures of the Amount of Ecologic Association Between Species. Ecology, 26(3), 297–302. https://doi.org/10.2307/1932409
dos Santos, C. A. T., Lopo, M., Páscoa, R. N. M. J., & Lopes, J. A. (2013). A Review on the Applications of Portable Near-Infrared Spectrometers in the Agro-Food Industry. Applied Spectroscopy, 67(11), 1215–1233. https://doi.org/10.1366/13-07228
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021a). AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021b). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (No. arXiv:2010.11929; Version 2). arXiv. https://doi.org/10.48550/arXiv.2010.11929
Everingham, M., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2010). The Pascal Visual Object Classes (VOC) Challenge. International Journal of Computer Vision, 88(2), 303–338. https://doi.org/10.1007/s11263-009-0275-4
Figure 10: Cameraman image filtered with a Sobel kernel of dimension 3. (n.d.). ResearchGate. Retrieved 20 May 2025, from https://www.researchgate.net/figure/Cameraman-image-filtered-with-a-Sob…
Golnabi, H., & Asadpour, A. (2007). Design and application of industrial machine vision systems. Robotics and Computer-Integrated Manufacturing, 23(6), 630–637. https://doi.org/10.1016/j.rcim.2007.02.005
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. https://www.researchgate.net/publication/320703571_Ian_Goodfellow_Yoshu…
Graham, B., El-Nouby, A., Touvron, H., Stock, P., Joulin, A., Jegou, H., & Douze, M. (2021). LeViT: A Vision Transformer in ConvNet’s Clothing for Faster Inference. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 12239–12249. https://doi.org/10.1109/ICCV48922.2021.01204
He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2021). Masked Autoencoders Are Scalable Vision Learners (No. arXiv:2111.06377). arXiv. https://doi.org/10.48550/arXiv.2111.06377
He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15979–15988. https://doi.org/10.1109/CVPR52688.2022.01553
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum Contrast for Unsupervised Visual Representation Learning. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 9726–9735. https://doi.org/10.1109/CVPR42600.2020.00975
He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2018). Mask R-CNN (No. arXiv:1703.06870; Version 3). arXiv. https://doi.org/10.48550/arXiv.1703.06870
He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2020). Mask R-CNN. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(2), 386–397. https://doi.org/10.1109/TPAMI.2018.2844175
Hoppe, H., DeRose, T., Duchamp, T., McDonald, J., & Stuetzle, W. (1992). Surface reconstruction from unorganized points. SIGGRAPH Comput. Graph., 26(2), 71–78. https://doi.org/10.1145/142920.134011
Horowitz, S. L., & Pavlidis, T. (1976). Picture Segmentation by a Tree Traversal Algorithm. Journal of the ACM, 23(2), 368–388. https://doi.org/10.1145/321941.321956
Huang, Q., Tian, H., Jia, L., Li, Z., & Zhou, Z. (2023). A review of deep learning segmentation methods for carotid artery ultrasound images. Neurocomputing, 545, 126298. https://doi.org/10.1016/j.neucom.2023.126298
Huang, Z., Liu, H., Zhang, H., Li, X., Liu, H., Xing, F., Laine, A., Angelini, E., Hendon, C., & Gan, Y. (2023). Push the Boundary of SAM: A Pseudo-label Correction Framework for Medical Segmentation (No. arXiv:2308.00883). arXiv. https://doi.org/10.48550/arXiv.2308.00883
HumanSignal/label-studio. (2025). [JavaScript]. HumanSignal. https://github.com/HumanSignal/label-studio (Original work published 2019)
Image Segmentation: Deep Learning vs Traditional [Guide]. (n.d.). Retrieved 20 May 2025, from https://www.v7labs.com/blog/image-segmentation-guide
Image segmentation detailed overview [Updated 2024]. (n.d.). SuperAnnotate. Retrieved 20 May 2025, from https://www.superannotate.com/blog/image-segmentation-for-machine-learn…
Jia, C., Yang, Y., Xia, Y., Chen, Y.-T., Parekh, Z., Pham, H., Le, Q. V., Sung, Y., Li, Z., & Duerig, T. (2021). Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision (No. arXiv:2102.05918). arXiv. https://doi.org/10.48550/arXiv.2102.05918
Jing, L., & Tian, Y. (2021). Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(11), 4037–4058. https://doi.org/10.1109/TPAMI.2020.2992393
Joseph, K. J., Khan, S., Khan, F. S., & Balasubramanian, V. N. (2021). Towards Open World Object Detection. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 5826–5836. https://doi.org/10.1109/CVPR46437.2021.00577
Kass, M., Witkin, A., & Terzopoulos, D. (1988). Snakes: Active contour models. International Journal of Computer Vision, 1(4), 321–331. https://doi.org/10.1007/BF00133570
Kazhdan, M., Bolitho, M., & Hoppe, H. (2006). Poisson surface reconstruction.
Khan, S., Naseer, M., Hayat, M., Zamir, S. W., Khan, F. S., & Shah, M. (2022). Transformers in Vision: A Survey. ACM Computing Surveys, 54(10s), 1–41. https://doi.org/10.1145/3505244
Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., Dollár, P., & Girshick, R. (2023). Segment Anything (No. arXiv:2304.02643). arXiv. https://doi.org/10.48550/arXiv.2304.02643
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84–90. https://doi.org/10.1145/3065386
Li, W., Hsu, C.-Y., Wang, S., Yang, Y., Lee, H., Liljedahl, A., Witharana, C., Yang, Y., Rogers, B. M., Arundel, S. T., Jones, M. B., McHenry, K., & Solis, P. (2024). Segment Anything Model Can Not Segment Anything: Assessing AI Foundation Model’s Generalizability in Permafrost Mapping. Remote Sensing, 16(5), Article 5. https://doi.org/10.3390/rs16050797
Li, X., Deng, R., Tang, Y., Bao, S., Yang, H., & Huo, Y. (2023). Leverage Weakly Annotation to Pixel-wise Annotation via Zero-shot Segment Anything Model for Molecular-empowered Learning (No. arXiv:2308.05785). arXiv. https://doi.org/10.48550/arXiv.2308.05785
Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C. L. (2014). Microsoft COCO: Common Objects in Context. Computer Vision – ECCV 2014, 740–755. https://doi.org/10.1007/978-3-319-10602-1_48
Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Jiang, Q., Li, C., Yang, J., Su, H., Zhu, J., & Zhang, L. (2024). Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection. Computer Vision – ECCV 2024, 38–55. https://doi.org/10.1007/978-3-031-72970-6_3
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 9992–10002. https://doi.org/10.1109/ICCV48922.2021.00986
Liu, Z., Xin, X., Xu, Z., Zhou, W., Wang, C., Chen, R., & He, Y. (2023). Robust and Accurate Feature Detection on Point Clouds. Computer-Aided Design, 164, 103592. https://doi.org/10.1016/j.cad.2023.103592
Lowe, D. G. (2004). Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 60(2), 91–110. https://doi.org/10.1023/B:VISI.0000029664.99615.94
LSR S-GL. (n.d.). Retrieved 21 May 2025, from https://docs.mech-mind.net/en/eye-3d-camera/latest/hardware/specificati…
Luo, J., Yang, Z., Cao, Y., Wen, T., & Li, D. (2025). RT-DETR-MCDAF: Multimodal Fusion of Visible Light and Near-Infrared Images for Citrus Surface Defect Detection in the Compound Domain. Agriculture, 15(6), Article 6. https://doi.org/10.3390/agriculture15060630
Luo, Y., & Luo, Z. (2023). Infrared and Visible Image Fusion: Methods, Datasets, Applications, and Prospects. Applied Sciences, 13(19), 10891. https://doi.org/10.3390/app131910891
MATHEW, E. E., & CHHABRA, D. (n.d.). Product Condition Evaluation by a 3D Vision System on a Robot for Robotic Disassembly of Electric Vehicle Batteries and Bike Batteries. KU Leuven.
Milletari, F., Navab, N., & Ahmadi, S.-A. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 2016 Fourth International Conference on 3D Vision (3DV), 565–571. https://doi.org/10.1109/3DV.2016.79
Minderer, M., Gritsenko, A., & Houlsby, N. (2024). Scaling Open-Vocabulary Object Detection (No. arXiv:2306.09683). arXiv. https://doi.org/10.48550/arXiv.2306.09683
Minderer, M., Gritsenko, A., Stone, A., Neumann, M., Weissenborn, D., Dosovitskiy, A., Mahendran, A., Arnab, A., Dehghani, M., Shen, Z., Wang, X., Zhai, X., Kipf, T., & Houlsby, N. (2022). Simple Open-Vocabulary Object Detection with Vision Transformers (No. arXiv:2205.06230). arXiv. https://doi.org/10.48550/arXiv.2205.06230
Muja, M., & Lowe, D. G. (2009). FAST APPROXIMATE NEAREST NEIGHBORS WITH AUTOMATIC ALGORITHM CONFIGURATION: Proceedings of the Fourth International Conference on Computer Vision Theory and Applications, 331–340. https://doi.org/10.5220/0001787803310340
Otsu, N. (1979). A Threshold Selection Method from Gray-Level Histograms. IEEE Transactions on Systems, Man, and Cybernetics, 9(1), 62–66. https://doi.org/10.1109/TSMC.1979.4310076
(PDF) A Deep Neural Network for Oil Spill Semantic Segmentation in Sar Images. (2025, May 19). ResearchGate. https://doi.org/10.1109/ICIP.2018.8451113
(PDF) Comparison of Fully Convolutional Networks (FCN) and U-Net for Road Segmentation from High Resolution Imageries. (2025). ResearchGate. https://doi.org/10.30897/ijegeo.737993
Pomerleau, F., Colas, F., & Siegwart, R. (2015). A Review of Point Cloud Registration Algorithms for Mobile Robotics. https://ieeexplore.ieee.org/document/8187578
PRO S-GL and PRO M-GL. (n.d.). Retrieved 21 May 2025, from https://docs.mech-mind.net/en/eye-3d-camera/latest/hardware/specificati…
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision.
Ravi, N., Gabeur, V., Hu, Y.-T., Hu, R., Ryali, C., Ma, T., Khedr, H., Rädle, R., Rolland, C., Gustafson, L., Mintun, E., Pan, J., Alwala, K. V., Carion, N., Wu, C.-Y., Girshick, R., Dollár, P., & Feichtenhofer, C. (2024a). SAM 2: Segment Anything in Images and Videos (No. arXiv:2408.00714). arXiv. https://doi.org/10.48550/arXiv.2408.00714
Ravi, N., Gabeur, V., Hu, Y.-T., Hu, R., Ryali, C., Ma, T., Khedr, H., Rädle, R., Rolland, C., Gustafson, L., Mintun, E., Pan, J., Alwala, K. V., Carion, N., Wu, C.-Y., Girshick, R., Dollár, P., & Feichtenhofer, C. (2024b). SAM 2: Segment Anything in Images and Videos (No. arXiv:2408.00714). arXiv. https://doi.org/10.48550/arXiv.2408.00714
Ren, S., He, K., Girshick, R., & Sun, J. (2017). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6), 1137–1149. https://doi.org/10.1109/TPAMI.2016.2577031
Ren, Z., Fang, F., Yan, N., & Wu, Y. (2022). State of the Art in Defect Detection Based on Machine Vision. International Journal of Precision Engineering and Manufacturing-Green Technology, 9(2), 661–691. https://doi.org/10.1007/s40684-021-00343-6
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 234–241. https://doi.org/10.1007/978-3-319-24574-4_28
Rosenfeld, A., & De La Torre, P. (1983). Histogram concavity analysis as an aid in threshold selection. IEEE Transactions on Systems, Man, and Cybernetics, SMC-13(2), 231–235. https://doi.org/10.1109/TSMC.1983.6313118
Rusinkiewicz, S., & Levoy, M. (2001). Efficient variants of the ICP algorithm. Proceedings Third International Conference on 3-D Digital Imaging and Modeling, 145–152. https://doi.org/10.1109/IM.2001.924423
Rusu, R. B., & Cousins, S. (2011). 3D is here: Point Cloud Library (PCL). 2011 IEEE International Conference on Robotics and Automation, 1–4. https://doi.org/10.1109/ICRA.2011.5980567
Sabri, V., Tahan, S. A., Pham, X. T., Moreau, D., & Galibois, S. (2016). Fixtureless profile inspection of non-rigid parts using the numerical inspection fixture with improved definition of displacement boundary conditions. The International Journal of Advanced Manufacturing Technology, 82(5–8), 1343–1352. https://doi.org/10.1007/s00170-015-7425-3
Schnabel, R., Wahl, R., & Klein, R. (2007). Efficient RANSAC for Point-Cloud Shape Detection. Computer Graphics Forum, 26(2), 214–226. https://doi.org/10.1111/j.1467-8659.2007.01016.x
Schraml, D., & Notni, G. (2024). Synthetic Training Data in AI-Driven Quality Inspection: The Significance of Camera, Lighting, and Noise Parameters. Sensors (Basel, Switzerland), 24(2), 649. https://doi.org/10.3390/s24020649
Serra, J., & Cressie. (1982). Image analysis and mathematical morphology. https://www.researchgate.net/publication/238273912_Image_analysis_and_m…
Shelhamer, E., Long, J., & Darrell, T. (2017). Fully Convolutional Networks for Semantic Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4), 640–651. https://doi.org/10.1109/TPAMI.2016.2572683
Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition (No. arXiv:1409.1556). arXiv. https://doi.org/10.48550/arXiv.1409.1556
Sobel, E. (1970). CAMERA MODELS AND MACHINE PERCEPTION - ProQuest. https://www.proquest.com/openview/c051205a85f18112e06cb51e57d9379e/1?cb…
Steger, C., Ulrich, M., & Wiedemann, c. (2018). Machine Vision Algorithms and Applications. https://www.researchgate.net/publication/322754740_Machine_Vision_Algor…
Strudel, R., Garcia, R., Laptev, I., & Schmid, C. (2021). Segmenter: Transformer for Semantic Segmentation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 7242–7252. https://doi.org/10.1109/ICCV48922.2021.00717
Sun, K., Xiao, B., Liu, D., & Wang, J. (2019). Deep High-Resolution Representation Learning for Human Pose Estimation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 5686–5696. https://doi.org/10.1109/CVPR.2019.00584
SuperAnnotate | Centralize Data Ops for Multimodal AI. (n.d.). SuperAnnotate. Retrieved 21 May 2025, from https://www.superannotate.com
U-Net—An overview | ScienceDirect Topics. (n.d.). Retrieved 20 May 2025, from https://www.sciencedirect.com/topics/computer-science/u-net
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (n.d.). Attention is All you Need.
Vincent, L., & Soille, P. (1991). Watersheds in digital spaces: An efficient algorithm based on immersion simulations. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(6), 583–598. https://doi.org/10.1109/34.87344
Wang, W. (2025). X-AnyLabeling [Python]. https://github.com/ultralytics/ultralytics (Original work published 2023)
Wang, W., Xie, E., Li, X., Fan, D.-P., Song, K., Liang, D., Lu, T., Luo, P., & Shao, L. (2021). Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 548–558. https://doi.org/10.1109/ICCV48922.2021.00061
Wang, Y., & Solomon, J. (2019). Deep Closest Point: Learning Representations for Point Cloud Registration. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 3522–3531. https://doi.org/10.1109/ICCV.2019.00362
Woo, S., Debnath, S., Hu, R., Chen, X., Liu, Z., Kweon, I. S., & Xie, S. (2023). ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16133–16142. https://doi.org/10.1109/CVPR52729.2023.01548
Zhang, Z., & Zhu, L. (2023). A Review on Unmanned Aerial Vehicle Remote Sensing: Platforms, Sensors, Data Processing Methods, and Applications. Drones, 7(6), 398. https://doi.org/10.3390/drones7060398
Zhao, H., Shi, J., Qi, X., Wang, X., & Jia, J. (2017a). Pyramid Scene Parsing Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6230–6239. https://doi.org/10.1109/CVPR.2017.660
Zhao, H., Shi, J., Qi, X., Wang, X., & Jia, J. (2017b). Pyramid Scene Parsing Network (No. arXiv:1612.01105; Version 2). arXiv. https://doi.org/10.48550/arXiv.1612.01105
Zheng, S., Lu, J., Zhao, H., Zhu, X., Luo, Z., Wang, Y., Fu, Y., Feng, J., Xiang, T., Torr, P. H. S., & Zhang, L. (2021a). Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6877–6886. https://doi.org/10.1109/CVPR46437.2021.00681
Zheng, S., Lu, J., Zhao, H., Zhu, X., Luo, Z., Wang, Y., Fu, Y., Feng, J., Xiang, T., Torr, P. H. S., & Zhang, L. (2021b). Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (No. arXiv:2012.15840; Version 3). arXiv. https://doi.org/10.48550/arXiv.2012.15840
Zhong, Y., Yang, J., Zhang, P., Li, C., Codella, N., Li, L. H., Zhou, L., Dai, X., Yuan, L., Li, Y., & Gao, J. (2022). RegionCLIP: Region-based Language-Image Pretraining. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16772–16782. https://doi.org/10.1109/CVPR52688.2022.01629
Zhou, C., Wu, Y., Sterkens, W., Piessens, M., Vandewalle, P., & Peeters, J. R. (2024). Towards robotic disassembly: A comparison of coarse-to-fine and multimodal fusion screw detection methods. Journal of Manufacturing Systems, 74, 633–646. https://doi.org/10.1016/j.jmsy.2024.04.024
Zhou, Q.-Y., Park, J., & Koltun, V. (2018). Open3D: A Modern Library for 3D Data Processing (No. arXiv:1801.09847). arXiv. https://doi.org/10.48550/arXiv.1801.09847
Zhou, X., Girdhar, R., Joulin, A., Krähenbühl, P., & Misra, I. (2022). Detecting Twenty-Thousand Classes Using Image-Level Supervision. Computer Vision – ECCV 2022, 350–368. https://doi.org/10.1007/978-3-031-20077-9_21