Vaarwel handleidingen: een slimme assistent die over je schouder kijkt en meehelpt

Xander
Vanparys

Iedereen die al eens een IKEA-kast heeft gemonteerd, kent het gevoel: de handleiding lijkt eenvoudig, tot je halverwege niet meer weet welke plank waar hoort of merkt dat je een stap moet herdoen.
Wat als er iemand — of iets — kon meekijken en in je kamer aanwijzen welke onderdelen je nu nodig hebt, wanneer je een fout maakt én wat je als volgende stap moet doen?


Wat als de handleiding kon terugpraten?

We hebben allemaal al eens gevloekt op een onduidelijke handleiding of een eindeloze YouTube-tutorial. In mijn masteronderzoek probeerde ik daar een oplossing voor te bouwen: een AI-systeem dat niet alles oplost, maar wél met je meekijkt, in 3D aanduidt welke onderdelen je nodig hebt en feedback geeft terwijl je een taak uitvoert.

Traditionele handleidingen en instructievideo’s tonen elke stap op papier of scherm, maar begrijpen niet wat de gebruiker écht doet. Daardoor blijven ze beperkt: als er iets niet klopt of afwijkt, sta je er alleen voor.

Dat is een probleem dat zich niet alleen bij IKEA voordoet. Professoren en dokters moeten medische handelingen of apparaten vaak meerdere keren uitleggen aan studenten, terwijl ze al een overvolle agenda hebben. Ook in bedrijven moeten elk jaar opnieuw nieuwe medewerkers opgeleid worden om met specifieke apparatuur te leren werken. Dat kost enorm veel tijd van experts die die tijd eigenlijk niet hebben.

Video’s zijn al een stap vooruit, maar zodra er iets kleins verschilt — een ander toestel, een foutje, een afwijkende situatie — loop je weer vast.

Wat als een expert maar één keer iets moest voordoen? Een slimme assistent zou daarna zelf nieuwe mensen kunnen helpen, fouten herkennen en in hun omgeving aanduiden wat ze moeilijk zouden terugvinden of nodig hebben.
 


De AI-coach tot leven wekken

A street with buildings and a green aurora borealis in the sky</p>
<p>AI-generated content may be incorrect.In mijn onderzoek bracht ik dat idee een stap dichter bij de realiteit. Tijdens mijn Erasmus in Noorwegen, waar het noorderlicht af en toe boven de campus verscheen, ontwikkelde ik een app waarmee een AI-coach via je smartphone mee over je schouder kijkt en stap voor stap volgt of een handeling correct wordt uitgevoerd. Daarbij maakt het gebruik van artificiële intelligentie die zowel tekst als beelden kan begrijpen. Zo kan de AI niet alleen lezen wat er moet gebeuren, maar ook zien of dat effectief gebeurt. Op het scherm verschijnen 3D-aanwijzingen die letterlijk tonen wát of wáár iets moet gebeuren — alsof een digitale mentor in je kamer pijlen of markeringen plaatst om je te helpen.

 

Om dat te testen, voerde ik eerst verschillende kleine experimenten uit met alledaagse taken. De AI moest bijvoorbeeld herkennen of iemand een fles water had vastgenomen, een trui had aangetrokken of de batterijen van een computermuis had vervangen. Bij elke stap kreeg het systeem een afbeelding vanuit het perspectief van de gebruiker te zien en moest het beoordelen of de handeling juist was uitgevoerd. Ging er iets mis, dan gaf de AI feedback — kort en duidelijk — zodat de gebruiker wist wat de volgende stap was.

Gebruik van de app

Al snel bleek dat de AI eenvoudige taken verrassend goed kon volgen. Zodra de opdrachten complexer werden of meer precisie vroegen, merkte ik dat de beelden een cruciale rol speelden. Een wazige of slecht belichte foto kon er bijvoorbeeld voor zorgen dat het systeem dacht dat een stap al voltooid was, terwijl dat niet zo was. Toch waren de resultaten veelbelovend: met duidelijke beelden en goed omschreven stappen kon de AI op een betrouwbare manier meedenken met de gebruiker.

 

Van experiment naar praktijk

Na de eerste experimenten met alledaagse taken gingen we een stap verder. Om te zien hoe bruikbaar het systeem zou zijn in echte leeromgevingen, testten we twee realistische scenario’s: een medische oefening waarbij studenten een kijkonderzoek in de maag moesten voorbereiden, en het opzetten van een VR-installatie waarbij de gebruiker op een speciale loopband kan rondwandelen in virtuele werelden.

 

A person wearing virtual reality goggles</p>
<p>AI-generated content may be incorrect.In dat laatste scenario probeerden we de AI uit te dagen. Volgens de instructies moest de gebruiker de VR-bril opzetten — dus zetten we hem expres verkeerd om, met het scherm op het achterhoofd. We waren benieuwd of de AI zich liet foppen. In de meeste gevallen liet ze echter niet met zich sollen: het systeem herkende dat er iets niet klopte en gaf de juiste feedback.

De reacties van de testgebruikers waren minstens even interessant als de resultaten zelf. Eén deelnemer lachte: “Het voelt alsof de AI echt met me meekijkt — bijna een beetje griezelig, maar vooral handig.” Anderen gaven aan dat het systeem hen hielp om niet te blijven hangen bij kleine fouten, precies wat een menselijke coach ook zou doen.


De laatste loodjes in het noorderlicht

Noorwegen was prachtig, en misschien heb ik er iets té veel van genoten — want de laatste weken van mijn thesis werden daardoor behoorlijk intens. Soms werkte ik tot diep in de nacht door om alles af te krijgen. En dan was het een vreemd gevoel om om half twee ’s nachts buiten te stappen en te merken dat het nog steeds licht was, zoals dat in de Noorse zomer kan.

 

A person wearing goggles</p>
<p>AI-generated content may be incorrect.Na de succesvolle werking op de smartphone was de volgende stap duidelijk: de AI-coach naar een AR-bril zoals de Apple Vision Pro brengen, zodat gebruikers beide handen vrij hebben. Dat plan moet later worden afgewerkt, want mijn tijd in het mooie Noorwegen zat erop en ik moest terug naar België. Ik kreeg gelukkig nog de kans om de bril eens kort uit te proberen in het lab :). Maar het zaadje was geplant: de technologie werkt, en de toekomst is klaar voor een handleiding die écht met je meewerkt.

Bibliografie

 

[1] [2] [3] [4] [5] [6] [7] [8] [9] R. T. Azuma, ‘A survey of augmented reality,’ Presence: Teleoperators & Vir-

tual Environments, vol. 6, no. 4, pp. 355–385, 1997. DOI: 10.1162/pres.

1997.6.4.355.

M. Billinghurst, A. Clark and G. Lee, ‘A survey of augmented reality,’ Found-

ations and Trends in Human–Computer Interaction, vol. 8, no. 2-3, pp. 73–

272, 2015. DOI: 10.1561/1100000049.

M. Dunleavy, C. Dede and R. Mitchell, ‘Affordances and limitations of

immersive participatory augmented reality simulations for teaching and

learning,’ Journal of Science Education and Technology, vol. 18, no. 1, pp. 7–

22, 2009. DOI: 10.1007/s10956-008-9119-1.

M. B. Ibáñez and C. Delgado-Kloos, ‘Augmented reality for stem learning:

A systematic review,’ Computers & Education, vol. 123, pp. 109–123, 2018.

DOI: 10.1016/j.compedu.2018.05.002.

I. Radu, ‘Augmented reality in education: A meta-review and cross-media

analysis,’ Personal and Ubiquitous Computing, vol. 18, no. 6, pp. 1533–

1543, 2014. DOI: 10.1007/s00779-013-0747-y.

S. Srinidhi, E. Lu and A. Rowe, ‘Xair: An xr platform that integrates large

language models with the physical world,’ in 2024 IEEE International Sym-

posium on Mixed and Augmented Reality (ISMAR), 2024, pp. 759–767. DOI:

10.1109/ISMAR62088.2024.00091.

S. Ren, K. He, R. Girshick and J. Sun, Faster r-cnn: Towards real-time object

detection with region proposal networks, 2016. DOI: 10.48550/ARXIV.1506.

01497. arXiv: 1506.01497 [cs.CV]. [Online]. Available: https://arxiv.

org/abs/1506.01497.

J. Redmon, S. Divvala, R. Girshick and A. Farhadi, ‘You only look once:

Unified, real-time object detection,’ in Proceedings of the IEEE Conference

on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779–788.

DOI: 10.1109/CVPR.2016.91.

J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson et al.,

‘Flamingo: A visual language model for few-shot learning,’ in Advances in

Neural Information Processing Systems, 2022, pp. 360–380. [Online]. Avail-

able: https://arxiv.org/abs/2204.14198.

135136 Xander Vanparys: AI for Educational AR Experiences

[10] OpenAI, Hello gpt-4o, https://openai.com/index/hello- gpt- 4o/, Ac-

cessed 2025-06-22, May 2024.

[11] P. Sahoo, A. K. Singh, S. Saha, V. Jain, S. Mondal and A. Chadha, A system-

atic survey of prompt engineering in large language models: Techniques and

applications, 2025. DOI: 10.48550/ARXIV.2402.07927. arXiv: 2402.07927

[cs.AI]. [Online]. Available: https://arxiv.org/abs/2402.07927.

[12] J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le

and D. Zhou, ‘Chain-of-thought prompting elicits reasoning in large lan-

guage models,’ arXiv preprint arXiv:2201.11903, 2022. DOI: 10 . 48550 /

arXiv.2201.11903. [Online]. Available: https://arxiv.org/abs/2201.

11903.

[13] [14] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A.

Neelakantan, P. Shyam, G. Sastry, A. Askell et al., ‘Language models are

few-shot learners,’ arXiv preprint arXiv:2005.14165, 2020. DOI: 10.48550/

arXiv.2005.14165. [Online]. Available: https://arxiv.org/abs/2005.

14165.

X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, S. Narang, A. Chowdhery

and D. Zhou, ‘Self-consistency improves chain of thought reasoning in lan-

guage models,’ arXiv preprint arXiv:2203.11171, 2022. DOI: 10 . 48550 /

arXiv.2203.11171. [Online]. Available: https://arxiv.org/abs/2203.

11171.

[15] T. Van Gog, F. Paas, J. J. Van Merriënboer and P. Witte, ‘Uncovering the

problem-solving process: Cued retrospective reporting versus concurrent

and retrospective reporting,’ Journal of Experimental Psychology: Applied,

vol. 11, no. 4, pp. 237–244, 2005. DOI: 10.1037/1076-898X.11.4.237.

[16] WEKIT ECS Project, Miragexr platform, https://github.com/WEKIT-ECS/

MIRAGE-XR, Accessed: 2025-06-21, 2024.

[17] Unity Technologies, Unity documentation, https://docs.unity3d.com/,

Accessed: 2025-06-21, 2024.

[18] Unity Technologies, Unity arfoundation documentation, https : / / docs .

unity3d . com / Packages / com . unity . xr . arfoundation @ 5 . 1 / manual /

index.html, Accessed: 2025-06-21, 2024.

[19] G. Evans, J. Miller, M. I. Pena, A. MacAllister and E. Winer, ‘Evaluating the

Microsoft HoloLens through an augmented reality assembly application,’

in Degraded Environments: Sensing, Processing, and Display 2017, J. ( N.

Sanders-Reed and J. ( J. A. III, Eds., International Society for Optics and

Photonics, vol. 10197, SPIE, 2017, p. 101970V. DOI: 10.1117/12.2262626.

[Online]. Available: https://doi.org/10.1117/12.2262626.Bibliography 137

[20] C. Garcia, M. Ortega, E. Ivorra, M. Contero, P. Mora and M. L. Alcañiz, ‘Hol-

orailway: An augmented reality system to support assembly operations in

the railway industry,’ Advances in Manufacturing, vol. 12, no. 4, pp. 764–

783, 2024, ISSN: 2195-3597. DOI: 10.1007/s40436- 023- 00479- 5. [On-

line]. Available: https://doi.org/10.1007/s40436-023-00479-5.

[21] T. Richardson, S. Gilbert, J. Holub, F. Thompson, A. MacAllister, R.

Radkowski, E. Winer, P. Davies and S. Terry, ‘Fusing self-reported and

sensor data from mixed-reality training,’ in Proceedings of the Interser-

vice/Industry Training, Simulation & Education Conference (I/ITSEC), Paper

No. 14158; posted with permission, Arlington, VA: National Training and

Simulation Association (NTSA), 2014. [Online]. Available: https://dr.

lib.iastate.edu/handle/20.500.12876/44354.

[22] B. Limbu, A. Vovk, H. Jarodzka, R. Klemke, F. Wild and M. Specht,

‘Wekit.one: A sensor-based augmented reality system for experience cap-

ture and re-enactment,’ in Transforming Learning with Meaningful Tech-

nologies, M. Scheffel, J. Broisin, V. Pammer-Schindler, A. Ioannou and J.

Schneider, Eds., ser. Lecture Notes in Computer Science, vol. 11722, Cham:

Springer International Publishing, 2019, pp. 158–171, ISBN: 978-3-030-

29736-7. DOI: 10 . 1007 / 978 - 3 - 030 - 29736 - 7 _ 12. [Online]. Available:

https://doi.org/10.1007/978-3-030-29736-7_12.

[23] M. Shridhar, L. Manuelli and D. Fox, ‘Cliport: What and where pathways for

robotic manipulation,’ 2021. arXiv: 2109.12098 [cs.RO]. [Online]. Avail-

able: https://arxiv.org/abs/2109.12098.

[24] D. Gao, D. Driess, T. Nguyen, R. Mason, F. Fei, M. Toussaint et

al., ‘Palm-e: An embodied multimodal language model,’ arXiv preprint

arXiv:2303.03378, 2023. DOI: 10 . 48550 / arXiv . 2303 . 03378. [Online].

Available: https://arxiv.org/abs/2303.03378.

[25] R. Mon-Williams, G. Li, R. Long, W. Du et al., ‘Embodied large language

models enable robots to complete complex tasks in unpredictable environ-

ments,’ Nature Machine Intelligence, vol. 7, no. 6, pp. 592–601, 2025. DOI:

10.1038/s42256-025-01005-x.

[26] [27] X. Liang, J. Ye, Y. Wang, H. He, Y. Tang, J. Sun et al., ‘Taskmatrix.ai: Com-

pleting tasks by connecting foundation models with millions of apis,’ arXiv

preprint arXiv:2303.16434, 2023. DOI: 10.48550/arXiv.2303.16434. [On-

line]. Available: https://arxiv.org/abs/2303.16434.

D. Stover and D. A. Bowman, ‘TAGGAR: General-purpose task guidance

from natural language in augmented reality using vision-language mod-

els,’ in Proceedings of the ACM Symposium on Spatial User Interaction (SUI),

2024. DOI: 10.1145/3677386.3682095.

Download scriptie (85.8 MB)
Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2025
Promotor(en)
Gabriel Hanssen Kiss, Pieter Simoens, Mikhail Fominykh