Jurysporten en AI skillherkenning: gedaan subjectiviteit?

Mike

De Decker

Skillherkenning door Artificiële Intelligentie staat voor de deur. In jurysporten zoals rope skipping, artistieke gymnastiek of synchroonzwemmen zou er binnenkort wel eens een machinaal gestuurde juryassistent de routine kunnen beoordelen en zo helpen bij het bepalen van de score van de oefening.

Mike De Decker, een student toegepaste informatica aan de Hogeschool in Gent (HOGENT), creëerde voor zijn bachelorproef een juryassistent die rope skipping skills herkent in Double Dutch 3 (DD3) freestyles. DD3 is een specifiek onderdeel in rope skipping, waarbij er twee draaiers zijn en één springer. Je kan het vergelijken met de balk of ongelijke leggers in de gymnastiek of het hordelopen, verspringen of discuswerpen in de atletiek.

Voorbeeld van een DD3 freestyle op westrijd, met de skilleigenschappen van het geselecteerde fragment.

DD3 voorbeeld 2

## Wat is rope skipping?

Rope skipping is net als artistieke gymnastiek of dans een sport met veel creativiteit en verschillende elementen. Om te bepalen wie de beste, mooiste en moeilijkste routine of freestyle heeft, is er een jurypanel die volgens de juryhandleiding de freestyle live of vertraagd bekijken om een numerieke score toe te kennen. Aangezien dit soms voor subjectiviteit of menselijke fouten kan zorgen, kan een computergestuurde assistent hierbij helpen, idealiter onder het toeziend oog van een menselijke jury-expert.

## Hoe werkt de assistent?

Naar voorbeelden van beeldherkenning, gebarentaalherkenning of NextJump's speedcounter onderzocht Mike in zijn bachelorproef de mogelijkheid tot het herkennen van meerdere verschillende skills in een volledige video. Hierbij waren er drie grote obstakels, die de rode draad in de gehele architectuur van het AI-model vormden. Rope skipping freestyles duren namelijk 60 tot 75 seconden en zijn een aaneenschakeling van verschillende skills, die variabel zijn in lengte en op verschillende afstand worden gefilmd. Hieronder worden deze drie grote stappen kort toegelicht.

## Stap 1: Lokaliseren van de skippers

De eerste stap is het lokaliseren van de atleten. Deze zijn vaak gefilmd met statische camera's, of op verschillende zoomlevels, waardoor ze de ene keer dicht en de andere keer verder weg van de camera springen. Hierdoor kunnen ze uitgeknipt worden en kan elke pixel optimaal benut worden in de volgende stappen. Denk maar aan her verschil tussen het bekijken van een video op een mobiele telefoon ten opzichte van een computer op gelijke afstand. Het is toch makkelijker te zien wat er zich afspeelt op je computer?

Plaatsen waar het model denkt dat er een alteet is.

## Stap 2: Segmenteren van korte skill fragmenten.

Eenmaal ingezoomd kunnen we bepalen wanneer een skill start en eindigt. Dit concept is relatief eenvoudig, want doorgaans begint en eindigt een skill wanneer de springer de grond verlaat en terug op de grond landt. Immers moet er een touw onder kunnen. Deze momenten aanduiden en laten leren door de computer, zorgt voor freestyles te splitsen zijn in meerdere korte fragmenten die een skill zouden bevatten.

Voorspelling van het model waar skills starten en eindigen ten opzichte van de gemarkeerde tijdsstippen. De X-as geeft aan hoeveel afbeeldingen er reeds geweest zijn in de video. De y-as zegt of het een start/eind moment van een skill is. (1 = ja, 0 = nee)

## Stap 3: Herkennen van de skill

Eenmaal we deze verschillende fragmenten hebben, kunnen we het AI model voorbeeld skills laten analyseren om ongeziene skills laten voorspellen. Echter waren hier twee moeilijkheden.

Ten eerste bestaan skills uit verschillende elementen. Zo heb je 3 atleten, waarvan 2 draaiers en 1 springer en geef je aan wat de springer doet, wat draaier één doet, wat draaier twee doet, hoeveel touwrotaties er waren... Het model berekent dan alle verschillende elementen/eigenschappen, op basis van wat het leerde uit voorbeeldskills.

Ten tweede gaat over de skills die variëren in lengte. De ene skill wordt sneller uitgevoerd dan de andere, waar het model niet mee overweg kan. We willen dus skill fragementen van gelijke lengte. In essentie is een video een opeenvolging van afbeeldingen, denk maar aan een stopmotion. Stel dat een handstand uit 18 opeenvolgende afbeeldingen bestaat en een salto uit 15, dan kan je ervoor kiezen om afbeeldingen te dupliceren of te knippen om gelijke fragmenten te bekomen. Deze uniforme vorm van data is bruikbaar door AI modellen om te berekenen welke skills in de freestyles van springers zitten.

Hoevaak een bepaalde lengte van alle voorbeelskills voorkomt in aantal afbeelding per voorbeeld. Skills zijn dus minimaal 5 afbeeldingen en maximaal 51 afbeeldingen lang.

## Post AI skill herkenning

Eenmaal je weet welke skills in de freestyle zitten, kan je ze omzetten naar een numerieke score volgens de vooropgestelde juryhandleiding. Onder toeziend oog van een jury expert, kunnen freestyles transparanter, objectiever, accurater en door minder juryleden beoordeeld worden.

Deze technologie maakt het tevens mogelijk om een live score te geven tijdens de freestyle of om het aantrekkelijker te maken voor het publiek, door skillfragmenten opnieuw af te spelen met naam erbij.

Hoewel er nog veel foutieve voorspellingen zijn, door een gelimiteerde gelabelde dataset, begint de AI al basiselementen zoals een plankhouding (push-up), handstand (frog), split of salto te herkennen.

https://1drv.ms/v/c/6fa18b11a53f88a6/EWeE_YUHgkVJrhSFT4LIC3UB1WxjQLyZky…

(Video, predicted skills)

## Toekomst van de assistent

Als je de bachelorproef van Mike zou lezen, merk je dat er nog veel optimalisatiemogelijkheden zijn. Zo bestaat de mogelijk om de lokalisatiestap met de segmentatiestap te combineren en zo veel meer.

Een interessante optimalisatie momenteel in testfase is het idee om het model toepasbaar te maken op meerdere events en sportoverschrijdend in één gehele dataset. Echter zijn er nog onvoldoende voorbeeldfragmenten, laat staan voorbeeldenfragmenten uit van andere sporten. De grafiek hieronder toont de stijgende accuraatheid van de herkenningsfase in de set-up van de bachelorproef die enkel focuste op één event, namelijk Double Dutch single freestyle (DD3). Daarbij heeft niet elke skill voldoende voorbeelden om uit te leren, aldus is hogere accuraatheid uitgesloten.

Zodra de juryassistent nauwkeurig genoeg is, zal het consitent jureren over verschillende freestyles heen. Immers ondervind een AI model geen invloed van vermoeidheid, meningsverschillen tussen juryleden over correcte uitvoering, invloed de naam/club/team tijdens het jureren, invloed van bekende namen, regels die je vergeet of verkeerd onthoud, onoplettendheid enzovoort. Dit verhoogt de betrouwbaarheid van het jureren.

Grafiek die de accuraatheid toont van de verschillende eigenschappen van een skill, doorheen de tijd. (Draaiers, springer, rotaties, fouten...). De donkerste lijn is het gemiddelde.

Deze technologie is niet enkel interessant voor rope skipping, maar ook voor gymnastiek, synchroonzwemmen, kunstschaatsen en andere sporten. Verder is het een flexibele technologie die aangepast kan worden naar de vereiste toepassing, ook buiten jurysporten.

Bibliografie

Abdullah, A. S., & Alsaif, K. I. (2023). Still rings movements recognition in gymnastics
sport based on deep learning. Wasit Journal for Pure sciences, 2(1), 207–216.
Alharthi, A. S., Yunas, S. U., & Ozanyan, K. B. (2019). Deep learning for monitoring of
human gait: A review. IEEE Sensors Journal, 19(21), 9575–9591. https://doi.org/
10.1109/JSEN.2019.2928777
Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lučić, M., & Schmid, C. (2021). Vivit: A
video vision transformer. https://doi.org/https://doi.org/10.48550/arXiv.2103.
15691
Bharadiya, J. P. (2023). Convolutional neural networks for image classification. In-
ternational Journal of Innovative Science and Research Technology. https:
//doi.org/10.5281/zenodo.7952031
Bora, J., Dehingia, S., Boruah, A., Chetia, A. A., & Gogoi, D. (2023). Real-time assamese
sign language recognition using mediapipe and deep learning. Procedia
Computer Science, 218, 1384–1393. https : / / doi . org / https : / / doi . org / 10 . 1016 /
j.procs.2023.01.117
Cheng, H. K., Oh, S. W., Price, B., Lee, J.-Y., & Schwing, A. (2023). Putting the object
back into video object segmentation. https : / / doi . org / https : / / doi . org / 10 .
48550/arXiv.2310.12982
Coulibaly, S., Kamsu-Foguem, B., Kamissoko, D., & Traore, D. (2022). Deep convo-
lution neural network sharing for the multi-label images classification. Ma-
chine Learning with Applications, 10, 100422. https://doi.org/10.1016/j.mlwa.
2022.100422
Deepseek. (2025). Deepseek (april 2025 free version) [large language model]. Re-
trieved April 1, 2025, from https://deepseek.com
Diwakar & Raj, D. (2022). Recent object detection techniques: A survey. International
Journal of Image, Graphics and Signal Processing, 14(2), 47–60. https://doi.
org/10.5815/ijigsp.2022.02.05
Fan, H., Xiong, B., Mangalam, K., Li, Y., Yan, Z., Malik, J., & Feichtenhofer, C. (2021).
Multiscale vision transformers. https://doi.org/10.48550/ARXIV.2104.11227
Fujitsu. (2023). Fujitsu and the international gymnastics federation launch ai-
powered fujitsu judging support system for use in competition for all 10
apparatuses. Retrieved May 15, 2025, from https://www.fujitsu.com/global/
about/resources/news/press-releases/2023/1005-02.html

Gao, M., Zheng, F., Yu, J. J. Q., Shan, C., Ding, G., & Han, J. (2022). Deep learning for
video object segmentation: A review. Artificial Intelligence Review, 56(1), 457–
531. https://doi.org/10.1007/s10462-022-10176-7
Güler, R. A., Neverova, N., & Kokkinos, I. (2018). Densepose: Dense human pose esti-
mation in the wild. https://doi.org/https://doi.org/10.48550/arXiv.1802.00434
Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural
networks. https://doi.org/10.48550/ARXIV.1706.04599
Gymfed. (2017). Offiële records rope skipping [File updated in 2024]. Retrieved De-
cember 9, 2024, from https : / / www . gymfed . be / nieuws / officiele - records -
rope-skipping
Heiniger, S., & Mercier, H. (2018). Judging the judges: A general framework for eval-
uating the performance of international sports judges. https : / / doi . org / 10 .
48550/ARXIV.1807.10055
Howard, A., Sandler, M., Chu, G., Chen, L.-C., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang,
R., Vasudevan, V., Le, Q. V., & Adam, H. (2019). Searching for mobilenetv3. https:
//doi.org/https://doi.org/10.48550/arXiv.1905.02244
IJRU. (2023a). Live | world jump rope championships 2023 | day 1. International
Jump Rope Union. Retrieved December 18, 2024, from https://www.youtube.
com/watch?v=EqczXTJliyc
IJRU. (2023b). Live | world jump rope championships 2023 | day 8. International
Jump Rope Union. Retrieved December 18, 2024, from https://www.youtube.
com/watch?v=PnHdv-a4yWA
IJRU. (2024a). American records. Retrieved December 20, 2024, from https://www.
amjrf.com/page/show/8542453-us-national-records
IJRU. (2024b). World records. Retrieved December 9, 2024, from https://ijru.sport/
world-records
Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F.,
Green, T., Back, T., Natsev, P., Suleyman, M., & Zisserman, A. (2017). The kinetics
human action video dataset. https://doi.org/https://doi.org/10.48550/arXiv.
1705.06950
Khanam, R., & Hussain, M. (2024). Yolov11: An overview of the key architectural en-
hancements. https://doi.org/https://doi.org/10.48550/arXiv.2410.17725
Laue, R. (1999). Rope skipping records from all over the world. Retrieved December
9, 2024, from https://eherber.home.xs4all.nl/ropeskip/recordsm.htm
Lin, T.-Y., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan,
D., Zitnick, C. L., & Dollár, P. (2014). Microsoft coco: Common objects in context.
https://doi.org/https://doi.org/10.48550/arXiv.1405.0312
Lin, Z., Li, M., Zheng, Z., Cheng, Y., & Yuan, C. (2020). Self-attention convlstm for spa-
tiotemporal prediction. Proceedings of the AAAI Conference on Artificial In-
telligence, 34(07), 11531–11538. https://doi.org/10.1609/aaai.v34i07.6819

Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin trans-
former: Hierarchical vision transformer using shifted windows. https : / / doi .
org/https://doi.org/10.48550/arXiv.2103.14030
Liu, Z., Ning, J., Cao, Y., Wei, Y., Zhang, Z., Lin, S., & Hu, H. (2021). Video swin transformer.
https://doi.org/https://doi.org/10.48550/arXiv.2106.13230
Luqman, H., & Elalfy, E. (2022). Utilizing motion and spatial features for sign lan-
guage gesture recognition using cascaded cnn and lstm models. Turkish
Journal of Electrical Engineering and Computer Sciences, 30(7), 2508–2525.
https://doi.org/10.55730/1300-0632.3952
OpenAI. (2025). Chatgpt (april 2025 free version) [large language model]. Retrieved
April 1, 2025, from https://chatgpt.com
Pareek, P., & Thakkar, A. (2020). A survey on video-based human action recogni-
tion: Recent updates, datasets, challenges, and applications. Artificial Intel-
ligence Review, 54(3), 2259–2322. https : / / doi . org / https : / / doi . org / 10 . 1007 /
s10462-020-09904-8
Pourpanah, F., Abdar, M., Luo, Y., Zhou, X., Wang, R., Lim, C. P., Wang, X.-Z., & Wu,
Q. M. J. (2022). A review of generalized zero-shot learning methods. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 1–20. https : / /
doi.org/10.1109/TPAMI.2022.3191696
Qi, M., Wang, Y., Qin, J., Li, A., Luo, J., & Van Gool, L. (2020). Stagnet: An attentive se-
mantic rnn for group activity and individual action recognition. IEEE Trans-
actions on Circuits and Systems for Video Technology, 30(2), 549–565. https:
//doi.org/https://doi.org/DOI10.1109/TCSVT.2019.2894161
Qin, D., Leichner, C., Delakis, M., Fornoni, M., Luo, S., Yang, F., Wang, W., Banbury, C.,
Ye, C., Akin, B., Aggarwal, V., Zhu, T., Moro, D., & Howard, A. (2024). Mobilenetv4:
Universal models for the mobile ecosystem. In A. Leonardis, E. Ricci, S. Roth, O.
Russakovsky, T. Sattler & G. Varol (Eds.), Computer vision – eccv 2024 (pp. 78–
96). Springer Nature Switzerland. https://doi.org/https://doi.org/10.48550/
arXiv.2404.10518
Shi, X., Chen, Z., Wang, H., Yeung, D.-Y., Wong, W.-k., & Woo, W.-c. (2015). Convolu-
tional lstm network: A machine learning approach for precipitation nowcast-
ing. https://doi.org/https://doi.org/10.48550/arXiv.1506.04214
Singh Gill, H., Ibrahim Khalaf, O., Alotaibi, Y., Alghamdi, S., & Alassery, F. (2022). Fruit
image classification using deep learning. Computers, Materials & Con-
tinua, 71(3), 5135–5150. https://doi.org/10.32604/cmc.2022.022809
Song, L., Yu, G., Yuan, J., & Liu, Z. (2021). Human pose estimation and its application to
action recognition: A survey. Journal of Visual Communication and Image
Representation, 76, 103055. https://doi.org/10.1016/j.jvcir.2021.103055

Soomro, K., & Zamir, A. R. (2014). Action recognition in realistic sports videos. In Com-
puter vision in sports (pp. 181–208). Springer International Publishing. https:
//doi.org/10.1007/978-3-319-09396-3_9
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke,
V., & Rabinovich, A. (2014). Going deeper with convolutions. https://doi.org/
https://doi.org/10.48550/arXiv.1409.4842
Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., & Paluri, M. (2017). A closer look at
spatiotemporal convolutions for action recognition. https : / / doi . org / https :
//doi.org/10.48550/arXiv.1711.11248
Wang, H., Jiang, X., Ren, H., Hu, Y., & Bai, S. (2021). Swiftnet: Real-time video object
segmentation. https://doi.org/https://doi.org/10.48550/arXiv.2102.04604
Wang, L., Huang, B., Zhao, Z., Tong, Z., He, Y., Wang, Y., Wang, Y., & Qiao, Y. (2023).
Videomae v2: Scaling video masked autoencoders with dual masking. https:
//doi.org/https://doi.org/10.48550/arXiv.2303.16727
Wang, Y., Zhang, J., Zhu, H., Long, M., Wang, J., & Yu, P. S. (2019). Memory in memory:
A predictive neural network for learning higher-order non-stationarity from
spatiotemporal dynamics. https://doi.org/10.1109/CVPR.2019.00937
Wu, Y., Kirillov, A., Massa, F., Lo, W.-Y., & Girshick, R. (2019). Detectron2.
Yang, M., Gao, H., Guo, P., & Wang, L. (2023). Adapting short-term transformers for
action detection in untrimmed videos. https : / / doi . org / https : / / doi . org / 10 .
48550/arXiv.2312.01897
Yin, H., Sinnott, R. O., & Jayaputera, G. T. (2024). A survey of video-based human ac-
tion recognition in team sports. Artificial Intelligence Review, 57(11). https :
//doi.org/10.1007/s10462-024-10934-9
Zahan, S., Hassan, G. M., & Mian, A. (2023). Learning sparse temporal video mapping
for action quality assessment in floor gymnastics. https://doi.org/10.48550/
ARXIV.2301.06103
Zaidi, S. S. A., Ansari, M. S., Aslam, A., Kanwal, N., Asghar, M., & Lee, B. (2021). A survey
of modern deep learning based object detection models. https://doi.org/10.
48550/ARXIV.2104.11892
Zhengxia, Z., Keyan, C., Zhenwei, S., Yuhong, G., & Jieping, Y. (2019). Object detection
in 20 years: A survey. https://doi.org/https://doi.org/10.48550/arXiv.1905.05055
Zhou, J., Li, H., Lin, K.-Y., & Liang, J. (2023). Towards weakly supervised end-to-end
learning for long-video action recognition. https://doi.org/https://doi.org/10.
48550/arXiv.2311.17118