AI jury-assistent voor het herkennen van rope skipping skills in videos
Genomineerde longlist Bachelorprijs
Door de evolutie van de sport is het jureren van ropeskipping freestyles op hoog niveau moeilijk geworden. Zowel het aantal skills in de routine, alsook de snelheid waarmee ze worden uitgevoerd neemt toe. Dit is vooral te merken in Double Dutch freestyles. Daarom worden deze routines zowel live (creativiteit, variatie, muziekgebruik) als vertraagd (moeilijkheidsgraad) gejureerd.
Ondanks het feit dat freestyles op halve snelheid worden herbekeken en hierdoor jureerfouten worden vermeden, merkt men dat er nog enig verschil zit op scores toegekend door juryleden. Door de toegenomen toegankelijkheid van kunstmatige intelligentie, voornamelijk neurale netwerken, werd de vraag gesteld of een AI juryassistent ontwikkeld kan worden die helpt een betere en objectievere score zou opleveren.
Dit onderzoek verkent de mogelijkheid tot het bouwen van zo een juryassistent, de benodigde technieken en uitdagingen. De huidige vorm van de juryassistent bestaat uit drie hoofdzakelijke delen. Het eerste deel gaat over het lokaliseren van springers in de opnames. Niet alle videos zoomen in op de springer of zijn net eerder statische opname. Dit deel is noodzakelijk om computationele overhead te beperken, daar springers soms minder dan een vijfde van het beeld in beslag nemen.
De tweede groote stap is het splitsen van volledige routines in elke uitgevoerde skill. Dit wordt gedaan aangezien het onbegonnen werk zou zijn op om dit manueel te doen.
Het derde deel omvat het herkennen van de gesprongen skill. Voor Double Dutch Freestyles betekent dit een combinatie van uitvoering door draaiers en springers.
Door louter presentatieskills of moeilijk zichtbare skills te makeren als 'unknown' (e.g. wanneer een draaier tussen de springer en camera staat), wordt er verwacht dat het model aangeeft wanneer het niet zeker is.
Voor het lokaliseren slaagde YOLOv11 er in om een mAP50 te behalen tussen de 93-95\%, waarbij het succesvol publiek filterde van atleten, mits kleine foutjes. Hierdoor het Multiscale Vision Transformer model skills ingezoomde crops gebruiken om acties van elkaar te onderscheiden. Deze konden vervolgens herkend herkend worden hetzelfde MViT model of een doormiddel van een Swin Transformer. Het gemiddelde f1 macro gemiddelde van deze modellen lagen tussen de 49 en de 53 procent, door de lage representatie van minder vaak voorkomende skills. Immers lag de totale accuraatheid hoger, tussen de 89 en de 94 procent.
Dit zorgde ervoor dat juryscores door het model konden toegewezen, deze lagen -28 tot -20 procent onder de score toegekend door juryleden.
Verdere onderzoek is nodig om de accuraatheid van de architectuur te verhogen.
Meer lezen