Nooit meer verblind: Leuvense student geeft zelfrijdende auto's ogen die tegen een stootje kunnen

Enmin
Lin

Een laagstaande zon, een tegenligger met felle koplampen of de plotselinge overgang van een donkere tunnel naar daglicht: het zijn momenten waarop zelfrijdende auto’s letterlijk even blind worden. Voor ons mens is dat al vervelend, maar voor een autonoom voertuig kan het ronduit gevaarlijk zijn. Masterstudent Enmin Lin (KU Leuven) ontwikkelde een slim camerasysteem dat wél bestand is tegen zulke extreme omstandigheden – en dat bovendien razendsnel en energiezuinig werkt.

De uitdaging: Van foto’s naar gebeurtenissen

De oplossing voor die ‘blinde momenten’ vond Lin in een technologie die rechtstreeks uit de natuur lijkt te komen: de eventcamera. 

In plaats van de wereld vast te leggen in reeks foto’s per seconde, waarneemt zo’n camera enkel veranderingen. Elke pixel geeft alleen een signaal als er iets verandert in helderheid – alsof het oog enkel reageert op beweging of lichtverschillen. Het resultaat is een reeks van kleine signalen, rijk aan informatie, maar voor een standaard AI-systeem dat gewend is aan ‘gewone foto’s’ is het moeilijk te begrijpen.

Zien in 'Foto's' versus Zien in 'Gebeurtenissen'

Daar stootte Lin op zijn eerste grote uitdaging: de taalbarrière. Hoe vertaal je die waterval aan signalen naar een taal die een AI begrijpt? “Het voelde alsof de camera een vreemde taal sprak die de AI niet verstond,” zegt Lin. “Mijn opdracht was om een goede tolk te maken.”

De Doorbraak: Een vertaler met een slim brein

Lins 'vertaler' is eigenlijk een specifieke data representatie methode. Die ‘vertaler’ vond Lin door alle signalen die in een kort tijdsvenster plaatsvinden samen te bundelen in een soort activiteitkaart. Deze kaart toont waar en hoe intens veranderingen optreden, zonder te vervallen in wazige beelden.

activiteitkaart


Vervolgens koppelde hij dit aan een compact neuraal netwerk, dus het brein, MobileNetV2 – een AI-model dat weinig energie verbruikt maar toch krachtige analyses kan maken. Samen vormden ze een ideaal team: snel, efficiënt en verrassend nauwkeurig. Op een standaard test bereikte het systeem meer dan 81% nauwkeurigheid, beter dan veel grotere en complexere modellen.

De Eindproef: Van Theorie naar Realiteit op een chip ter grootte van een bankkaart

Een succes in een computersimulatie is één ding, maar kan het systeem ook in de echte wereld functioneren? Om dat te bewijzen, bracht Lin zijn ontwerp onder op een reëel, energiezuinig hardwareplatform: de KV260, een AI-chip ter grootte van een bankkaart.

Daarvoor moest zijn model grondig worden geoptimaliseerd. Normaal gesproken werkt een AI met zeer gedetailleerde getallen, wat veel geheugen en rekenkracht kost. Om het model geschikt te maken voor de compacte chip, moest die precisie omlaag. Met een slimme trainingstechniek, quantization-aware training genaamd, leerde Lin het netwerk om met veel eenvoudigere, afgeronde getallen toch vrijwel dezelfde slimme beslissingen te nemen. Dit verminderde de rekenlast en het energieverbruik drastisch, met een minimaal verlies aan nauwkeurigheid.

Het eindresultaat is een technologisch hoogstandje. Het systeem op de chip kan beelden verwerken in slechts 2,8 milliseconden en verbruikt daarbij een verwaarloosbare 1,77 milliwatt aan stroom. Dit is geen laboratoriumexperiment meer, maar een robuuste, werkende oplossing die klaar is voor integratie in de slimme apparaten van morgen.

Een Kritische Blik: De AI een Betere Opvoeding Geven

Zelfs na dit succes was Lin nog niet tevreden. Hij keek kritisch naar de fundamenten van zijn vakgebied: de data waarop de AI getraind wordt. Die publieke datasets – als het ware de leerboeken van een AI – bleken een ingebouwde fout te bevatten. Ze worden gecreëerd door camera's schokkerige, onnatuurlijke bewegingen te laten maken, waardoor er kunstmatige pieken in de data ontstaan die een AI in de war kunnen brengen.

Daarom bouwde hij een eigen opnameplatform met een robotarm die de vloeiende, cirkelvormige bewegingen van een echt oog nabootst. Hiermee kon hij data vastleggen die veel natuurlijker en zuiverder is. Met deze laatste stap heeft Lin niet enkel zijn eigen model verbeterd, maar levert hij ook een blauwdruk voor de hele onderzoeksgemeenschap om in de toekomst betere en slimmere AI's op te voeden.

De Toekomst is Vertrouwen

Zelfrijdende auto’s, drones, robots: allemaal staan ze of vallen ze met de betrouwbaarheid van hun ogen. Lin’s onderzoek toont dat er wél manieren zijn om camera’s en AI slimmer en sterker te maken, zelfs in omstandigheden waar mensen moeite hebben om te zien zoals laagstaande zon etc.

Zijn onderzoek gaat uiteindelijk niet enkel over slimmere algoritmes of efficiëntere chips. De kern is het bouwen van vertrouwen: vertrouwen dat een autonoom systeem robuust genoeg is om de onvoorspelbare visuele uitdagingen van de echte wereld aan te kunnen. 

Door machines te leren de wereld te zien op een manier die superieur is aan ons in extreme omstandigheden, bouwen we aan een toekomst. Een toekomst waarin we met een gerust hart de controle kunnen overlaten aan machines – wetende dat zij soms zelfs scherper en helderder zien dan wij.

 

Bibliografie

[1]     L. K. Sahoo and V. Varadarajan,  “Deep learning for autonomous driving systems: Technological inno- vations, strategic implementations, and business implications - a comprehensive review”,  Complex En- gineering Systems, vol. 5, no. 1, N/A–N/A, Feb. 18, 2025, Publisher: OAE Publishing Inc., issn: ISSN 2770-6249 (Online) . doi: 10.20517/ces.2024.83. [Online] . Available: https://www.oaepublish. com/articles/ces.2024.83 (visited on 05/17/2025) .
[2]     P. Lichtsteiner, C. Posch, and T. Delbruck,  “A 128 × 128 120 dB 15 μs latency asynchronous temporal contrast vision sensor”, Solid-State Circuits, IEEE Journal of, vol. 43, pp. 566–576, Mar. 1, 2008 . doi: 10.1109/JSSC.2007.914337.
[3]    G. Gallego, T.  Delbruck, G. Orchard, C.  Bartolozzi,  B. Taba, A. Censi, S. Leutenegger, A. Davison, J. Conradt, K. Daniilidis, and D. Scaramuzza,  “Event-based vision: A survey”, IEEE Transactions on Pattern Analysis and Machine  Intelligence, vol. 44,  no.  1,  pp.  154–180,  Jan.  1,  2022,  issn:  0162- 8828, 2160-9292, 1939-3539 . doi: 10.1109/TPAMI.2020.3008413. arXiv: 1904.08405[cs]. [Online] . Available: http://arxiv.org/abs/1904.08405 (visited on 05/17/2025) .
[4]    A.  I.  Maqueda, A.  Loquercio, G. Gallego, N. Garcia, and D. Scaramuzza,  “Event-based vision  meets deep learning on steering prediction for self-driving cars”, in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Jun. 2018, pp. 5419–5427. doi: 10.1109/CVPR.2018.00568. arXiv: 1804.01310[cs]. [Online] . Available: http://arxiv.org/abs/1804.01310 (visited on 12/17/2024) .
[5]    D. Gehrig and D. Scaramuzza,  “Low-latency automotive vision with event cameras”, Nature, vol. 629, no. 8014, pp. 1034–1040, May 2024, Publisher: Nature Publishing Group, issn: 1476-4687 . doi: 10. 1038/s41586-024-07409-w. [Online] . Available: https://www.nature.com/articles/s41586-024- 07409-w (visited on 05/17/2025) .
[6]    A. Sironi,  M.  Brambilla,  N.  Bourdis, X. Lagorce, and R. Benosman,  HATS: Histograms of averaged time surfaces for robust event-based object classification, Mar. 21, 2018 . doi: 10.48550/arXiv.1803. 07913. arXiv: 1803.07913[cs]. [Online] . Available: http://arxiv.org/abs/1803.07913 (visited on 12/05/2024) .
[7]    Y.  Xu,  K.  Shidqi,  G.-J.  van  Schaik,  R.  Bilgic,  A.  Dobrita,  S.  Wang,  R.  Meijer,  P.  Nembhani,  C. Arjmand, P. Martinello, A. Gebregiorgis, S. Hamdioui, P. Detterer, S. Traferro, M. Konijnenburg, K. Vadivel, M. Sifalakis, G. Tang, and A. Yousefzadeh,  “Optimizing event-based neural networks on digital neuromorphic  architecture:  A  comprehensive design  space  exploration”,  Frontiers  in  Neuroscience, vol. 18, Mar. 28, 2024, Publisher: Frontiers, issn: 1662-453X. doi: 10.3389/fnins.2024.1335422. [Online] . Available: https://www.frontiersin.org/journals/neuroscience/articles/10.3389/ fnins.2024.1335422/full (visited on 05/17/2025) .
[8]     D. Scaramuzza, Event cameras tutorial, https://rpg.ifi.uzh.ch/docs/scaramuzza/2019.07.11- Scaramuzza-Event-Cameras-Tutorial.pdf, Tutorial presented at the International Computer Vision Summer School (ICVSS) 2019, Jul. 2019.

[9]    H. Li, H. Liu, X. Ji, G. Li, and L. Shi,  “Cifar10-dvs: An event-stream dataset for object classification”, Frontiers in Neuroscience, vol. 11, May 2017 . doi: 10.3389/fnins.2017.00309.
[10]    Y.  Deng,  Y.  Li,  and  H.  Chen,   “AMAE:  Adaptive  motion-agnostic  encoder  for  event-based  object classification”,  IEEE  Robotics  and Automation  Letters,  vol.  5,  no.  3,  pp.  4596–4603,  Jul.  2020, Conference  Name:  IEEE  Robotics  and  Automation  Letters,  issn:  2377-3766 .  doi: 10.1109/LRA. 2020.3002480. [Online] . Available: https://ieeexplore.ieee.org/document/9116961 (visited on 12/17/2024) .
[11]    R.  Benosman, C. Clercq, X.  Lagorce, S.-H.  Ieng, and C. Bartolozzi,  “Event-based visual flow”,  IEEE Transactions on  Neural  Networks  and Learning Systems, vol. 25,  no.  2,  pp.  407–417,  Feb.  2014, Conference  Name:  IEEE Transactions on  Neural  Networks  and  Learning  Systems,  issn: 2162-2388 . doi: 10.1109/TNNLS.2013.2273537. [Online] . Available: https://ieeexplore.ieee.org/document/ 6589170 (visited on 12/17/2024) .
[12]    A.  Zihao  Zhu,  L. Yuan,  K. Chaney, and  K.  Daniilidis,  “Unsupervised  event-based optical flow using motion compensation”, presented at the Proceedings of the European Conference on Computer Vision (ECCV) Workshops, 2018 . [Online] . Available: https://openaccess.thecvf.com/content-eccv- 2018-workshops/w36/html/Zhu-Unsupervised-Event-based-Optical-Flow-using-Motion- Compensation-ECCVW-2018-paper.html (visited on 12/17/2024) .
[13]    C. Ye,  A.  Mitrokhin,  C.  Ferm¨uller, J. A. Yorke, and Y. Aloimonos,  “Unsupervised  learning of dense optical flow, depth and egomotion with event-based sensors”, in 2020 IEEE/RSJ International Con- ference on Intelligent Robots and Systems (IROS), ISSN: 2153-0866, Oct. 2020, pp. 5831–5838. doi: 10.1109/IROS45743.2020.9341224. [Online] . Available: https://ieeexplore.ieee.org/document/ 9341224 (visited on 12/17/2024) .
[14]    Y.  Bi, A. Chadha, A. Abbas,  E. Bourtsoulatze, and Y. Andreopoulos,  “Graph-based spatio-temporal feature learning for neuromorphic vision sensing”,  IEEE Transactions on  Image Processing, vol. 29, pp. 9084–9098, 2020, Conference Name: IEEE Transactions on Image Processing, issn: 1941-0042 . doi: 10.1109/TIP.2020.3023597. [Online] . Available: https://ieeexplore.ieee.org/document/ 9199543 (visited on 12/17/2024) .
[15]    Y. Deng, H. Chen, H. Liu, and Y. Li, A voxel graph CNN for object classification with event cameras, Apr. 8, 2022 . doi: 10.48550/arXiv.2106.00216. arXiv: 2106.00216[cs]. [Online] . Available: http: //arxiv.org/abs/2106.00216 (visited on 12/17/2024) .
[16]    F. Gu, W. Sng, T. Taunyazov, and H. Soh,  “TactileSGNet: A spiking graph neural network for event- based tactile object recognition”, in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), ISSN: 2153-0866, Oct. 2020, pp. 9876–9882. doi: 10.1109/IROS45743.2020. 9341421.  [Online] .  Available: https://ieeexplore.ieee.org/document/9341421/?arnumber= 9341421 (visited on 12/17/2024) .
[17]    J.  Botzheim,  T.  Obo,  and  N.  Kubota,   “Human  gesture  recognition  for  robot  partners  by  spiking neural network and classification learning”, in  The 6th  International Conference on Soft Computing and Intelligent Systems, and  The 13th International Symposium on Advanced Intelligence Systems, Nov. 2012, pp.  1954–1958. doi: 10.1109/SCIS-ISIS.2012.6505305.  [Online] . Available: https: //ieeexplore.ieee.org/document/6505305 (visited on 12/17/2024) .
[18]     D. Gehrig, A. Loquercio, K. Derpanis, and D. Scaramuzza,  “End-to-end  learning of representations for asynchronous event-based data”, in 2019 IEEE/CVF International Conference on Computer Vision (ICCV),  ISSN: 2380-7504, Oct. 2019, pp. 5632–5642. doi: 10.1109/ICCV.2019.00573.  [Online] . Available: https://ieeexplore.ieee.org/document/9009469 (visited on 12/17/2024) .
[19]    M. Cannici, M. Ciccone, A. Romanoni, and M. Matteucci, A differentiable recurrent surface for asyn- chronous event-based data, Jul. 31, 2020 . doi: 10.48550/arXiv.2001.03455. arXiv: 2001.03455[cs]. [Online] . Available: http://arxiv.org/abs/2001.03455 (visited on 12/17/2024) .
[20]    Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner,  “Gradient-based learning applied to document recog- nition”, Proceedings of the IEEE, vol. 86, pp. 2278–2324, Dec. 1998. doi: 10.1109/5.726791.
[21]    A. Krizhevsky, I. Sutskever, and G. E. Hinton,  “ImageNet classification with deep convolutional neural networks”, in Advances in Neural Information Processing Systems, vol. 25, Curran Associates, Inc. , 2012.  [Online] . Available: https://proceedings.neurips.cc/paper-files/paper/2012/hash/ c399862d3b9d6b76c8436e924a68c45b-Abstract.html (visited on 05/22/2025) .
[22]     K. He, X. Zhang, S. Ren, and J. Sun,  Deep residual learning for image recognition, Dec.  10, 2015 . doi: 10.48550/arXiv.1512.03385. arXiv: 1512.03385[cs]. [Online] . Available: http://arxiv.org/ abs/1512.03385 (visited on 05/22/2025) .
[23]    G.  Orchard,  C.  Meyer,  R.  Etienne-Cummings,  C.  Posch,  N.  Thakor,  and  R.  Benosman,   “HFirst: A temporal approach to object  recognition”,  IEEE  Transactions  on  Pattern  Analysis and  Machine Intelligence, vol. 37,  no.  10,  pp.  2028–2040, Oct. 2015, Conference  Name:  IEEE  Transactions on Pattern Analysis and  Machine  Intelligence,  issn:  1939-3539 . doi: 10.1109/TPAMI.2015.2392947. [Online] .  Available: https://ieeexplore.ieee.org/document/7010933/?arnumber=7010933 (visited on 12/17/2024) .
[24]    T.  Bian, X. Xiao, T. Xu,  P.  Zhao, W. Huang, Y. Rong, and J. Huang,  “Rumor detection on social media with  bi-directional  graph  convolutional  networks”,  Proceedings  of the  AAAI  Conference  on Artificial Intelligence, vol. 34, no. 1, pp. 549–556, Apr. 3, 2020, Number: 01, issn: 2374-3468 . doi: 10.1609/aaai.v34i01.5393.  [Online] . Available: https://ojs.aaai.org/index.php/AAAI/ article/view/5393 (visited on 05/22/2025) .
[25]    Y.  Peng, Y.  Zhang,  Z. Xiong, X. Sun, and  F. Wu,  GET:  Group  event  transformer for event-based vision, Oct. 4, 2023 . doi: 10.48550/arXiv.2310.02642. arXiv: 2310.02642[cs]. [Online] . Available: http://arxiv.org/abs/2310.02642 (visited on 12/17/2024) .
[26]     K. Simonyan and A. Zisserman,  Very deep convolutional networks for large-scale image recognition , Apr. 10, 2015 . doi: 10.48550/arXiv.1409.1556. arXiv: 1409.1556[cs]. [Online] . Available: http: //arxiv.org/abs/1409.1556 (visited on 05/22/2025) .
[27]    M. Sandler, A.  Howard,  M. Zhu, A. Zhmoginov, and  L.-C. Chen, Mobilenetv2: Inverted residuals and linear bottlenecks, 2019 . arXiv: 1801.04381  [cs.CV]. [Online] . Available: https://arxiv.org/abs/ 1801.04381.
[28]    M. Tan and Q. V. Le, EfficientNet: Rethinking model scaling for convolutional neural networks, Sep. 11, 2020. doi: 10.48550/arXiv.1905.11946. arXiv: 1905.11946[cs]. [Online] . Available: http://arxiv. org/abs/1905.11946 (visited on 05/22/2025) .
[29]    Y.  Kim, J.  H. Baek, I. H. Im, D. H. Lee, M. H. Park, and H. W. Jang,  “Two-terminal neuromorphic devices for spiking  neural  networks:  Neurons, synapses, and array  integration”,  ACS nano, vol.  18, no. 51, pp. 34 531–34 571, Dec. 24, 2024, issn: 1936-086X. doi: 10.1021/acsnano.4c12884.
[30]    K. Zhong, S. Zeng, W.  Hou, G.  Dai, Z. Zhu, X. Zhang, S. Xiao,  H. Yang, and Y. Wang,  “CoGNN: An algorithm-hardware co-design approach to accelerate GNN inference with mini-batch sampling”,
[31]    L. Dana, M. S. Pydi, and Y. Chevaleyre, Memorization in attention-only transformers, Mar. 10, 2025 . doi: 10.48550/arXiv.2411.10115. arXiv: 2411.10115[cs]. [Online] . Available: http://arxiv.org/ abs/2411.10115 (visited on 05/22/2025) .
[32]    M. Huh, P. Agrawal, and A. A. Efros,  What makes imagenet good for transfer learning?, 2016 . arXiv: 1608.08614  [cs.CV]. [Online] . Available: https://arxiv.org/abs/1608.08614.
[33]    Y.  Yang,  L.  Pan,  and  L.  Liu,  Event  camera  data  pre-training,  2023 . arXiv: 2301.01928  [cs.CV]. [Online] . Available: https://arxiv.org/abs/2301.01928.
[34]    T. Serrano-Gotarredona and  B.  Linares-Barranco,  “Poker-dvs and  mnist-dvs. their  history, how they were made, and other details”, Frontiers in Neuroscience, vol. 9, Dec. 2015. doi: 10.3389/fnins. 2015.00481.
[35]    J.  Kim, J.  Bae, G. Park, D. Zhang, and Y. M. Kim, N-imagenet:  Towards robust, fine-grained object recognition  with event cameras, 2022 . arXiv: 2112.01041  [cs.CV].  [Online] .  Available: https:// arxiv.org/abs/2112.01041.
[36]    G.  Orchard,  A.  Jayawant,  G.  Cohen,  and  N.  Thakor,  Converting  static  image  datasets  to  spiking neuromorphic datasets using saccades, 2015 . arXiv: 1507.07629  [cs.DB]. [Online] . Available: https: //arxiv.org/abs/1507.07629.
[37]    R.  Engbert,  “Microsaccades: A  microcosm for  research on oculomotor control, attention, and visual perception”,  Progress  in  brain  research,  vol.  154,  pp.  177–92,  Feb.  2006.  doi: 10.1016/S0079- 6123(06)54009-9.
[38]     K. Simonyan and A. Zisserman,  Very deep convolutional networks for large-scale image recognition , 2015. arXiv: 1409.1556  [cs.CV]. [Online] . Available: https://arxiv.org/abs/1409.1556.
[39]     P. Goyal, P. Doll´ar, R. Girshick, P. Noordhuis, L. Wesolowski, A. Kyrola, A. Tulloch, Y. Jia, and K. He, Accurate, large minibatch sgd:  Training imagenet in 1 hour, 2018 . arXiv: 1706.02677  [cs.CV]. [Online] . Available: https://arxiv.org/abs/1706.02677.
[40]    I. Loshchilov and F. Hutter, Sgdr: Stochastic gradient descent with warm restarts, 2017 . arXiv: 1608. 03983  [cs.LG]. [Online] . Available: https://arxiv.org/abs/1608.03983.
[41]    T.  He,  Z.  Zhang,  H.  Zhang,  Z.  Zhang,  J.  Xie,  and  M.  Li,  Bag  of tricks  for  image  classification with convolutional neural networks, 2018 . arXiv: 1812.01187  [cs.CV].  [Online] . Available: https: //arxiv.org/abs/1812.01187.
[42]     I. Sadrtdinov,  M.  Kodryan,  E.  Pokonechny,  E.  Lobacheva,  and  D. Vetrov,  Where  do  large  learning rates lead us?, 2024 . arXiv: 2410.22113  [cs.LG].  [Online] .  Available: https://arxiv.org/abs/ 2410.22113.
[43]    Y.  Bi, A. Chadha, A. Abbas,  E. Bourtsoulatze, and Y. Andreopoulos,  “Graph-based spatio-temporal feature learning for neuromorphic vision sensing”,  IEEE Transactions on  Image Processing, vol. 29, pp. 9084–9098, 2020, Conference Name: IEEE Transactions on Image Processing, issn: 1941-0042 . doi: 10.1109/TIP.2020.3023597. [Online] . Available: https://ieeexplore.ieee.org/document/ 9199543 (visited on 12/17/2024) .
[44]    Y.  Deng, H. Chen, and Y. Li,  “MVF-net: A multi-view fusion network for event-based object classifi- cation”, IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 12, pp. 8275– 8284, Dec. 2022, Conference Name: IEEE Transactions on Circuits and Systems for Video Technol- ogy, issn: 1558-2205 . doi: 10.1109/TCSVT.2021.3073673. [Online] . Available: https://ieeexplore. ieee.org/document/9406060 (visited on 12/17/2024) .
[45]    Y. Wu,  L. Deng, G. Li, J. Zhu, and L. Shi,  Direct training for spiking neural networks: Faster, larger, better, 2018 . arXiv: 1809.05793 [cs.NE]. [Online] . Available: https://arxiv.org/abs/1809.05793.
[46]    B. Xie, Y.  Deng,  Z.  Shao,  H.  Liu, and Y.-F. Li,  “Vmv-gcn: Volumetric  multi-view based graph cnn for event stream classification”, IEEE Robotics and Automation Letters, vol. PP, pp. 1–1, Jan. 2022. doi: 10.1109/LRA.2022.3140819.
[47]    Y.  Li,  H. Zhou, B. Yang, Y. Zhang, Z. Cui, H. Bao, and G. Zhang,  Graph-based asynchronous event processing for rapid object recognition, 2023 . arXiv: 2308.14419  [cs.CV]. [Online] . Available: https: //arxiv.org/abs/2308.14419.
[48]    W.  Fang, Z. Yu, Y. Chen, T.  Masquelier, T. Huang, and Y. Tian, Incorporating learnable membrane time constant to enhance learning of spiking  neural networks, 2021 .  arXiv: 2007.05785  [cs.NE].
[49]    Z.  Liu,  H.  Hu, Y.  Lin,  Z. Yao,  Z.  Xie, Y. Wei,  J.  Ning, Y.  Cao, Z. Zhang,  L.  Dong,  F. Wei, and B. Guo, Swin transformer v2: Scaling up capacity and resolution, 2022 . arXiv: 2111.09883  [cs.CV]. [Online] . Available: https://arxiv.org/abs/2111.09883.
[50]    Z.  Zhang,  H.  Zhang,  L.  Zhao,  T. Chen, S. Arik, and T.  Pfister,  “Nested  hierarchical  transformer: Towards accurate, data-efficient and  interpretable visual  understanding”,  Proceedings  of the AAAI Conference on Artificial Intelligence, vol. 36, pp. 3417–3425, Jun. 2022. doi: 10.1609/aaai.v36i3. 20252.
[51]    AMD Xilinx,  Vitis AI  User Guide  (UG1414),  Version 3.0, https://docs.amd.com/r/3.0-English/ ug1414-vitis-ai, Accessed: 2025-05-31, Feb. 24, 2023 .
[52]    Z.  Ning,  M.  Vandersteegen,  K.  Van  Beeck,  T.  Goedem´e,  and  P. Vandewalle,  “Power  consumption benchmark for embedded ai inference”, Oct. 2024.
[53]    S.  Martinez-Conde, S.  Macknik, X. Troncoso, and T. Dyar,  “Microsaccades counteract visual fading during fixation”, Neuron, vol. 49, pp. 297–305, Feb. 2006. doi: 10.1016/j.neuron.2005.11.033.
[54]     E. Ahissar, A. Arieli, M. Fried, and Y. Bonneh,  “On the possible roles of microsaccades and drifts in visual perception”, Vision research, vol. 118, Dec. 2014. doi: 10.1016/j.visres.2014.12.004.
[55]    S.  Lin,  Y.  Ma,  Z.  Guo,  and  B.  Wen,  “DVS-Voltmeter:  Stochastic  Process-Based  Event  Simulator for Dynamic Vision Sensors”, in  Computer Vision – ECCV 2022, S. Avidan, G. Brostow,  M. Ciss´e, G. M. Farinella, and T. Hassner, Eds., Cham: Springer Nature Switzerland, 2022, pp. 578–593, isbn: 978-3-031-20071-7. doi: 10.1007/978-3-031-20071-7-34.
[56]    Y. Hu, S.-C. Liu, and T. Delbruck,  V2e: From  Video Frames to Realistic DVS Events, Apr. 2021. doi: 10.48550/arXiv.2006.07722. arXiv: 2006.07722  [cs]. (visited on 12/12/2024) .
[57]    P.  Duan,  B.  Li, Y. Yang,  H. Lou, M. Teng, Y. Ma, and B. Shi, Eventaid: Benchmarking event-aided image/video enhancement algorithms  with  real-captured hybrid dataset, 2023 .  arXiv: 2312.08220 [cs.CV]. [Online] . Available: https://arxiv.org/abs/2312.08220.
[58]    J.  Wang  and  E.  Olson,   “AprilTag  2:  Efficient  and  robust  fiducial  detection”,  in  2016  IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Oct. 2016, pp. 4193–4198. doi: 10.1109/IROS.2016.7759617. (visited on 05/02/2025) .
[59]    Y. Fu, H. Yang, J. Yuan, M. Li, C. Wan, R. Krishnamoorthi, V. Chandra, and Y. C. Lin, Depthshrinker: A new compression paradigm towards boosting real-hardware efficiency of compact neural networks, 2025. arXiv: 2206.00843  [cs.LG]. [Online] . Available: https://arxiv.org/abs/2206.00843.

Download scriptie (10.02 MB)
Universiteit of Hogeschool
KU Leuven
Thesis jaar
2025
Promotor(en)
Patrick Vandewalle, Zijie Ning