Sneller alarm op de spoed: AI helpt radiologen triëren bij pneumonie

Kenneth
Punnewaert

Kenneth Punnewaert

Je hoort het vaak in de media: ‘De zorg staat onder druk’. Ook radiologen krijgen dagelijks stapels longfoto’s te verwerken. In die berg beelden een longontsteking (pneumonie) niet missen, kan levens redden, vooral bij kinderen en ouderen. Daarom bouwde ik, Kenneth Punnewaert, een AI-model dat longontstekingen herkent op röntgenbeelden en testte het, samen met AZ Sint-Maarten (Mechelen), buiten de comfortabele kring van open datasets. Het resultaat: veel belofte, maar ook duidelijke lessen over wat er mis kan gaan zodra je het ziekenhuis binnenstapt.

 

 

Van ideaal lab naar echte ziekenhuisbeelden

De kern van het project: een zogenoemd deep-learningmodel (ResNet152) dat leert uit duizenden gelabelde borstkasfoto’s.  Allereerst trainde ik op twee grote, publieke Kaggle-datasets. Daar haalde het systeem topprestaties met o.a. een AUC-ROC rond 0,97 en nauwkeurigheden boven 93 tot zelfs 97 procent, afhankelijk van de drempelwaarde. Klinkt indrukwekkend en als muziek in de oren, en dat is het ook: op die gecontroleerde data maakte het model weinig fouten. 

Maar het was even wel zoeken om alles op punt te krijgen want zodra het AI-model werd losgelaten op klinische beelden van AZ Sint-Maarten (pediatrische patiënten), bleek de realiteit weerbarstiger. De foto’s verschilden in belichting, contrast en uitsnede, sommige waren zijaanzichten, terwijl het model getraind was op vooraanzichten. Gevolg: het AI-model zag veel echte longontstekingen niet (lage “recall”). In gewoon Nederlands: kinderen met pneumonie glipten te vaak door de mazen van het net. 

 

 

Repareren waar het wringt

Door die dip niet weg te moffelen maar te analyseren, legde het onderzoek de vinger op de wonde: domain shift. Het verschil tussen trainingsdata en echte ziekenhuisdata. Ik nam drie ingrepen: hertrainen op een pediatrische dataset, de longregio’s bijsnijden (cropping) en de helderheid/het contrast afstemmen op de beelden uit het ziekenhuis.  En check, dit lukte. In de tweede evaluatie werden alle echte longontstekingen correct opgepikt (100% recall in de kleine testset), met een algemene onderscheidingskracht (AUC) van 0,86. Daar stond wel een bekend nadeel tegenover: meer vals positieven bij gezonde beelden. In de geneeskunde is die ruil soms verdedigbaar, liever een extra check dan een gemiste longontsteking maar het vraagt duidelijke afspraken in de workflow. 

 

 

Niet zomaar een zwarte doos 

Een vaak gehoorde kritiek op AI in de zorg: “Ik begrijp niet waarom het model dit zegt of beslist.” Ook wel gekend als het Black Box probleem.  Vandaar een eenvoudige webapplicatie (Streamlit) waarin artsen een röntgenbeeld uploaden, direct een inschatting zien (normaal/pneumonie) én een Grad-CAM-heatmap: een kleurlaag die toont welke zones in de longen het model het zwaarst liet meewegen. Dat vergroot het vertrouwen en maakt het gesprek tussen arts en algoritme concreter. Alles draait lokaal, zonder patiëntgegevens te versturen een bewuste keuze met het oog op privacy.

 

 

Wat betekent dit voor de zorg?

  • Tijdbesparing en triage: in piekperiodes kan AI beelden voorrang geven die “verdacht” lijken, zodat radiologen sneller de juiste cases zien. Het systeem vervangt artsen niet, maar ondersteunt hun prioriteiten.
  • Grenzen van openbare datasets: uitstekende cijfers op Kaggle betekenen niet automatisch klinische bruikbaarheid. Preprocessing en representatieve trainingsdata zijn cruciaal.
  • Veiligheid & regels: software die medische beslissingen ondersteunt valt in de EU onder de MDR (vaak klasse IIa). Dit project zit rond TRL 3→4 (van labprototype naar testen in relevante omgeving). Voor echte inzet zijn onder meer klinische evaluaties, documentatie en post-market surveillance nodig. 

 

Ethiek eerst: privacy, bias, verantwoordelijkheid

Mijn project weegt vier thema’s af. 

  1. Privacy: enkel geanonimiseerde beelden en lokale verwerking, in lijn met GDPR.
  2. Bias: datasets moeten verschillende leeftijden, achtergronden en opname-instellingen weerspiegelen; anders presteert het model ongelijk tussen patiëntengroepen.
  3. Transparantie (Black Box): de heatmaps maken beslissingen controleerbaar en visueel duidelijk.
  4. Aansprakelijkheid: het AI-model adviseert, de arts beslist en blijft eindverantwoordelijk. Dat kader helpt om de technologie verantwoord in te bedden. 

 

 

Wat is er echt nieuw aan dit werk?

Niet de term “AI voor longontsteking” die kennen we maar de vertaalslag naar de praktijk met pediatrische beelden uit een lokaal ziekenhuis, en het systematisch oplossen van wat daar mis ging. Een combinatie van  hertraining op de juiste doelgroep,        ( technische aanpassingen aan de beelden en een uitlegbare interface laat zien welke concrete stappen nodig zijn vóór een model veilig kan landen in een klinische workflow. 

 

Jullie denken : ‘En wat nu?’

De volgende stap is het testen in een ziekenhuisinfrastructuur (TRL 4): koppeling met PACS/ZIS, gebruik met echte werkdruk, en systematisch feedback ophalen bij radiologen. Parallel start de voorbereiding op MDR-documentatie en een bredere bias-audit. De les van deze bachelorproef is helder: technische topcijfers zijn pas het begin. Pas wanneer een model robuust blijft op “ruisende” praktijkdata, uitlegbaar is voor artsen en netjes binnen de regels valt, wordt AI een betrouwbare collega op de afdeling radiologie.

Bibliografie

De rol van AI bij

vroegtijdige

ziektevoorspelling

in de

gezondheidszorg

DEEP LEARNING VOOR ZIEKTEHERKENNING

PROFESSIONELE BACHELOR IN HET

INFORMATIEMANAGEMENT EN DE MULTIMEDIA

Opleiding Informatie, Management & Security (IMS)

Keuzetraject: Data Analytics

Punnewaert Kenneth

Campus De Vest, Zandpoortvest 60, BE-2800 Mechelen

2024 - 2025

Voorwoord

Het onderwerp dat ik heb gekozen voor mijn bachelorproef combineert mijn passie voor data

en artificiële intelligentie in de healthcare met als doel een bijdrage aan mens en

maatschappij bijbrengen: ‘Het gebruik van AI voor vroegtijdige diagnose in de

gezondheidszorg’. Dankzij de medewerking van het ziekenhuis AZ Sint- Maarten in

Mechelen is dit hele project tot stand kunnen komen. Zij gaven aan dat ze nog geen gebruik

maken van een AI-model voor het opsporen van pneumonie en dat hier zeker nog ruimte is

voor innovatie. De samenwerking met hun was dan ook van cruciaal belang om het

ontwikkelde model niet alleen te kunnen trainen op publieke data, maar ook om het te

valideren in een realistische klinische setting.

Ik wil zowel de begeleiders als de docenten bedanken om mij te begeleiden doorheen dit

proces. Zij hebben mij de nodige kennis en tools aangeleerd om dit allemaal mogelijk te

maken. Alsook hebben de begeleiding en de feedback een cruciale rol gespeeld tijdens het

onderzoekstraject om dit project succesvol te kunnen afronden.

Tot slot wil ik de nadruk leggen hoe uniek het was om tijdens deze bachelorproef niet alleen

mijn technische vaardigheden te versterken, maar ook inzicht te krijgen in de ethische en

maatschappelijke gevolgen van AI in de medische sector. Ik twijfel er dan ook niet aan dat ze

me een richting geven in mijn toekomstige carrière in data science.

BACHELORPROEF Punnewaert Kenneth 2Inhoud

1 INLEIDING

_____________________________________________________________

2 PROBLEEMSTELLING

___________________________________________________

3 LITERATUURSTUDIE

____________________________________________________

3.1 Pneumonie- detectie met AI

_____________________________________________

3.2 Deep learning- architecturen ResNet

______________________________________

3.3 Uitlegbaarheid en explainable AI _________________________________________

3.4 Klinische implementatie en TRL __________________________________________

3.5 Ethische overwegingen ________________________________________________

4 ONDERZOEKSVRAAG

__________________________________________________

4.1 Hoe werkt AI bij het analyseren van medische data voor

ziektevoorspelling? ___________________________________________________

4.1.1 Voorbeeld:

______________________________________________________

4.1.2 Model

__________________________________________________________

4.1.3 Belangrijke stappen: _______________________________________________

4.2 Hoe kan AI bijdragen aan gepersonaliseerde behandelingen? _________________

4.2.1 Voorbeelden:

____________________________________________________

4.3 Wat zijn de technische vereisten en beperkingen van AI-modellen in de

medische sector?

____________________________________________________

4.3.1 Belangrijke vereisten: ______________________________________________

4.3.2 Belangrijke beperkingen: ___________________________________________

4.4 Welke ethische uitdagingen spelen een rol bij het gebruik van AI? ______________

4.4.1 In dit project: _____________________________________________________

5 DOELSTELLINGEN

_____________________________________________________

5.1 De belangrijkste doelstellingen zijn: ______________________________________

5.1.1 Ontwikkelen van een deep learning- model voor pneumoniedetectie: _________

5.1.2 Technische haalbaarheid:

___________________________________________

5.1.3 Ontwikkelen van een gebruiksvriendelijke interface: ______________________

5.1.4 Ethische en juridische analyse: ______________________________________

5.1.5 Positionering binnen TRL- en MDR-kaders:

_____________________________

5.1.6 Feedback van de eindgebruikers: ____________________________________

6 METHODOLOGIE

______________________________________________________

6.1 Datasetselectie en- verwerking _________________________________________

6

7

8

8

8

8

9

9

10

10

10

10

11

11

12

12

12

13

13

14

15

15

15

15

15

15

16

16

17

17

BACHELORPROEF Punnewaert Kenneth 36.1.1 Publieke datasets

_________________________________________________

6.1.2 Klinische data

____________________________________________________

6.2 Modelontwikkeling ___________________________________________________

6.2.1 Belangrijke parameters: ____________________________________________

6.2.2 De prestaties van het model worden beoordeeld op basis van: ______________

6.3 Interfaceontwikkeling _________________________________________________

6.4 Ethisch

____________________________________________________________

6.5 Positie binnen TRL en MDR

____________________________________________

6.6 Validatie en feedback

_________________________________________________

7 RESULTATEN

_________________________________________________________

7.1 Datavoorbereiding en analyse __________________________________________

7.2 Data-augmentatie ____________________________________________________

7.3 Modeltraining en optimalisatie __________________________________________

7.4 Prestaties op publieke datasets _________________________________________

7.5 ROC- en PR-curve

___________________________________________________

7.6 Gebouwde interface

__________________________________________________

7.7 Visuele uitleg _______________________________________________________

7.8 Status externe validatie

_______________________________________________

7.9 Simulatie van mogelijke impact _________________________________________

7.10 Knelpunten en observaties __________________________________________

8 EXTERNE VALIDATIE MET ZIEKENHUISDATA

______________________________

8.1 Inleiding ___________________________________________________________

8.2 Datasetbeschrijving __________________________________________________

8.2.1 Structuur en verdeling _____________________________________________

8.2.2 Kenmerken van de beelden

_________________________________________

8.3 Eerste test: Originele model toepassen op ziekenhuisdata ____________________

8.4 Mogelijke oorzaken __________________________________________________

8.4.1 Domain shift

_____________________________________________________

8.4.2 Te kleine testset

__________________________________________________

8.5 Hertraining met pediatrische data _______________________________________

8.6 Aanpassing helderheid en contrast ______________________________________

8.7 Cropping: longregio isoleren ___________________________________________

8.8 Tweede evaluatie met verbeteringen _____________________________________

8.9 Reflectie

___________________________________________________________

8.10 Conclusie

_______________________________________________________

17

17

18

18

18

18

19

19

20

21

21

22

22

23

26

28

29

29

29

30

31

31

31

31

31

32

33

33

33

34

35

35

36

37

37

BACHELORPROEF Punnewaert Kenneth 49 DISCUSSIE

___________________________________________________________

9.1 Belang van het probleem ______________________________________________

9.2 De rol van de eindgebruiker ____________________________________________

9.3 Gebruiksvriendelijkheid en dummy-proof ontwerp ___________________________

9.4 Kritische reflectie over de data

__________________________________________

9.5 Waarde van het werk

_________________________________________________

10 CONCLUSIE & TOEKOMSTWERK

_____________________________________

10.1 Conclusie

_______________________________________________________

10.2 Toekomstwerk

____________________________________________________

10.2.1 Gebruikersonderzoek en feedbacksessies:

____________________________

10.2.2 Uitbreiding naar andere toepassingen: _______________________________

10.2.3 MDR-certificatie en risicoklasse-analyse: _____________________________

10.2.4 Data-ethiek en privacy: ___________________________________________

10.3 Lessen uit de bachelorproef _________________________________________

11 BRONNENLIJST

38

38

38

38

39

39

40

40

41

41

41

41

41

41

42

____________________________________________________

BACHELORPROEF Punnewaert Kenneth 51 Inleiding

De aanleiding voor deze bachelorproef was een gesprek met het hoofd van de afdeling

radiologie van AZ Sint Maarten in Mechelen. In eerste instantie werd er overwogen om een

AI- model te ontwikkelen voor het opsporen van tumoren of Alzheimer, maar het ziekenhuis

gaf zelf aan dat hier al reeds een samenwerking voor is met externe partijen. Wat wel naar

voren kwam in ons gesprek, was dat er een duidelijke nood is aan ondersteuning bij het

opsporen van pneumonie op röntgenbeelden. Men gaf expliciet aan dat er op dit moment

nog geen AI- model werd gebruikt voor deze aandoening en dat hier zeker ruimte is voor

innovatie.

Op basis hiervan werd het project wat bijgestuurd: de nadruk kwam volledig te liggen op het

ontwikkelen van een deep learning- model dat longontstekingen kan opsporen op medische

beelden. Het plan is om AI in te zetten als ondersteunend hulpmiddel voor radiologen, zodat

verdachte beelden sneller en betrouwbaarder kunnen worden opgespoord.

Het belang van deze keuze wordt bovendien bevestigd door wetenschappelijke literatuur.

Longontstekingen zijn wereldwijd één van de meest voorkomende en dodelijke

infectieziekten. Zeker bij jonge kinderen en ouderen (WHO, 2022). Het is daarom ook

cruciaal om zo snel en correct mogelijk een diagnose te stellen om ernstige complicatie te

voorkomen. Door het combineren van klinische input en wetenschappelijke inzichten wordt

dit project zowel praktijkgericht als theoretisch onderbouwd.

Naast de technische kant van het project wordt er ook aandacht gegeven aan de ethische

aspecten. Het gebruik van AI in de gezondheidssector brengt veel vragen met zich mee,

namelijk:

• Hoe garanderen we de privacy van de patiënten?

• Hoe zorgen we ervoor dat het AI- model begrijpelijk zijn voor artsen?

In dit onderzoek worden onderstaande aspecten behandeld:

• Het ontwikkelen en trainen van een AI- model op basis van bestaande datasets.

• Het goedkeuren van het model op klinische data afkomstig van een ziekenhuis.

• Een grondige analyse van de technische prestaties van het model.

• Een bespreking van de ethische uitdagingen.

• Een simulatie van hoe het systeem kan worden uitgebouwd naar een werkende

toepassing in de zorg, incl. een analyse volgens TRL- en MDR- kader.

Het is niet enkel het doel van deze bachelorproef om de technische haalbaarheid aan te

tonen van AI voor het detecteren van een longontsteking, maar ook om inzicht te bieden in

de stappen die nodig zijn om het systeem veilig, verantwoord en effectief te implementeren in

de praktijk.

BACHELORPROEF Punnewaert Kenneth 62 Probleemstelling

Tijdens mijn verkennend gesprek met het hoofd van de afdeling ‘radiologie’ in AZ Sint-

Maarten werd duidelijk dat er binnen de afdeling radiologie nog geen gebruik wordt gemaakt

van AI voor het opsporen van een pneumonie. Tegelijk gaf men aan dat ondersteuning van

AI bijzonder welkom zou zijn, vooral om eerste screenings sneller te kunnen uitvoeren in

drukke periodes. Deze directe behoefte vormde de basis voor mijn bachelorproef.

De gezondheidszorg staat onder een enorme druk. Dit komt niet enkel en alleen doordat het

aantal patiënten jaarlijks toenemen, maar ook wordt het medische team geconfronteerd met

een groeiende complexiteit van ziektes en behandelingen. Radiologen spelen dan ook een

cruciale rol in het stellen van diagnoses, dit door de medische beeldvorming. Maar het aantal

beeldonderzoeken neemt toe en dit legt een enorme last op hun schouders. Hierdoor

ontstaan er enorme wachttijden, mensen moeten langer wachten op hun onderzoek of

uitslag en is er een groter risico op menselijke fouten. Foute of laattijdige diagnoses kunnen

ernstige gevolgen hebben voor de gezondheid van de patiënten en kan er toe leiden dat dit

extra kosten met zich mee brengt voor het gezondheidssysteem.

Pneumonie, in de volksmond ‘een longontsteking’ is een aandoening die wereldwijd

miljoenen mensen treft en jaarlijks tot heel wat sterfgevallen leidt. Vooral bij risicogroepen

zoals jonge kinderen, oudere personen en mensen met een verzwakt immuunsysteem is het

van belang om de ziekte tijdig en accuraat vast te stellen. Röntgenbeelden van de borstkas

zijn een standaardmethode om een longontsteking vast te stellen. Echter dit vraagt een

gespecialiseerde kennis en ervaring en helaas zijn die niet altijd en overal beschikbaar.

AI biedt namelijk nieuwe mogelijkheden om radiologen te ondersteunen. De werkdruk kan

vermindert worden door AI in te zetten als hulpmiddel bij het analyseren van röntgenbeelden.

Alsook kan de nauwkeurigheid van de diagnoses worden verhoogd en de snelheid van de

medische besluitvorming worden verbeterd. Toch zijn er ook heel wat belangrijke

uitdagingen:

• AI- modellen moeten betrouwbaar en uitlegbaar zijn.

• Privacy van de patiëntengegevens moeten gegarandeerd blijven.

• De juridische kaders moeten strikt nageleefd worden.

Het probleem dat deze bachelorproef behandelt, is dus tweeledig:

1. 2. Enerzijds het ontwikkelen van een AI- model dat effectief een longontsteking

detecteert op röntgenbeelden.

Anderzijds het analyseren van de ethische en technische voorwaarden die nodig zijn

om zo’n systeem succesvol in de praktijk te verwezenlijken.

BACHELORPROEF Punnewaert Kenneth 73 Literatuurstudie

Het is belangrijk om inzicht te krijgen in bestaande technologieën, modellen, klinische

implementatie en de ethische en juridische randvoorwaarden, dit om het probleem rond de

detectie van pneumonie met AI goed te kunnen kaderen.

3.1 Pneumonie- detectie met AI

één van de belangrijkste doodsoorzaken wereldwijd is een pneumonie.Zeker bij jonge

kinderen en oudere mensen (WHO,2022). Daarom is een snelle diagnose dus cruciaal. Maar

omdat de werkdruk in ziekenhuizen zeer hoog is, is de kans daarom groter op een vertraging

of een menselijke fout. AI biedt hierin een oplossing.

Een voorbeeld hiervan is het CheXnet- model van Rajpurkar et al. (2017), dit detecteerde

longziekten met een nauwkeurigheid die we kunnen vergelijken met die van

gespecialiseerde artsen en in sommige toepassingen radiologen zelfs overtreffen in

accuraatheid. Deze studies tonen aan dat AI niet alleen theoretisch veelbelovend is, maar

ook klinisch potentieel biedt.

3.2 Deep learning- architecturen ResNet

Voor het detecteren van longontstekingen op medische beelden is het belangrijk om gebruik

te maken van een krachtig deep learning-model dat in staat is om complexe visuele patronen

te herkennen.

ResNet staat voor Residual Network en is speciaal ontworpen om diepe neurale netwerken

beter te laten trainen. Wanneer netwerken dieper worden, treedt vaak het probleem op dat

gradiënten tijdens het leerproces verdwijnen, waardoor het model moeilijk convergeert.

De ResNet van He et al. (2015) introduceerde ‘shortcut connections’ om het probleem van

verdwijnende gradiënten bij diepe netwerken te vermijden. Diepe netwerken zoals ResNet-

152 zijn erg geschikt voor medische beeldanalyse, dit omdat ze complexe patronen kunnen

berekenen in grote datasets.

3.3 Uitlegbaarheid en explainable AI

Ik heb een gastlezing bijgewoond (AI Ethics- guest lecture Dardan Hoti) waarin het concept

van black boxes en hun nadelen uitgebreid aan bod zijn gekomen. Een belangrijk

aandachtspunt bij deep learning- modellen is dat ze vaak black boxes zijn. Dit betekent dat

het moeilijk te begrijpen is hoe het model tot zijn beslissing komt. Tools zoals Grad- CAM

(Selvaraju et al., 2017) laten zien welke regio’s in een beeld bijdragen aan de beslissing van

het model, dit maakt het uitlegbaar en het vertrouwen vergroot bij clinici (Amann et al., 2020).

BACHELORPROEF Punnewaert Kenneth 83.4 Klinische implementatie en TRL

De uitvoering van AI-modellen in ziekenhuizen wordt vaak beschreven aan de hand van de

Technology Readiness Levels. TRL is een systeem dat gebruikt wordt om de volwassenheid

van een technologie in kaart te brengen, van TRL 1 (puur wetenschappelijk onderzoek) tot

TRL 9 (volledig bewezen en operationeel in een echte omgeving). De eerste niveaus (TRL 1-

3) omvatten fundamenteel onderzoek en proof-of-concept, terwijl TRL 4-6 gericht zijn op het

bouwen en testen van prototypes. De hoogste niveaus (TRL 7-9) vereisen testen in een

realistische of gebruiksklare omgeving en uiteindelijk goedkeuring voor productie (Manning,

2023).

In de context van medische AI bevindt een academisch onderzoeksproject zich meestal in

TRL 1-3. Voor klinische toepassingen (TRL 4-6) zijn uitgebreide validatieprocedures nodig,

en pas in TRL 8-9 kunnen AI-systemen volledig geïntegreerd worden in de klinische praktijk.

Naast de technische readiness zijn er ook juridische kaders waar medische AI-modellen aan

moeten voldoen. De Europese Medical Device Regulation (MDR, EU 2017/745) is de

wetgeving die medische hulpmiddelen – inclusief software en AI-systemen – reguleert binnen

de Europese Unie. AI-systemen die medische diagnoses ondersteunen, worden volgens de

MDR geclassificeerd als medische hulpmiddelen en vallen daardoor onder strikte eisen op

het gebied van veiligheid, klinische prestaties en risicobeheer. Dit omvat onder meer:

• De bepaling van de risicoklasse (bijvoorbeeld klasse IIa of IIb voor diagnostische

software),

• Het uitvoeren van klinische evaluaties en post-market surveillance,

• Het waarborgen van privacy en gegevensbescherming conform GDPR,

• Transparantievereisten zoals documentatie van het algoritme en prestaties

(European Commission, 2021).

Voor AI is er bovendien een speciale focus op uitlegbaarheid en bias-controle, omdat black

box-modellen ethische en juridische risico’s met zich meebrengen (European Commission,

2021).

3.5 Ethische overwegingen

Onderzoeken van Mittelstadt et al. (2016) benadrukken het belang ethische principes bij het

ontwikkelen van AI in de gezondheidszorg:

• Transparantie

• Uitlegbaarheid

• Non- discriminatie en privacy

GDPR (EU 206/679) verplicht dat alle persoonlijke data beschermd worden en dat patiënten

geïnformeerd zijn over hoe hun data worden gebruikt.

BACHELORPROEF Punnewaert Kenneth 94 Onderzoeksvraag

De centrale vraag van dit onderzoek:

Hoe kan artificiële intelligentie bijdragen aan een vroegtijdige diagnose van

longontsteking in de gezondheidszorg, en welke technische, klinische en ethische

uitdagingen komen hierbij kijken?

Om deze hoofdvraag goed te kunnen beantwoorden, werden volgende deelvragen

opgesteld:

4.1 Hoe werkt AI bij het analyseren van medische data voor

ziektevoorspelling?

AI speelt een belangrijke rol bij het bestuderen van medische data voor ziektevoorspelling.

AI- modellen, die vaak gebaseerd zijn op machine learning of deep learning, zijn vaak

getraind om soorten patronen te herkennen in grote hoeveelheden medische data, zoals

medische beelden ( bv. CT, MRI, X-ray)

4.1.1 Voorbeeld:

• Vaak worden convolutionele neutrale netwerken gebruikt bij medische

beelden, die automatische kenmerken mogelijk maken zonder enige

menselijke tussenkomst. Modellen als ResNet, VGG of DenseNet worden

vaak toegepast bij radiologische beelden.

4.1.2 Model

In mijn project heb ik gebruikgemaakt van een bestaand deep learning-model, namelijk

ResNet152, dat ik zelf verder heb getraind op een publiek beschikbare dataset van Kaggle:

de Chest X-ray (Normal vs Pneumonia) dataset. Voor extra validatie heb ik ook getest op de

Pediatric Chest X-ray Pneumonia dataset. Beide bevatten gelabelde röntgenbeelden van de

borstkas.

Het model werd dus niet kant-en-klaar overgenomen, maar aangepast en geoptimaliseerd

voor dit specifieke classificatieprobleem via transfer learning. Deze nuance is belangrijk: het

basismodel bevat reeds vooraf getrainde lagen, maar is in dit project afgestemd op

pneumoniedetectie door nieuwe trainingssessies uit te voeren op deze specifieke datasets.

BACHELORPROEF Punnewaert Kenneth 104.1.3 Belangrijke stappen:

Data preprocessing

Beelden werden geschaald naar een vaste resolutie (224x224 pixels),

genormaliseerd, geanonimiseerd (waar nodig), en versterkt met data augmentation

(zoals rotatie, flipping en zoom) om overfitting tegen te gaan.

Feature engineering

De beeldkenmerken werden automatisch gedetecteerd via convolutionele lagen in

ResNet152, waarbij gebruik wordt gemaakt van deep feature extractie zonder

handmatig features toe te voegen.

Modeltraining

Het model werd getraind door het splitsen van de dataset in trainings, validatie en

testsets om overfitting beter te kunnen monitoren.

Evaluatie

De prestaties zijn beoordeeld met diverse metrieken, waaronder accuracy, recall,

precision, F1-score, AUC-ROC en analyse van de confusion matrix.

Daarnaast is Grad-CAM toegevoegd in de gebruikersinterface van het prototype, om de

beslissingen van het model visueel toe te lichten. Dit draagt bij aan de uitlegbaarheid en het

vertrouwen bij eindgebruikers zoals radiologen.

4.2 Hoe kan AI bijdragen aan gepersonaliseerde behandelingen?

AI kan bijdragen aan gepersonaliseerde behandelingen door :

• Voorspellingen van individuele risico’s (bv.: kans op een longontsteking bij

COVID- patiënten)

• Aanbevelingen van behandelingsstrategieën gebaseerd op historische

uitkomsten van vergelijkbare patiënten.

• Aanpassen van therapieën op basis van real- time monitoring en feedback

(bv.: AI- gestuurde insulinepompen)

BACHELORPROEF Punnewaert Kenneth 114.2.1 Voorbeelden:

Oncologie: AI analyseert tumorkarakteristieken om gerichte therapieën te

adviseren.

Cardiologie: AI voorspelt risico op hartfalen of ritmestoornissen met EPD-

data.

Radiologie: AI bepaalt de ernst van longinfecties en kan follow-up scans

plannen.

Mijn project legt de focus vooral op vroege detectie van longinfecties om zo snel mogelijk

een behandeling te kunnen starten, met als uiteindelijke doel ziekenhuisopnames te

verminderen en complicaties te voorkomen.

4.3 Wat zijn de technische vereisten en beperkingen van AI-

modellen in de medische sector?

4.3.1 Belangrijke vereisten:

Er zijn specifieke technische vereisten om AI succesvol in te zetten in de medische sector,

namelijk:

Grote, representatieve datasets

De trainingsdata moeten voldoende divers en gebalanceerd zijn. Hierdoor

leert het model zonder vooroordelen of vertekeningen. Dit helpt om bias te

vermijden en maakt het model bruikbaar voor bredere populaties.

Hoge kwaliteit van data

Medische beelden moeten van voldoende resolutie en consistentie zijn, met

correcte labels die zijn gevalideerd door experts (zoals radiologen), om

verkeerde voorspellingen te voorkomen. Bij voorkeur van meerdere

radiologen om meer nauwkeurige labels te bekomen.

Uitlegbaarheid van modellen

Het is cruciaal in een medische sector dat het AI- model geen black box is. Zo

zorgen technieken als Grad-CAM dat dokters begrijpen welke delen van het

beeld het meest bijdroegen aan de voorspelling.

Robuustheid en generaliseerbaarheid

Het model moet ook goed presteren op beelden van andere ziekenhuizen of

scanners, en niet enkel op de dataset waarop het getraind werd. Daarom is

validatie met externe klinische data essentieel.

BACHELORPROEF Punnewaert Kenneth 124.3.2 Belangrijke beperkingen:

Ondanks het potentieel zijn er ook duidelijke beperkingen bij AI in de medische sector:

Bias en fairness:

Als een dataset onvoldoende presentabel is (bv. Weinig beelden van bepaalde

patiëntgroepen), kan het model bv. Bevooroordeeld zijn. Dit kan leiden tot een

foute diagnose bij specifieke groepen, dit kan ethisch problematisch zijn.

Data privacy (GDPR, HIPAA):

AI in de zorg moet voldoen aan strikte privacywetgeving zoals GDPR (in

Europa) en HIPAA (in de VS). Dat betekent dat medische beelden

geanonimiseerd moeten zijn en zorgvuldig moeten worden opgeslagen en

verwerkt.

Regulatoire goedkeuring:

AI-systemen die diagnose ondersteunen vallen onder de Europese Medical

Device Regulation (MDR). Dit vraagt om duidelijke documentatie,

risicobeoordelingen en vaak ook een CE- markering voor gebruik in de

praktijk.

Integratie in klinische omgeving:

AI mag geen extra last leggen op het werk van de artsen. Het moet eenvoudig

te begrijpen, snel te gebruiken en betrouwbaar zijn. Dokters moeten op de

voorspellingen kunnen vertrouwen en weten hoe ze tot stand zijn gekomen.

In dit project werd eerst enkel gewerkt met publieke beschikbare datasets. De volgende stap

is validatie op geanonimiseerde ziekenhuisdata van AZ Sint- Maarten. Die stap zal hoge

eisen stellen aan privacy, security en robuustheid. Deze vormt een belangrijke stap op weg

naar klinische implementatie.

4.4 Welke ethische uitdagingen spelen een rol bij het gebruik van

AI?

Het gebruik van artificiële intelligentie in de gezondheidszorg biedt grote voordelen, maar

roept tegelijk fundamentele essentiële vragen op. In dit project werd daarom specifiek

aandacht besteed aan vier kernaspecten:

Privacy en gegevensbescherming:

Het gebruik van medische data brengt altijd risico’s met zich mee rond

privacy. Binnen dit project wordt strikt rekening gehouden met de GDPR

(General Data Protection Regulation). Alle gebruikte beelden zijn

geanonimiseerd, zodat geen enkele patiënt direct of indirect te identificeren is.

Daarnaast wordt ook aandacht besteed aan veilige opslag, toegangsbeheer

en het beperken van datatoegang tot strikt noodzakelijke personen.

BACHELORPROEF Punnewaert Kenneth 13• Bias en discriminatie:

AI-modellen zijn slechts zo eerlijk als de data waarmee ze getraind worden.

Als een dataset bijvoorbeeld een ondervertegenwoordiging bevat van

bepaalde bevolkingsgroepen of leeftijden, kan dit leiden tot bevooroordeelde

voorspellingen. In de medische context kan dit levensgevaarlijke gevolgen

hebben. Daarom werd bij de datasetselectie bewust gekozen voor

gebalanceerde bronnen en wordt bij externe validatie extra aandacht besteed

aan mogelijke bias ten opzichte van lokale patiëntengroepen.

Transparantie en uitlegbaarheid:

Een groot risico bij het gebruik van deep learning is dat de beslissingen van

het model moeilijk te begrijpen zijn voor eindgebruikers – de zogenaamde

'black box'-problematiek. In dit project wordt gebruikgemaakt van Grad-CAM-

technieken, die visueel tonen welke regio’s van het röntgenbeeld hebben

bijgedragen aan de voorspelling. Deze visualisaties worden geïntegreerd in

de gebruikersinterface, zodat artsen kunnen nagaan waarop het model zijn

beslissing baseert. Dit verhoogt het vertrouwen en de controle.

Verantwoordelijkheid en aansprakelijkheid:

Wanneer een AI-systeem een fout maakt, rijst de vraag: wie is

verantwoordelijk? De ontwikkelaar van het algoritme, de arts die het

gebruikte, of het ziekenhuis? Hoewel dit project zich nog in een

onderzoeksfase bevindt, wordt bij het ontwerp rekening gehouden met het feit

dat het model enkel mag dienen als ondersteunend hulpmiddel, niet als

vervanging van medische expertise. Artsen blijven eindverantwoordelijk voor

diagnoses, en het AI-systeem moet als een adviserend instrument worden

gezien binnen de klinische workflow.

4.4.1 In dit project:

• Maak ik alleen gebruik van geanomimiseerde data.

• Test ik de uitlegbaarheid met Grad- CAM visualisaties.

• Wil ik samenwerken met artsen voor feedback en beoordeling.

• Voor toekomstige stappen hou ik rekening met MDR- vereisten.

BACHELORPROEF Punnewaert Kenneth 145 Doelstellingen

Het hoofddoel van deze bachelorproef is het onderzoeken hoe AI ingezet kan worden voor

de automatische opsporing van pneumonie op röntgenbeelden. Er wordt niet enkel een

technisch werkend model ontwikkeld, maar er wordt ook een diepgaande analyse uitgevoerd

van de randvoorwaarden en voor de uitvoering in een klinische context.

5.1 De belangrijkste doelstellingen zijn:

5.1.1 Ontwikkelen van een deep learning- model voor pneumoniedetectie:

Er wordt een convolutioneel neuraal netwerk ontwikkeld en getraind op een publieke dataset

Kaggle Pediatric Chest X-ray Pneumonia Dataset en hierna gaan we het model extra

valideren op de Chest X- Ray Images (Pneumonia) Dataset en in een latere fase op

geanonimiseerde ziekenhuisdata van AZ Sint- Maarten. De prestaties van het model worden

beoordeeld aan de hand van metrics zoals accuracy, precision, recall, F1- score en de

analyse van de confusion matrix.

5.1.2 Technische haalbaarheid:

Het model wordt getest en goedgekeurd op externe datasets om zo te kunnen beoordelen of

het generaliseerbaar is buiten de trainingsdata. Er wordt nagegaan welke technische

beperkingen er zijn (bv.: bij het pre-processen van beelden, het omgaan met unbalanced

datasets, en het fine- tunen van hyperparameters) en hoe het model zich verhoudt ten

opzichte van benchmarks in de literatuur.

5.1.3 Ontwikkelen van een gebruiksvriendelijke interface:

Een prototype van een gebruiksvriendelijke webapplicatie wordt gebouwd met Streamlit,

hierin kunnen artsen dan röntgenbeelden uploaden en bestuderen. De applicatie voorziet

visuele hulpmiddelen zoals Grad- CAM heatmaps voor uitlegbaarheid, het biedt

functionaliteiten zoals het vervoegen van annotaties en het genereren van een rapport met

resultaten.

5.1.4 Ethische en juridische analyse:

Er wordt onderzocht welke ethische principes en juridische kaders (zoals GDPR en MDR)

van toepassing zijn bij de uitvoering van AI in de medische beeldvorming. Er wordt gekeken

welke risico’s er zijn rondom privacy en veiligheid, en hoe het AI- systeem controleerbaar en

uitlegbaar gemaakt kan worden voor de eindgebruikers.

BACHELORPROEF Punnewaert Kenneth 155.1.5 Positionering binnen TRL- en MDR-kaders:

Het project wordt ingedeeld binnen de Technology Readiness Levels (TRL) en Medical

Device Regulation (MDR) – richtlijnen. Er wordt gekeken welke stappen er nodig zijn om het

prototype op te schalen naar klinische testfase (TRL 4 en verder) en uiteindelijk richting CE-

markering en marktintroductie te werken.

5.1.6 Feedback van de eindgebruikers:

Er wordt uitdrukkelijk gekeken naar de rol van de eindgebruiker, in dit geval zijn dit de

radiologen en de artsen. Hun inbreng wordt meegenomen in het opstellen van de interface,

en er wordt in een latere fase feedback verzameld over de bruikbaarheid en het belang van

het systeem. Hierdoor is het eindproduct niet enkel technisch uitgewerkt, maar sluit ook

effectief aan op de noden van het werkveld.

Door het waarmaken van deze doelstellingen wil ik met deze bachelorproef bijdragen aan

het verlagen van de werkdruk van de radiologen/artsen, het verhogen van de snelheid en

betrouwbaarheid van diagnoses en het stimuleren van de integratie van AI in de klinische

praktijk, binnen een ethisch verantwoord kader.

BACHELORPROEF Punnewaert Kenneth 166 Methodologie

De Methodologie wordt zorgvuldig opgebouwd in mijn bachelorproef om zowel technische

ontwikkeling als de praktische toepasbaarheid van het AI- model te waarborgen. Dit proces

bestaat uit meerder fasen, namelijk:

6.1 Datasetselectie en- verwerking

6.1.1 Publieke datasets

Er werd gebruikt gemaakt van bestaande publieke datasets in de eerste fase nl.:

Kaggle Pediatric Chest X-ray Pneumonia Dataset (Kermany et al., 2018),

die meer dan 5000 röntgenbeelden bevat van kinderen met en zonder

pneumonie.

Chest X- Ray Images (Pneumonia) Dataset, die röntgenbeelden bevat met

annotaties door radiologen.

Deze datasets worden eerst grondig nagekeken op datakwaliteit en gebalanceerdheid. De

beelden worden genormaliseerd en geschaald naar een uniforme resolutie (224 x 224

pixels), en er worden augmentatietechnieken (zoals rotatie, zoom en horizontale flips)

toegepast om over filtering tegen te gaan en de robuustheid van het model te verbeteren.

6.1.2 Klinische data

Er worden in een latere fase van het project geanomiseerde röntgenbeelden verkregen, dit

vanuit AZ Sint Maarten. Dit wordt gebruikt als voorbereiding voor validatie van het model in

een realistische klinische omgeving (TRL 4)

BACHELORPROEF Punnewaert Kenneth 176.2 Modelontwikkeling

Het AI- model is gebaseerd op een Convolutional Neural Network, specifieker de

ResNet152- architectuur (He et al, 2016), deze staat bekend om zijn diepte en uitstekende

prestaties bij beeldherkenning. Met behulp van PyTorch wordt dit model ontwikkeld en

getraind.

6.2.1 Belangrijke parameters:

Learning rate

Optimizer

Loss function

Batch size

Epochs

6.2.2 De prestaties van het model worden beoordeeld op basis van:

Accuracy

Precision, recall en F1-score

ROC-AUC

Confusion matrix

6.3 Interfaceontwikkeling

Er wordt een prototype van webapplicatie ontwikkeld met behulp van Streamlit, dit om het

model bruikbaar te maken voor de artsen. De interface bevat volgende functionaliteit:

• Uploadmogelijkheid voor röntgenbeelden

• Weergave van voorspelde diagnose

• Grad-CAM heatmaps die visueel tonen welke delen van het beeld belangrijk

waren voor de voorspelling

• Annotatietool waarmee artsen opmerkingen kunnen toevoegen

• Rapportgenerator die resultaten samenvat in een PDF-bestand

BACHELORPROEF Punnewaert Kenneth 186.4 Ethisch

Op basis van onderstaande punten wordt er een ethische analyse uitgevoerd:

GDPR: Alle patiëntdata worden volledig geanonimiseerd. Er wordt een

procedure opgesteld voor dataveiligheid en toegangsbeheer.

MDR (EU 2017/745): Het systeem vormt een medisch hulpmiddel dat de

diagnose ondersteunt en daarom wordt er een risicoklasse bepaald volgens

de richtlijnen van de MDR.

Transparantie en uitlegbaarheid: Het is noodzakelijk dat alle artsen

begrijpen hoe het systeem tot zijn beslissing komt. Daarom worden

explainable AI-technieken (zoals Grad-CAM) toegepast en wordt er duidelijke

documentatie voorzien.

6.5 Positie binnen TRL en MDR

Op basis van de huidige status van het project bevindt het model zich volgens TRL-definities

van NASA zich in Technology Readiness Level 3 exitfase. Er werd een werkend prototype

ontwikkeld dat succesvol werd getest op zowel publieke data en offline ziekenhuisdata en

gedocumenteerd (zie hoofdstukken 7, 8, 9). Verschillende functies van het model zijn

gevalideerd, zoals performance op de pediatrische beelden, bias en explainability. Voor de

volgende stap TRL 4 zouden we het model moeten integreren in een relevante klinische

omgeving zoals de servers van het ziekenhuis. Waarbij we dan het model offline gaan

gebruiken en testen met de infrastructuur van het ziekenhuis. Door het offline testen van het

model met data van het ziekenhuis en het documenteren van de prestaties hebben we wel

reeds de eerste stappen gezet richting de exitfase van TRL 4.

Wat betreft de Medical Device Regulation (MDR, EU 2017/745) valt dit model onder de

categorie “software die medische diagnose ondersteunt” en is het potentieel een klasse IIa-

medisch hulpmiddel, afhankelijk of het model ondersteundend of beslissend werkt. In dit

stadium wordt het model nog niet ingezet in de klinische omgeving, en is certificering niet

vereist. Wel wordt er reeds rekening gehouden met:

• Gegevensbescherming (GDPR)

• Uitlegbaarheid (via Grad-CAM)

• Voorbereiding op risicoklasse-analyse

• Documentatie van prestaties en feedback.

Het doel is om bij verdere ontwikkeling stappen te zetten in het opstellen van een MDR-

conforme technische documentatie en risicoanalyse.

BACHELORPROEF Punnewaert Kenneth 196.6 Validatie en feedback

Desondanks het niet mogelijk is binnen het tijdspanne van deze bachelorproef een volledige

klinische validatie uit te voeren, wordt er wel een simulatie opgezet:

• De artsen van AZ Sint Maarten krijgen toegang tot het prototype om te testen

met demodata.

• Via interviews wordt er feedback over gebruiksvriendelijkheid en relevantie

verzameld.

• Deze feedback wordt dan aangetoond en vormt de basis voor toekomstige

optimalisaties.

BACHELORPROEF Punnewaert Kenneth 207 Resultaten

7.1 Datavoorbereiding en analyse

De data werd opgesplitst volgens de standaardstructuur van de Kaggle "Chest X-Ray

Pneumonia" dataset, die drie mappen voorziet: train, val en test. Deze splitsing is behouden,

de verdeling per klasse is als volgt:

• Train: 1082 normaal / 3110 opacity (Pneumonie)

• Validatie: 226 normaal / 605 opacity (Pneumonie)

• Test: 234 normaal / 390 opacity (Pneumonie)

Het analyseren van de datasets was mijn eerste stap. Ik controleerde de class balance

binnen de train-, validatie- en testset. Ik keek ook hoeveel beelden er waren met label

‘normal’ en ‘opacity’ (longontsteking). Hoewel de verdeling redelijk gebalanceerd was, was er

wel een lichte meerderheid van pneumoniebeelden.

Om te vermijden dat het model hierdoor een bias zou ontwikkelen, heb ik class weights

berekend met compute_class_weight uit scikit-learn. Deze gewichten heb ik meegegeven

aan de verliesfunctie zodat fouten op minder vertegenwoordigde klassen zwaarder

doorwegen in de training. Dit verhoogt de betrouwbaarheid van de classificatie.

Figuur 1 Train, val en test distribution

BACHELORPROEF Punnewaert Kenneth 217.2 Data-augmentatie

Ik heb data-augmentatie toegepast op trainingsets, dit om het model robuuster te maken en

overfitting tegen te gaan. Hierdoor leert ook het model hoe om te gaan met variaties in

beeldrotatie, helderheid, kleur en oriëntatie. Om het concreet te maken heb ik gebruikt

gemaakt van:

• Rotatie tot 15°

• Horizontale spiegeling

• Licht- en kleurveranderingen

• Center crop en resizing

Een batch met data-augmentatie bevat dus gevarieerde versies van dezelfde beelden. Er

wordt geen extra data gegenereerd op het originele aantal, maar bij elke epoch worden

nieuwe varianten van de bestaande 4192 trainingsbeelden gebruikt, wat overfitting tegengaat

zodat het model niet dezelfde beelden van buiten kan leren.

Hieronder een voorbeeld van augmentatie die is uitgevoerd op een aantal afbeeldingen:

Deze augmentaties zijn enkel toegepast tijdens training, validatie en test zijn origineel

gebleven, om een eerlijke evaluatie te garanderen.

Figuur 2

7.3 Modeltraining en optimalisatie

Ik heb gebruik gemaakt van een pretrained ResNet152-model voor de training, dat ik

gefinetuned heb voor binaire classificatie (NORMAL vs PNEUMONIA). De laatste laag werd

vervangen door een nieuwe outputlaag met 2 neuronen. Dit model liet ik trainen op mijn

aangepaste trainingsset met augmentatie.

Om overfitting te vermijden maakte ik gebruik van early stopping gebaseerd op validatiefout.

De optimizer was SGD, en ik paste learning rate scheduling toe. De validatieset werd tijdens

de training gebruikt om te bepalen wanneer het model niet verder verbeterde of aan het

overfitten is. Met overfitten bedoelen we dat het model de trainingsdata vanbuiten is aan het

leren en op ongeziene data dan slecht voorspelt.

Hierbij hield ik nauwkeurig de accuratesse en loss bij, op zowel training- als validatieset.

BACHELORPROEF Punnewaert Kenneth 22In dit project werd geen cross-validatie gebruikt. De reden hiervoor is dat de originele

Kaggle-dataset is opgesplitst in een trainingset, validatieset en een testset, hierdoor kunnen

we tijdens de training overfitting monitoren zoals hierboven vermeld. Daarnaast werd het

model ook gevalideerd op een andere dataset (Kaggle Pediatric Pneumonia) als

onafhankelijke validatie.

7.4 Prestaties op publieke datasets

Om een goed beeld te krijgen van de prestaties in een gecontroleerde omgeving werd het

model geëvalueerd op de Chest X- Ray Images (Pneumonia) Test Dataset en extra

gevalideerd op de Kaggle Pediatric Chest X-ray Pneumonia Train Dataset.

Deze tests geven een eerste beeld van de nauwkeurigheid en fouten die het model maakt op

ongeziene data.

De Resultaten zijn als volgt:

Chest X-Ray Images Images (Pneumonia) Dataset

Threshold Accuracy F1-score Confusion Matrix

0.90 92.5% 0.92 [[191, 43], [4, 386]]

0.97 93.7% 0.93 [[200, 34], [5, 385]]

Tabel 1. Threshold 0.97 gaf de beste balans tussen sensitiviteit en precisie

BACHELORPROEF Punnewaert Kenneth 23De confusion matrix laat zien dat we bij en threshold van 0.97, slechts 5 niet als pneumonie

voorspeld zijn en 34 foutief als pneumonie voorspeld zijn.

Figuur 3 Confusion matrix

Er werd geëvalueerd op zowel training set als de test set van de Chest X- Ray Images

(pneumonia). Dit om te controleren of het model overfit is op trainingsdata.

• Training accuracy: 98.52%, F1: 0.9853

• Test accuracy: 93.75%, F1: 0.9367

De kleine daling in accuraatheid en F1-score op de testset wijst op een beperkte mate van

overfitting, wat normaal is bij complexe modellen. De generalisatie wordt als aanvaardbaar

beschouwd, mede dankzij gebruik van data augmentatie en regularisatie .

Figuur 4 Confusion matrix & score

BACHELORPROEF Punnewaert Kenneth 24Pediatric Chest X-ray Pneumonia Dataset

Bij deze dataset gebruikten we enkel de train folder. Deze werd gebruikt als extra testset

voor ons model, dus niet voor training. Hierdoor kunnen we nagaan of het model

generaliseert op data uit een andere bron van Kaggle.

Threshold Accuracy F1-score Confusion Matrix

0.97 97.2% 0.98 [[1347, 2], [144, 3739]]

Tabel 2. Threshold 0.97 gaf de beste balans tussen sensitiviteit en precisie

De confusion matrix laat zien dat we bij en threshold van 0.97, 144 niet als pneumonie

voorspeld zijn en slechts 2 foutief als pneumonie voorspeld zijn. Hier kunnen we al zien dat

het model bij kinderen pneumonie minder goed kan voorspellen dan de normaal classificatie.

Figuur 5 Confusion matrix Pediatric

Conclusie:

De resultaten met een threshold van 0.97 op beide datasets tonen dat het model sterke

prestaties heeft. Dit betekent dat het model weinig fouten maakt op de publieke datasets van

Kaggle. Het model zou kunnen gebruikt worden in een klinische omgeving mits we dit eerst

valideren met ziekenhuisdata.

BACHELORPROEF Punnewaert Kenneth 257.5 ROC- en PR-curve

Om de prestaties van het model beter te begrijpen heb ik ook een ROC- en PR-curve

gevisualiseerd.

De ROC-curve geeft weer hoe goed het model onderscheid maakt tussen de twee klassen

bij verschillende thresholds. Hoe verder de curve in de linkerbovenhoek ligt hoe beter. De

AUC-score (Area Under the Curve) bedraagt 0.97, wat wijst op een hoge

classificatievermogen. Een AUC-score van 1 is perfect en een score van 0.5 (oranje

middenlijn) betekent dat het model niet beter voorspelt dan een willekeurige voorspelling.

Figuur 6 ROC curve

BACHELORPROEF Punnewaert Kenneth 26De PR-curve is vooral interessant in situaties met ongebalanceerde data, zoals medische

diagnose. Hier toont het model een score van 0.98, wat betekent dat het consistent

nauwkeurige voorspellingen maakt. Hoe verder de curve in de rechterbovenhoek ligt hoe

beter. In deze curve gaan we de precisie en recall plotten met verschillende thresholds.

Figuur 7 Precision- Recall Curve

BACHELORPROEF Punnewaert Kenneth 277.6 Gebouwde interface

Ik heb een gebruiksvriendelijke webinterface gebouwd met Streamlit, dit om mijn model

bruikbaar te maken voor niet- technische gebruikers. Hierin kan een gebruiker een

röntgenbeeld uploaden, waarna het model:

1. 2. 3. Een classificatie uitvoert (NORMAL of PNEUMONIA),

Een Grad-CAM heatmap toont ter interpretatie,

De resultaten samenvat in een overzicht.

Ik heb deze interface volledig zelf ontworpen en getest. Alles draait lokaal, zodat er geen

gevoelige gegevens verzonden hoeven te worden. In een vervolgversie kan dit ook

gekoppeld worden aan een PACS of ziekenhuisinformatiesysteem (ZIS).

Figuur 8 Screenshot van de interface met predictie en Grad-CAM

BACHELORPROEF Punnewaert Kenneth 287.7 Visuele uitleg

De Grad- CAM heatmaps tonen de gebieden van het röntgenbeeld die het meest bijdragen

aan de voorspelling van een longontsteking. Dit helpt ervoor om het black box aspect van

deep learning een stukje te doorbreken en het geeft de artsen een inzicht in de werking van

het model.

Figuur 9 Voorbeeld Grad-CAM

7.8 Status externe validatie

Er werd wel reeds contact gelegd met AZ Sint Maarten om in een toekomstige fase

geanomimiseerde röntgenbeelden te verkrijgen voor verdere bevestiging. Om het model te

testen in een realistische klinische omgeving is deze stap essentieel. Ook om mogelijke

biases of overfitting op publieke datasets te identificeren.

7.9 Simulatie van mogelijke impact

Hier voorspellen de prestaties op de publieke datasets dat het systeem tijdbesparend kan

werken door automatische beelden te scannen en een eerste indicatie van een

longonsteking te geven. Dit zou de werkdruk van de radiologen en artsen kunnen verlichten,

voor tijdens opstoten van periodes van luchtweginfecties.

BACHELORPROEF Punnewaert Kenneth 297.10 Knelpunten en observaties

• Op dit moment zijn de resultaten gebaseerd op goed gelabelde, publieke

datasets. Dit kan leiden tot optimistische prestaties die in een klinische setting

mogelijk lager zullen zijn.

• Het systeem is gemaakt om een ondersteunende rol te spelen en mag niet zelf

beslissingen nemen zonder een supervisie door een arts.

BACHELORPROEF Punnewaert Kenneth 308 Externe validatie met ziekenhuisdata

8.1 Inleiding

Er werd in samenwerking met AZ Sint- Maarten een set röntgenbeelden verzameld afkomstig

uit de klinische omgeving. Dit om de generaliseerbaarheid van het ontwikkelde AI- model te

testen buiten de publieke datasets van Kaggle. Dit vormt een cruciale stap in het project naar

werkelijke implementatie: een model dat goed werkt op Kaggle- datasets is niet per definitie

bruikbaar in een ziekenhuisomgeving.

8.2 Datasetbeschrijving

Voor de externe validatie werd door het AZ Sint-Maarten een klinische dataset aangeleverd,

dit bestaande uit röntgenbeelden van pediatrische patiënten. Deze beelden werden

rechtstreeks verstuurd met, een met wachtwoord beveiligde We- transfer link.

8.2.1 Structuur en verdeling

De dataset is georganiseerd in 3 afzonderlijke mappen:

• Positief (20 patiënten): kinderen met radiologisch bevestigde pneumonie.

• Negatief (20 patiënten): kinderen zonder radiologische aanwijzingen voor

pneumonie.

• Suspect (10 patiënten): beelden waarbij het verslag melding maakt van een

vermoeden van of beginnende pneumonie, maar zonder definitieve

bevestiging.

Deze indeling is van belang, aangezien de ‘suspecte’ groep zeer vaak voorkomt in

de praktijk en AI-systemen hier extra gevoelig op kunnen reageren. De beelden in

deze map zijn niet meegenomen in de evaluatie (zoals accuracy of F1-score), maar

deze kunnen wel nuttig zijn voor visuele analyse of toekomstige leerstrategieën.

8.2.2 Kenmerken van de beelden

• Populatie: uitsluitend pediatrische patienten .

• Beeldtypes: zowel vooraanzichten als zijaanzichten zijn opgenomen.

• Formaat: DICOM-beelden werden geconverteerd naar PNG.

BACHELORPROEF Punnewaert Kenneth 31Deze beelden waren opgeslagen in deelmappen, gescheiden per label. Hieronder

vindt je de bijzonderheden die werden vastgesteld:

• Zowel vooraanzichten als zijaanzichten kwamen voor.

• De beelden varieerden sterk qua belichting, contrast en scherpte.

• De beelden waren afkomstig van kinderen, terwijl het oorspronkelijke model

getraind was op volwassen populaties.

8.3 Eerste test: Originele model toepassen op ziekenhuisdata

Als eerste stap werd het getrainde ResNet152- model (getraind op volwassen Chest X-ray

Pneumonia dataset) rechtstreeks toegepast op deze ziekenhuisbeelden. In de dataset

hebben we dan meteen de zijaanzichten verwijderd. Dit omdat ons model enkel getraind is

op vooraanzichten. Er bleven hierdoor 46 beelden over in onze data.

Resultaten:

• Het model had een hoge recall op de negatieve klasse, dit betekent dat het goed in

staat was om afwezigheid van een longontsteking op te sporen.

• De positieve klasse (pneumonie) werd echter zeer slecht gedetecteerd met een recall

van slechts 0.16. Van de 19 positieve gevallen werden er maar 3 correct herkend.

• De AUC-score van 0.67 toont aan dat het model matig scoort in het onderscheiden

van klassen.

Figuur 10 Confusion Matrix & score Figuur 11 ROC curve

BACHELORPROEF Punnewaert Kenneth 328.4 Mogelijke oorzaken

8.4.1 Domain shift

• De ziekenhuisbeelden wijken zeer sterk af van de trainingsdata qua contrast,

belichting en ruisniveau. Een slechte belichting kan leiden tot verkeerd ingeschatte

voorspellingen in het classificatieproces.

• De trainingsdata bestond enkel uit beelden van volwassenen, terwijl de

ziekenhuisdata pediatrische beelden bevatte.

8.4.2 Te kleine testset

• De testset bevatte slechts 19 positieve gevallen, waardoor zelf een paar fouten leiden

tot sterke daling in F1-score. Toch toont dit aan dat het model niet robuust genoeg is

voor klinisch gebruik zonder aanpassingen.

Figuur 4 Voorbeeld van trainingsdata Figuur 13 Voorbeeld van ziekenhuisdata

BACHELORPROEF Punnewaert Kenneth 338.5 Hertraining met pediatrische data

Nadat de prestatie tegenviel van het oorspronkelijke model op de ziekenhuisdata, werd er

besloten om het model opnieuw te trainen met de Kaggle Pediatric Chest X- ray Pneumonia

dataset (Kermany et al., 2018). Deze dataset bevat enkel röntgenbeelden en werd gebruikt

om de generaliseerbaarheid van het model naar ziekenhuisdata te verbeteren.

Aanpak:

• We hebben de code van het oorspronkelijke model gebruikt.

• De dataset vervangen door de pediatrische dataset.

• Zelfde netwerkarchitectuur en augmentatie toegepast.

• Het model is getraind met aangepaste class weights.

Trainingsresultaten

• Training accuracy: 98.57%, F1: 0.9858

• Test accuracy: 90.06%, F1: 0.8972

De versie die we opnieuw trainde van het model toont een duidelijke verbetering aan in

vergelijking met de eerdere resultaten. Vooral de pneumonie gevallen zijn sterk verbetert.,

met slechts 3 false negatives. De verhoogde false positives (59 foutief als pneumonie

voorspelde normale beelden) is een gekende trade-off, maar dit kan in een klinische

omgeving aanvaardbaar zijn, gezien het risico van gemiste diagnoses groter is dan

overdetectie. Het verschil in prestaties tussen training en testset is beperkt, dit wijst op een

model dat goed generaliseert en slechts licht overfit is.

Figuur 14 Confusion Matrix op traingset en testset na hertraining

BACHELORPROEF Punnewaert Kenneth 348.6 Aanpassing helderheid en contrast

Bij verdere controle van de dataset van AZ Sint-Maarten viel het op dat de kleurtoon van de

ziekenhuisbeelden licht waren ten opzichte van de Kaggle trainingsdata zoals we kunnen

zien in het voorbeeld hierboven (zie 8.4.2). Deze verschillen in beeldkwaliteit kunnen leiden

tot domain shift, wat de prestaties van het model nadelig beïnvloedt. Daarom werd de

brightness en contrast van de data aangepast zodat deze visueel gelijk waren aan de

trainingsdata.

Deze stap was belangrijk om de beelden van de ziekenhuisdata beter te kunnen afstemmen

met de distributie van de trainingsdata, wat leidde tot verbeterde en betrouwbaardere

resultaten tijdens de voorspellingen.

Brightness en contrast werden afgewisseld tussen 0.6 en 1.4 op de data van het ziekenhuis.

8.7 Cropping: longregio isoleren

Er viel een extra probleem op, namelijk dat een groot deel van de ziekenhuisbeelden geen

relevante regio’s bevatte, zoals delen van de schedel en andere organen.

In de trainingsdata viel op dat alle foto’s bijgesneden werden tot enkel de longen grotendeels

overbleven, dit kan ook een oorzaak zijn van de misvoorspellingen van het model. Een

model kan gemakkelijk beïnvloed worden door overbodige gebieden op een scan.

Daarom werd cropping uitgevoerd op de data van het ziekenhuis, waardoor er enkel het

longgebied overbleef voor de voorspellingen van het model.

Hieronder vind je enkele voorbeelden van van ziekenhuisdata en trainingsdata:

Figuur 15 Voorbeelden van ziekenhuisdata

BACHELORPROEF Punnewaert Kenneth 35Figuur 16 Voorbeelden van trainingsdata

8.8 Tweede evaluatie met verbeteringen

Na de hertraining op pediatrische data van Kaggle, toepassing van cropping, en

helderbaarheidsaanpassing werden de beelden opnieuw door het model gehaald. Nu is de

data gelijkwaardig aan de trainingsdata van het model.

De resultaten waren duidelijk merkbaar beter :

Oorspronkelijk Model Nieuw Model

Accuracy 0.61 0.78

F1-score (macro) 0.49 0.78

Negatief [25-2] [17-10]

Positief [16-3] [0-19]

BACHELORPROEF Punnewaert Kenneth 36Resultaten van het nieuwe model:

Figuur 5 Confusion Matrix & score Figuur 18 ROC curve

De nieuwe confusion matrix toont aan dat het model alle echte positieve gevallen

(pneumonie) correct detecteert en enkel bij normale beelden nog 10 foutieve classificaties

maakt. Dat betekent een 100% recall voor pneumonie, dit is cruciaal in een medische

omgeving. De F1-score steeg van 0.49 naar 0.78, dit is een aanzienlijke verbetering.

Daarnaast laat de ROC- curve een AUC van 0.86 zien, dit wijst op een sterke

onderscheidingskracht tussen gezonde en zieke beelden. Dit is een duidelijke indicatie dat

de combinatie van de juiste trainingsdata en preprocessing cruciaal is voor een model dat

klinisch bruikbaar moet zijn.

8.9 Reflectie

Door deze externe test leert dit ons belangrijke lessen over AI in de praktijk:

• Preprocessing is cruciaal bij toepassing op reële klinische beelden.

• Trainingsdata moet representatief zijn voor de doelgroep en context.

• Zijaanzicht beelden kunnen het model verwarren als ze nooit gezien zijn tijdens

training.

• Een model trainen op alleen publieke data zonder externe controle is onvoldoende

voor de uitvoer in de zorg.

8.10 Conclusie

De ziekenhuisdata toonde aan dat zelfs een nauwkeurig model op publieke datasets, het

moeilijk kan hebben in realistische settings. Door gerichte aanpassingen (zoals retraining,

cropping en belichtingscorrectie) kon de prestatie verbeterd worden. Deze externe evaluatie

bevestigt het belang van domain shift te behandelen en dit vormt een noodzakelijke stap in

de overgang naar een klinische inzetbaar hulpmiddel.

BACHELORPROEF Punnewaert Kenneth 379 Discussie

9.1 Belang van het probleem

Wereldwijd is een longonsteking een belangrijke doodsoorzaak, vooral bij jonge kinderen,

oudere mensen en mensen met een laag immuunsysteem (WHO, 2022). Radiologen in een

klinische setting zoals in het AZ Sint Maarten worden dagelijks geconfronteerd met een grote

hoeveelheid van medische beelden. De hoge werkdruk maakt het uitdagend om elk

röntgenbeeld met dezelfde mate van aandacht te interpreteren en te evalueren. AI kan hier

een bijdrage in leveren door verdachte beelden vooraf te markeren, hierdoor kunnen artsen

sneller prioriteiten stellen.

9.2 De rol van de eindgebruiker

Het model werd ontworpen met de radioloog als primaire eindgebruiker. Via een

gebruiksvriendelijke interface Streamlit- app kunnen de dokters beelden uploaden, heatmaps

bekijken en automatische analyses uitvoeren. Het werd duidelijk tijdens een overleg met het

hoofd van de afdeling radiologie dat er nood is aan eenvoudige, snelle interpreteerbare

hulpmiddelen die geen extra werkdruk leggen op het werk van de arts. Om deze reden werd

er veel aandacht besteed aan visualisatie (Grad- CAM) en downloadbare rapporten.

9.3 Gebruiksvriendelijkheid en dummy-proof ontwerp

Een belangrijk punt waar veel aandacht aan moest worden geschonken was dat de interface

zo ontworpen moest worden dat zelfs artsen zonder technische achtergrond deze vlot

konden gebruiken. Daarom werden de volgende functies ingebouwd:

• Automatische bestandsdetectie bij uploaden.

• Eenvoudige knoppen om analyses te starten.

• Visuele feedback (heatmaps) met korte uitleg.

• Downloadbare rapporten in PDF-formaat voor dossierbeheer.

Deze keuzes werden geïnspireerd door de aanbevelingen tijdens het gastcollege ‘Al Ethics-

Dardan Hot’, hierin werd ook benadrukt dat AI-systemen toegankelijk en begrijpelijk moeten

zijn voor eindgebruikers om ethisch verantwoord te zijn.

BACHELORPROEF Punnewaert Kenneth 389.4 Kritische reflectie over de data

Het is belangrijk om kritisch te blijven ook al zijn de prestaties op publieke datasets

indrukwekkend. Publieke datasets zijn vaak goed gestructureerd en bevatten weinig ruis. In

werkelijkheid is het mogelijk dat ziekenhuisbeelden van mindere kwaliteit zijn, verschillende

opnametechnieken vertonen of metadata missen.

Na de evaluatie met ziekenhuisdata bleek dat er enorme verschillen waren met de publieke

trainingsdata van Kaggle. Zoals de verschillen in helderheid, zijaanzichten in plaats van

enkel vooraanzichten, en beelden van kinderen terwijl het model getraind was op

volwassenen. Deze domain shift had invloed op de prestaties van het model, en werd

aangepakt door hertraining met pediatrische data, cropping, en helderheidsaanpassing.

9.5 Waarde van het werk

Het project toont aan dat een AI-model voor pneumoniedetectie technisch haalbaar is. De

tools die ontwikkeld zijn voor het project, bieden een basis die kan dienen als proof of

concept voor verdere klinische validatie en eventuele certificatie onder de Medical Device

Regulation (MDR). We hebben het model getest en aangepast met de ziekenhuisdata van

Sint-Maarten voor validatie van het model. Dit vormde een waardevol leertraject over

modelontwikkeling met oog op integratie naar een klinische omgeving. Het werk legt hiermee

de technische maar ook etische en klinische fundamenten uit voor verdere samenwerkingen

met zorginstellingen en eventuele certificatie als medisch hulpmiddel.

BACHELORPROEF Punnewaert Kenneth 3910 Conclusie & Toekomstwerk

10.1 Conclusie

In deze bachelorproef werd onderzocht hoe artificiële intelligentie kan bijdragen aan de

vroegtijdige diagnose van pneumonie op röntgenbeelden. Het model, gebaseerd op een

ResNet152-architectuur, toont sterke prestaties op publieke datasets zoals de Chest X- Ray

Images (Pneumonia) Dataset en de Kaggle Pediatric Chest X-ray Dataset, met

nauwkeurigheidspercentages tot boven 97%.

De onderzoeksvraag –

Hoe kan artificiële intelligentie bijdragen aan vroegtijdige

ziektediagnose in de gezondheidszorg en welke technische en ethische uitdagingen komen

hierbij kijken?” – werd beantwoord door niet alleen het model te ontwikkelen, maar ook door

diep in te gaan op de ethische vereisten, de regelgeving (MDR), en het belang van

uitlegbaarheid. De gastlezing van Dardan Hoti over black boxes onderstreepte het belang

van transparantie en vertrouwen in medische AI.

Hoewel het model reeds goed presteert in een testomgeving, is het cruciaal om erop te

wijzen dat validatie met echte ziekenhuisbeelden van belang is. Dankzij het testen met

beelden van het AZ Sint-Maarten kwamen enkele tekortkomingen van het oorspronkelijke

model naar boven. Door over te schakelen naar een pediatrisch getraind model en extra

preprocessing (zoals cropping en helderheidsaanpassing) konden de prestaties aanzienlijk

verbeteren. Toch blijft volledige integratie in een klinische omgeving nog uit, en is verdere

validatie nodig in samenwerking met artsen in een realistische omgeving.

Tot slot wil ik meegeven dat ik het jammer vind hoe moeilijk het is om een AI-model binnen

de gezondheidszorg te ontwikkelen. Door de strenge wetgeving en de lange overgang van

medische goedkeuringstrajecten duurt het vaak jaren voor een AI-systeem effectief kan

worden ingezet. Daarnaast ondervind ik dat veel mensen binnen de zorgsector

terughoudend zijn om actief mee te werken aan zulke projecten, ondanks het feit dat we

hiermee proberen om mens en maatschappij te helpen en de gezondheidszorg te

verbeteren.

BACHELORPROEF Punnewaert Kenneth 4010.2 Toekomstwerk

Om het project verder te brengen richting klinische praktijk, worden volgende stappen

aanbevolen:

10.2.1 Gebruikersonderzoek en feedbacksessies:

• Radiologen en andere medische professionals dienen bevraagd te worden

over de gebruiksvriendelijkheid van de applicatie en de kwaliteit van de

gegenereerde uitleg. Deze feedback moet verwerkt worden in verdere

iteraties.

10.2.2 Uitbreiding naar andere toepassingen:

• Zoals eerder besproken met AZ Sint-Maarten bestaat er interesse om het

model in de toekomst uit te breiden naar andere detectiegebieden, zoals

tumoren of andere luchtwegaandoeningen.

10.2.3 MDR-certificatie en risicoklasse-analyse:

• De eerste stappen naar certificatie moeten gezet worden, inclusief

risicobeoordeling en het opstellen van de verplichte documentatie voor

medische hulpmiddelen binnen Europa.

10.2.4 Data-ethiek en privacy:

• Bij elke nieuwe stap moet blijvende aandacht gaan naar GDPR-vereisten en

ethische richtlijnen, bijvoorbeeld via een ethisch comité dat de voortgang

monitort.

10.3 Lessen uit de bachelorproef

Wat ik geleerd heb tijdens deze bachelorproef is dat technische haalbaarheid maar 1 aspect

is van een succesvolle AI- oplossing in de zorgsector. Wat even belangrijk is, zijn de

ethische en juridische context, het betrekken van eindgebruikers en het maken van duidelijke

keuzes op vlak van uitlegbaarheid en gebruiksvriendelijkheid. Een AI- model kan pas een

echte impact maken als het toegevoegd wordt in een werkbare en veilige klinische werkflow.

Tot slot besefte ik dat een samenwerking met zorgprofessionals en iteratieve aanpassingen

belangrijk zijn om AI bruikbaar en verantwoord te maken in een klinische omgeving. Deze

ervaring gaf mij inzicht in de complexiteit van medische AI – zowel technisch als

maatschappelijk.

BACHELORPROEF Punnewaert Kenneth 4111 Bronnenlijst

• NASA. (2012). Technology Readiness Level (TRL) Definitions. NASA.

https://www.nasa.gov/directorates/heo/scan/engineering/technology/techn…

ness_level

• European Commission. (2021). Medical devices: Regulation (EU) 2017/745.

https://eur-lex.europa.eu/legal-content/NL/TXT/?uri=CELEX%3A32017R0745

• Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., ... & Ng, A. Y. (2017).

Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep

learning. arXiv preprint arXiv:1711.05225.

• He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image

Recognition. https://doi.org/10.48550/arxiv.1512.03385

• European Union. (2016). Regulation (EU) 2016/679 of the European Parliament and

of the Council of 27 April 2016 (General Data Protection Regulation). Official Journal

of the European Union. https://eur-lex.europa.eu/eli/reg/2016/679/oj

• Amann, J., Blasimme, A., Vayena, E., Frey, D., & Madai, V. I. (2020). Explainability

for artificial intelligence in healthcare: a multidisciplinary perspective. BMC Medical

Informatics and Decision Making, 20(1), 310–310. https://doi.org/10.1186/s12911-

020-01332-6

• Mittelstadt, B. D., Allo, P., Taddeo, M., Wachter, S., & Floridi, L. (2016). The ethics of

algorithms: Mapping the debate. Big Data & Society, 3(2).

https://doi.org/10.1177/2053951716679679 (Original work published 2016)

• Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2020).

Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based

Localization. International Journal of Computer Vision, 128(2), 336–359.

https://doi.org/10.1007/s11263-019-01228-7

• World Health Organization. (2022). Pneumonia.

https://www.who.int/news-room/fact-sheets/detail/pneumonia

• Mooney, P. T. (2018). Chest X-Ray Images (Pneumonia) [Dataset].

Kaggle. https://www.kaggle.com/datasets/paultimothymooney/chest-xray-

pneumonia

• Kermany, Daniel; Zhang, Kang; Goldbaum, Michael (2018), “Labeled Optical

Coherence Tomography (OCT) and Chest X-Ray Images for Classification”,

BACHELORPROEF Punnewaert Kenneth 42Mendeley Data, v2

http://dx.doi.org/10.17632/rscbjbr9sj.2

• Hoti, D. (2024). Gastlezing gegeven aan Thomas More Hogeschool,

Mechelen.

• NASA. (2017). Technology readiness level definitions. NASA.

https://www.nasa.gov/wp-content/uploads/2017/12/458490main_trl_definiti…

BACHELORPROEF Punnewaert Kenneth

Download scriptie (3.75 MB)
Universiteit of Hogeschool
Thomas More Hogeschool
Thesis jaar
2025
Promotor(en)
Charlie Beirnaert