Kenneth Punnewaert
Je hoort het vaak in de media: ‘De zorg staat onder druk’. Ook radiologen krijgen dagelijks stapels longfoto’s te verwerken. In die berg beelden een longontsteking (pneumonie) niet missen, kan levens redden, vooral bij kinderen en ouderen. Daarom bouwde ik, Kenneth Punnewaert, een AI-model dat longontstekingen herkent op röntgenbeelden en testte het, samen met AZ Sint-Maarten (Mechelen), buiten de comfortabele kring van open datasets. Het resultaat: veel belofte, maar ook duidelijke lessen over wat er mis kan gaan zodra je het ziekenhuis binnenstapt.
Van ideaal lab naar echte ziekenhuisbeelden
De kern van het project: een zogenoemd deep-learningmodel (ResNet152) dat leert uit duizenden gelabelde borstkasfoto’s. Allereerst trainde ik op twee grote, publieke Kaggle-datasets. Daar haalde het systeem topprestaties met o.a. een AUC-ROC rond 0,97 en nauwkeurigheden boven 93 tot zelfs 97 procent, afhankelijk van de drempelwaarde. Klinkt indrukwekkend en als muziek in de oren, en dat is het ook: op die gecontroleerde data maakte het model weinig fouten.
Maar het was even wel zoeken om alles op punt te krijgen want zodra het AI-model werd losgelaten op klinische beelden van AZ Sint-Maarten (pediatrische patiënten), bleek de realiteit weerbarstiger. De foto’s verschilden in belichting,
contrast en uitsnede, sommige waren zijaanzichten, terwijl het model getraind was op vooraanzichten. Gevolg: het AI-model zag veel echte longontstekingen niet (lage “recall”). In gewoon Nederlands: kinderen met pneumonie glipten te vaak door de mazen van het net.
Repareren waar het wringt
Door die dip niet weg te moffelen maar te analyseren, legde het onderzoek de vinger op de wonde: domain shift. Het verschil tussen trainingsdata en echte ziekenhuisdata. Ik nam drie ingrepen: hertrainen op een pediatrische dataset, de longregio’s bijsnijden (cropping) en de helderheid/het contrast afstemmen op de
beelden uit het ziekenhuis. En check, dit lukte. In de tweede evaluatie werden alle echte longontstekingen correct opgepikt (100% recall in de kleine testset), met een algemene onderscheidingskracht (AUC) van 0,86. Daar stond wel een bekend nadeel tegenover: meer vals positieven bij gezonde beelden. In de geneeskunde is die ruil soms verdedigbaar, liever een extra check dan een gemiste longontsteking maar het vraagt duidelijke afspraken in de workflow.
Niet zomaar een zwarte doos
Een vaak gehoorde kritiek op AI in de zorg: “Ik begrijp niet waarom het model dit zegt of beslist.” Ook wel gekend als het Black Box probleem. Vandaar een eenvoudige webapplicatie (Streamlit) waarin artsen een röntgenbeeld uploaden, direct een inschatting zien (normaal/pneumonie) én een Grad-CAM-heatmap: een kleurlaag die toont welke zones in de longen het model het zwaarst liet meewegen. Dat vergroot het vertrouwen en maakt het gesprek tussen arts en algoritme concreter. Alles draait lokaal, zonder patiëntgegevens te versturen een bewuste keuze met het oog op privacy.
Wat betekent dit voor de zorg?
Ethiek eerst: privacy, bias, verantwoordelijkheid
Mijn project weegt vier thema’s af.
.
Wat is er echt nieuw aan dit werk?
Niet de term “AI voor longontsteking” die kennen we maar de vertaalslag naar de praktijk met pediatrische beelden uit een lokaal ziekenhuis, en het systematisch oplossen van wat daar mis ging. Een combinatie van hertraining op de juiste doelgroep, ( technische aanpassingen aan de beelden en een uitlegbare interface laat zien welke concrete stappen nodig zijn vóór een model veilig kan landen in een klinische workflow.
Jullie denken : ‘En wat nu?’
De volgende stap is het testen in een ziekenhuisinfrastructuur (TRL 4): koppeling met PACS/ZIS, gebruik met echte werkdruk, en systematisch feedback ophalen bij radiologen. Parallel start de voorbereiding op MDR-documentatie en een bredere bias-audit. De les van deze bachelorproef is helder: technische topcijfers zijn pas het begin. Pas wanneer een model robuust blijft op “ruisende” praktijkdata, uitlegbaar is voor artsen en netjes binnen de regels valt, wordt AI een betrouwbare collega op de afdeling radiologie.
De rol van AI bij
vroegtijdige
ziektevoorspelling
in de
gezondheidszorg
DEEP LEARNING VOOR ZIEKTEHERKENNING
PROFESSIONELE BACHELOR IN HET
INFORMATIEMANAGEMENT EN DE MULTIMEDIA
Opleiding Informatie, Management & Security (IMS)
Keuzetraject: Data Analytics
Punnewaert Kenneth
Campus De Vest, Zandpoortvest 60, BE-2800 Mechelen
2024 - 2025
Voorwoord
Het onderwerp dat ik heb gekozen voor mijn bachelorproef combineert mijn passie voor data
en artificiële intelligentie in de healthcare met als doel een bijdrage aan mens en
maatschappij bijbrengen: ‘Het gebruik van AI voor vroegtijdige diagnose in de
gezondheidszorg’. Dankzij de medewerking van het ziekenhuis AZ Sint- Maarten in
Mechelen is dit hele project tot stand kunnen komen. Zij gaven aan dat ze nog geen gebruik
maken van een AI-model voor het opsporen van pneumonie en dat hier zeker nog ruimte is
voor innovatie. De samenwerking met hun was dan ook van cruciaal belang om het
ontwikkelde model niet alleen te kunnen trainen op publieke data, maar ook om het te
valideren in een realistische klinische setting.
Ik wil zowel de begeleiders als de docenten bedanken om mij te begeleiden doorheen dit
proces. Zij hebben mij de nodige kennis en tools aangeleerd om dit allemaal mogelijk te
maken. Alsook hebben de begeleiding en de feedback een cruciale rol gespeeld tijdens het
onderzoekstraject om dit project succesvol te kunnen afronden.
Tot slot wil ik de nadruk leggen hoe uniek het was om tijdens deze bachelorproef niet alleen
mijn technische vaardigheden te versterken, maar ook inzicht te krijgen in de ethische en
maatschappelijke gevolgen van AI in de medische sector. Ik twijfel er dan ook niet aan dat ze
me een richting geven in mijn toekomstige carrière in data science.
BACHELORPROEF Punnewaert Kenneth 2Inhoud
1 INLEIDING
_____________________________________________________________
2 PROBLEEMSTELLING
___________________________________________________
3 LITERATUURSTUDIE
____________________________________________________
3.1 Pneumonie- detectie met AI
_____________________________________________
3.2 Deep learning- architecturen ResNet
______________________________________
3.3 Uitlegbaarheid en explainable AI _________________________________________
3.4 Klinische implementatie en TRL __________________________________________
3.5 Ethische overwegingen ________________________________________________
4 ONDERZOEKSVRAAG
__________________________________________________
4.1 Hoe werkt AI bij het analyseren van medische data voor
ziektevoorspelling? ___________________________________________________
4.1.1 Voorbeeld:
______________________________________________________
4.1.2 Model
__________________________________________________________
4.1.3 Belangrijke stappen: _______________________________________________
4.2 Hoe kan AI bijdragen aan gepersonaliseerde behandelingen? _________________
4.2.1 Voorbeelden:
____________________________________________________
4.3 Wat zijn de technische vereisten en beperkingen van AI-modellen in de
medische sector?
____________________________________________________
4.3.1 Belangrijke vereisten: ______________________________________________
4.3.2 Belangrijke beperkingen: ___________________________________________
4.4 Welke ethische uitdagingen spelen een rol bij het gebruik van AI? ______________
4.4.1 In dit project: _____________________________________________________
5 DOELSTELLINGEN
_____________________________________________________
5.1 De belangrijkste doelstellingen zijn: ______________________________________
5.1.1 Ontwikkelen van een deep learning- model voor pneumoniedetectie: _________
5.1.2 Technische haalbaarheid:
___________________________________________
5.1.3 Ontwikkelen van een gebruiksvriendelijke interface: ______________________
5.1.4 Ethische en juridische analyse: ______________________________________
5.1.5 Positionering binnen TRL- en MDR-kaders:
_____________________________
5.1.6 Feedback van de eindgebruikers: ____________________________________
6 METHODOLOGIE
______________________________________________________
6.1 Datasetselectie en- verwerking _________________________________________
6
7
8
8
8
8
9
9
10
10
10
10
11
11
12
12
12
13
13
14
15
15
15
15
15
15
16
16
17
17
BACHELORPROEF Punnewaert Kenneth 36.1.1 Publieke datasets
_________________________________________________
6.1.2 Klinische data
____________________________________________________
6.2 Modelontwikkeling ___________________________________________________
6.2.1 Belangrijke parameters: ____________________________________________
6.2.2 De prestaties van het model worden beoordeeld op basis van: ______________
6.3 Interfaceontwikkeling _________________________________________________
6.4 Ethisch
____________________________________________________________
6.5 Positie binnen TRL en MDR
____________________________________________
6.6 Validatie en feedback
_________________________________________________
7 RESULTATEN
_________________________________________________________
7.1 Datavoorbereiding en analyse __________________________________________
7.2 Data-augmentatie ____________________________________________________
7.3 Modeltraining en optimalisatie __________________________________________
7.4 Prestaties op publieke datasets _________________________________________
7.5 ROC- en PR-curve
___________________________________________________
7.6 Gebouwde interface
__________________________________________________
7.7 Visuele uitleg _______________________________________________________
7.8 Status externe validatie
_______________________________________________
7.9 Simulatie van mogelijke impact _________________________________________
7.10 Knelpunten en observaties __________________________________________
8 EXTERNE VALIDATIE MET ZIEKENHUISDATA
______________________________
8.1 Inleiding ___________________________________________________________
8.2 Datasetbeschrijving __________________________________________________
8.2.1 Structuur en verdeling _____________________________________________
8.2.2 Kenmerken van de beelden
_________________________________________
8.3 Eerste test: Originele model toepassen op ziekenhuisdata ____________________
8.4 Mogelijke oorzaken __________________________________________________
8.4.1 Domain shift
_____________________________________________________
8.4.2 Te kleine testset
__________________________________________________
8.5 Hertraining met pediatrische data _______________________________________
8.6 Aanpassing helderheid en contrast ______________________________________
8.7 Cropping: longregio isoleren ___________________________________________
8.8 Tweede evaluatie met verbeteringen _____________________________________
8.9 Reflectie
___________________________________________________________
8.10 Conclusie
_______________________________________________________
17
17
18
18
18
18
19
19
20
21
21
22
22
23
26
28
29
29
29
30
31
31
31
31
31
32
33
33
33
34
35
35
36
37
37
BACHELORPROEF Punnewaert Kenneth 49 DISCUSSIE
___________________________________________________________
9.1 Belang van het probleem ______________________________________________
9.2 De rol van de eindgebruiker ____________________________________________
9.3 Gebruiksvriendelijkheid en dummy-proof ontwerp ___________________________
9.4 Kritische reflectie over de data
__________________________________________
9.5 Waarde van het werk
_________________________________________________
10 CONCLUSIE & TOEKOMSTWERK
_____________________________________
10.1 Conclusie
_______________________________________________________
10.2 Toekomstwerk
____________________________________________________
10.2.1 Gebruikersonderzoek en feedbacksessies:
____________________________
10.2.2 Uitbreiding naar andere toepassingen: _______________________________
10.2.3 MDR-certificatie en risicoklasse-analyse: _____________________________
10.2.4 Data-ethiek en privacy: ___________________________________________
10.3 Lessen uit de bachelorproef _________________________________________
11 BRONNENLIJST
38
38
38
38
39
39
40
40
41
41
41
41
41
41
42
____________________________________________________
BACHELORPROEF Punnewaert Kenneth 51 Inleiding
De aanleiding voor deze bachelorproef was een gesprek met het hoofd van de afdeling
radiologie van AZ Sint Maarten in Mechelen. In eerste instantie werd er overwogen om een
AI- model te ontwikkelen voor het opsporen van tumoren of Alzheimer, maar het ziekenhuis
gaf zelf aan dat hier al reeds een samenwerking voor is met externe partijen. Wat wel naar
voren kwam in ons gesprek, was dat er een duidelijke nood is aan ondersteuning bij het
opsporen van pneumonie op röntgenbeelden. Men gaf expliciet aan dat er op dit moment
nog geen AI- model werd gebruikt voor deze aandoening en dat hier zeker ruimte is voor
innovatie.
Op basis hiervan werd het project wat bijgestuurd: de nadruk kwam volledig te liggen op het
ontwikkelen van een deep learning- model dat longontstekingen kan opsporen op medische
beelden. Het plan is om AI in te zetten als ondersteunend hulpmiddel voor radiologen, zodat
verdachte beelden sneller en betrouwbaarder kunnen worden opgespoord.
Het belang van deze keuze wordt bovendien bevestigd door wetenschappelijke literatuur.
Longontstekingen zijn wereldwijd één van de meest voorkomende en dodelijke
infectieziekten. Zeker bij jonge kinderen en ouderen (WHO, 2022). Het is daarom ook
cruciaal om zo snel en correct mogelijk een diagnose te stellen om ernstige complicatie te
voorkomen. Door het combineren van klinische input en wetenschappelijke inzichten wordt
dit project zowel praktijkgericht als theoretisch onderbouwd.
Naast de technische kant van het project wordt er ook aandacht gegeven aan de ethische
aspecten. Het gebruik van AI in de gezondheidssector brengt veel vragen met zich mee,
namelijk:
• Hoe garanderen we de privacy van de patiënten?
• Hoe zorgen we ervoor dat het AI- model begrijpelijk zijn voor artsen?
In dit onderzoek worden onderstaande aspecten behandeld:
• Het ontwikkelen en trainen van een AI- model op basis van bestaande datasets.
• Het goedkeuren van het model op klinische data afkomstig van een ziekenhuis.
• Een grondige analyse van de technische prestaties van het model.
• Een bespreking van de ethische uitdagingen.
• Een simulatie van hoe het systeem kan worden uitgebouwd naar een werkende
toepassing in de zorg, incl. een analyse volgens TRL- en MDR- kader.
Het is niet enkel het doel van deze bachelorproef om de technische haalbaarheid aan te
tonen van AI voor het detecteren van een longontsteking, maar ook om inzicht te bieden in
de stappen die nodig zijn om het systeem veilig, verantwoord en effectief te implementeren in
de praktijk.
BACHELORPROEF Punnewaert Kenneth 62 Probleemstelling
Tijdens mijn verkennend gesprek met het hoofd van de afdeling ‘radiologie’ in AZ Sint-
Maarten werd duidelijk dat er binnen de afdeling radiologie nog geen gebruik wordt gemaakt
van AI voor het opsporen van een pneumonie. Tegelijk gaf men aan dat ondersteuning van
AI bijzonder welkom zou zijn, vooral om eerste screenings sneller te kunnen uitvoeren in
drukke periodes. Deze directe behoefte vormde de basis voor mijn bachelorproef.
De gezondheidszorg staat onder een enorme druk. Dit komt niet enkel en alleen doordat het
aantal patiënten jaarlijks toenemen, maar ook wordt het medische team geconfronteerd met
een groeiende complexiteit van ziektes en behandelingen. Radiologen spelen dan ook een
cruciale rol in het stellen van diagnoses, dit door de medische beeldvorming. Maar het aantal
beeldonderzoeken neemt toe en dit legt een enorme last op hun schouders. Hierdoor
ontstaan er enorme wachttijden, mensen moeten langer wachten op hun onderzoek of
uitslag en is er een groter risico op menselijke fouten. Foute of laattijdige diagnoses kunnen
ernstige gevolgen hebben voor de gezondheid van de patiënten en kan er toe leiden dat dit
extra kosten met zich mee brengt voor het gezondheidssysteem.
Pneumonie, in de volksmond ‘een longontsteking’ is een aandoening die wereldwijd
miljoenen mensen treft en jaarlijks tot heel wat sterfgevallen leidt. Vooral bij risicogroepen
zoals jonge kinderen, oudere personen en mensen met een verzwakt immuunsysteem is het
van belang om de ziekte tijdig en accuraat vast te stellen. Röntgenbeelden van de borstkas
zijn een standaardmethode om een longontsteking vast te stellen. Echter dit vraagt een
gespecialiseerde kennis en ervaring en helaas zijn die niet altijd en overal beschikbaar.
AI biedt namelijk nieuwe mogelijkheden om radiologen te ondersteunen. De werkdruk kan
vermindert worden door AI in te zetten als hulpmiddel bij het analyseren van röntgenbeelden.
Alsook kan de nauwkeurigheid van de diagnoses worden verhoogd en de snelheid van de
medische besluitvorming worden verbeterd. Toch zijn er ook heel wat belangrijke
uitdagingen:
• AI- modellen moeten betrouwbaar en uitlegbaar zijn.
• Privacy van de patiëntengegevens moeten gegarandeerd blijven.
• De juridische kaders moeten strikt nageleefd worden.
Het probleem dat deze bachelorproef behandelt, is dus tweeledig:
1. 2. Enerzijds het ontwikkelen van een AI- model dat effectief een longontsteking
detecteert op röntgenbeelden.
Anderzijds het analyseren van de ethische en technische voorwaarden die nodig zijn
om zo’n systeem succesvol in de praktijk te verwezenlijken.
BACHELORPROEF Punnewaert Kenneth 73 Literatuurstudie
Het is belangrijk om inzicht te krijgen in bestaande technologieën, modellen, klinische
implementatie en de ethische en juridische randvoorwaarden, dit om het probleem rond de
detectie van pneumonie met AI goed te kunnen kaderen.
3.1 Pneumonie- detectie met AI
één van de belangrijkste doodsoorzaken wereldwijd is een pneumonie.Zeker bij jonge
kinderen en oudere mensen (WHO,2022). Daarom is een snelle diagnose dus cruciaal. Maar
omdat de werkdruk in ziekenhuizen zeer hoog is, is de kans daarom groter op een vertraging
of een menselijke fout. AI biedt hierin een oplossing.
Een voorbeeld hiervan is het CheXnet- model van Rajpurkar et al. (2017), dit detecteerde
longziekten met een nauwkeurigheid die we kunnen vergelijken met die van
gespecialiseerde artsen en in sommige toepassingen radiologen zelfs overtreffen in
accuraatheid. Deze studies tonen aan dat AI niet alleen theoretisch veelbelovend is, maar
ook klinisch potentieel biedt.
3.2 Deep learning- architecturen ResNet
Voor het detecteren van longontstekingen op medische beelden is het belangrijk om gebruik
te maken van een krachtig deep learning-model dat in staat is om complexe visuele patronen
te herkennen.
ResNet staat voor Residual Network en is speciaal ontworpen om diepe neurale netwerken
beter te laten trainen. Wanneer netwerken dieper worden, treedt vaak het probleem op dat
gradiënten tijdens het leerproces verdwijnen, waardoor het model moeilijk convergeert.
De ResNet van He et al. (2015) introduceerde ‘shortcut connections’ om het probleem van
verdwijnende gradiënten bij diepe netwerken te vermijden. Diepe netwerken zoals ResNet-
152 zijn erg geschikt voor medische beeldanalyse, dit omdat ze complexe patronen kunnen
berekenen in grote datasets.
3.3 Uitlegbaarheid en explainable AI
Ik heb een gastlezing bijgewoond (AI Ethics- guest lecture Dardan Hoti) waarin het concept
van black boxes en hun nadelen uitgebreid aan bod zijn gekomen. Een belangrijk
aandachtspunt bij deep learning- modellen is dat ze vaak black boxes zijn. Dit betekent dat
het moeilijk te begrijpen is hoe het model tot zijn beslissing komt. Tools zoals Grad- CAM
(Selvaraju et al., 2017) laten zien welke regio’s in een beeld bijdragen aan de beslissing van
het model, dit maakt het uitlegbaar en het vertrouwen vergroot bij clinici (Amann et al., 2020).
BACHELORPROEF Punnewaert Kenneth 83.4 Klinische implementatie en TRL
De uitvoering van AI-modellen in ziekenhuizen wordt vaak beschreven aan de hand van de
Technology Readiness Levels. TRL is een systeem dat gebruikt wordt om de volwassenheid
van een technologie in kaart te brengen, van TRL 1 (puur wetenschappelijk onderzoek) tot
TRL 9 (volledig bewezen en operationeel in een echte omgeving). De eerste niveaus (TRL 1-
3) omvatten fundamenteel onderzoek en proof-of-concept, terwijl TRL 4-6 gericht zijn op het
bouwen en testen van prototypes. De hoogste niveaus (TRL 7-9) vereisen testen in een
realistische of gebruiksklare omgeving en uiteindelijk goedkeuring voor productie (Manning,
2023).
In de context van medische AI bevindt een academisch onderzoeksproject zich meestal in
TRL 1-3. Voor klinische toepassingen (TRL 4-6) zijn uitgebreide validatieprocedures nodig,
en pas in TRL 8-9 kunnen AI-systemen volledig geïntegreerd worden in de klinische praktijk.
Naast de technische readiness zijn er ook juridische kaders waar medische AI-modellen aan
moeten voldoen. De Europese Medical Device Regulation (MDR, EU 2017/745) is de
wetgeving die medische hulpmiddelen – inclusief software en AI-systemen – reguleert binnen
de Europese Unie. AI-systemen die medische diagnoses ondersteunen, worden volgens de
MDR geclassificeerd als medische hulpmiddelen en vallen daardoor onder strikte eisen op
het gebied van veiligheid, klinische prestaties en risicobeheer. Dit omvat onder meer:
• De bepaling van de risicoklasse (bijvoorbeeld klasse IIa of IIb voor diagnostische
software),
• Het uitvoeren van klinische evaluaties en post-market surveillance,
• Het waarborgen van privacy en gegevensbescherming conform GDPR,
• Transparantievereisten zoals documentatie van het algoritme en prestaties
(European Commission, 2021).
Voor AI is er bovendien een speciale focus op uitlegbaarheid en bias-controle, omdat black
box-modellen ethische en juridische risico’s met zich meebrengen (European Commission,
2021).
3.5 Ethische overwegingen
Onderzoeken van Mittelstadt et al. (2016) benadrukken het belang ethische principes bij het
ontwikkelen van AI in de gezondheidszorg:
• Transparantie
• Uitlegbaarheid
• Non- discriminatie en privacy
GDPR (EU 206/679) verplicht dat alle persoonlijke data beschermd worden en dat patiënten
geïnformeerd zijn over hoe hun data worden gebruikt.
BACHELORPROEF Punnewaert Kenneth 94 Onderzoeksvraag
De centrale vraag van dit onderzoek:
Hoe kan artificiële intelligentie bijdragen aan een vroegtijdige diagnose van
longontsteking in de gezondheidszorg, en welke technische, klinische en ethische
uitdagingen komen hierbij kijken?
Om deze hoofdvraag goed te kunnen beantwoorden, werden volgende deelvragen
opgesteld:
4.1 Hoe werkt AI bij het analyseren van medische data voor
ziektevoorspelling?
AI speelt een belangrijke rol bij het bestuderen van medische data voor ziektevoorspelling.
AI- modellen, die vaak gebaseerd zijn op machine learning of deep learning, zijn vaak
getraind om soorten patronen te herkennen in grote hoeveelheden medische data, zoals
medische beelden ( bv. CT, MRI, X-ray)
4.1.1 Voorbeeld:
• Vaak worden convolutionele neutrale netwerken gebruikt bij medische
beelden, die automatische kenmerken mogelijk maken zonder enige
menselijke tussenkomst. Modellen als ResNet, VGG of DenseNet worden
vaak toegepast bij radiologische beelden.
4.1.2 Model
In mijn project heb ik gebruikgemaakt van een bestaand deep learning-model, namelijk
ResNet152, dat ik zelf verder heb getraind op een publiek beschikbare dataset van Kaggle:
de Chest X-ray (Normal vs Pneumonia) dataset. Voor extra validatie heb ik ook getest op de
Pediatric Chest X-ray Pneumonia dataset. Beide bevatten gelabelde röntgenbeelden van de
borstkas.
Het model werd dus niet kant-en-klaar overgenomen, maar aangepast en geoptimaliseerd
voor dit specifieke classificatieprobleem via transfer learning. Deze nuance is belangrijk: het
basismodel bevat reeds vooraf getrainde lagen, maar is in dit project afgestemd op
pneumoniedetectie door nieuwe trainingssessies uit te voeren op deze specifieke datasets.
BACHELORPROEF Punnewaert Kenneth 104.1.3 Belangrijke stappen:
• Data preprocessing
Beelden werden geschaald naar een vaste resolutie (224x224 pixels),
genormaliseerd, geanonimiseerd (waar nodig), en versterkt met data augmentation
(zoals rotatie, flipping en zoom) om overfitting tegen te gaan.
• Feature engineering
De beeldkenmerken werden automatisch gedetecteerd via convolutionele lagen in
ResNet152, waarbij gebruik wordt gemaakt van deep feature extractie zonder
handmatig features toe te voegen.
• Modeltraining
Het model werd getraind door het splitsen van de dataset in trainings, validatie en
testsets om overfitting beter te kunnen monitoren.
• Evaluatie
De prestaties zijn beoordeeld met diverse metrieken, waaronder accuracy, recall,
precision, F1-score, AUC-ROC en analyse van de confusion matrix.
Daarnaast is Grad-CAM toegevoegd in de gebruikersinterface van het prototype, om de
beslissingen van het model visueel toe te lichten. Dit draagt bij aan de uitlegbaarheid en het
vertrouwen bij eindgebruikers zoals radiologen.
4.2 Hoe kan AI bijdragen aan gepersonaliseerde behandelingen?
AI kan bijdragen aan gepersonaliseerde behandelingen door :
• Voorspellingen van individuele risico’s (bv.: kans op een longontsteking bij
COVID- patiënten)
• Aanbevelingen van behandelingsstrategieën gebaseerd op historische
uitkomsten van vergelijkbare patiënten.
• Aanpassen van therapieën op basis van real- time monitoring en feedback
(bv.: AI- gestuurde insulinepompen)
BACHELORPROEF Punnewaert Kenneth 114.2.1 Voorbeelden:
• Oncologie: AI analyseert tumorkarakteristieken om gerichte therapieën te
adviseren.
• Cardiologie: AI voorspelt risico op hartfalen of ritmestoornissen met EPD-
data.
• Radiologie: AI bepaalt de ernst van longinfecties en kan follow-up scans
plannen.
Mijn project legt de focus vooral op vroege detectie van longinfecties om zo snel mogelijk
een behandeling te kunnen starten, met als uiteindelijke doel ziekenhuisopnames te
verminderen en complicaties te voorkomen.
4.3 Wat zijn de technische vereisten en beperkingen van AI-
modellen in de medische sector?
4.3.1 Belangrijke vereisten:
Er zijn specifieke technische vereisten om AI succesvol in te zetten in de medische sector,
namelijk:
• Grote, representatieve datasets
De trainingsdata moeten voldoende divers en gebalanceerd zijn. Hierdoor
leert het model zonder vooroordelen of vertekeningen. Dit helpt om bias te
vermijden en maakt het model bruikbaar voor bredere populaties.
• Hoge kwaliteit van data
Medische beelden moeten van voldoende resolutie en consistentie zijn, met
correcte labels die zijn gevalideerd door experts (zoals radiologen), om
verkeerde voorspellingen te voorkomen. Bij voorkeur van meerdere
radiologen om meer nauwkeurige labels te bekomen.
• Uitlegbaarheid van modellen
Het is cruciaal in een medische sector dat het AI- model geen black box is. Zo
zorgen technieken als Grad-CAM dat dokters begrijpen welke delen van het
beeld het meest bijdroegen aan de voorspelling.
• Robuustheid en generaliseerbaarheid
Het model moet ook goed presteren op beelden van andere ziekenhuizen of
scanners, en niet enkel op de dataset waarop het getraind werd. Daarom is
validatie met externe klinische data essentieel.
BACHELORPROEF Punnewaert Kenneth 124.3.2 Belangrijke beperkingen:
Ondanks het potentieel zijn er ook duidelijke beperkingen bij AI in de medische sector:
• Bias en fairness:
Als een dataset onvoldoende presentabel is (bv. Weinig beelden van bepaalde
patiëntgroepen), kan het model bv. Bevooroordeeld zijn. Dit kan leiden tot een
foute diagnose bij specifieke groepen, dit kan ethisch problematisch zijn.
• Data privacy (GDPR, HIPAA):
AI in de zorg moet voldoen aan strikte privacywetgeving zoals GDPR (in
Europa) en HIPAA (in de VS). Dat betekent dat medische beelden
geanonimiseerd moeten zijn en zorgvuldig moeten worden opgeslagen en
verwerkt.
• Regulatoire goedkeuring:
AI-systemen die diagnose ondersteunen vallen onder de Europese Medical
Device Regulation (MDR). Dit vraagt om duidelijke documentatie,
risicobeoordelingen en vaak ook een CE- markering voor gebruik in de
praktijk.
• Integratie in klinische omgeving:
AI mag geen extra last leggen op het werk van de artsen. Het moet eenvoudig
te begrijpen, snel te gebruiken en betrouwbaar zijn. Dokters moeten op de
voorspellingen kunnen vertrouwen en weten hoe ze tot stand zijn gekomen.
In dit project werd eerst enkel gewerkt met publieke beschikbare datasets. De volgende stap
is validatie op geanonimiseerde ziekenhuisdata van AZ Sint- Maarten. Die stap zal hoge
eisen stellen aan privacy, security en robuustheid. Deze vormt een belangrijke stap op weg
naar klinische implementatie.
4.4 Welke ethische uitdagingen spelen een rol bij het gebruik van
AI?
Het gebruik van artificiële intelligentie in de gezondheidszorg biedt grote voordelen, maar
roept tegelijk fundamentele essentiële vragen op. In dit project werd daarom specifiek
aandacht besteed aan vier kernaspecten:
• Privacy en gegevensbescherming:
Het gebruik van medische data brengt altijd risico’s met zich mee rond
privacy. Binnen dit project wordt strikt rekening gehouden met de GDPR
(General Data Protection Regulation). Alle gebruikte beelden zijn
geanonimiseerd, zodat geen enkele patiënt direct of indirect te identificeren is.
Daarnaast wordt ook aandacht besteed aan veilige opslag, toegangsbeheer
en het beperken van datatoegang tot strikt noodzakelijke personen.
BACHELORPROEF Punnewaert Kenneth 13• Bias en discriminatie:
AI-modellen zijn slechts zo eerlijk als de data waarmee ze getraind worden.
Als een dataset bijvoorbeeld een ondervertegenwoordiging bevat van
bepaalde bevolkingsgroepen of leeftijden, kan dit leiden tot bevooroordeelde
voorspellingen. In de medische context kan dit levensgevaarlijke gevolgen
hebben. Daarom werd bij de datasetselectie bewust gekozen voor
gebalanceerde bronnen en wordt bij externe validatie extra aandacht besteed
aan mogelijke bias ten opzichte van lokale patiëntengroepen.
• Transparantie en uitlegbaarheid:
Een groot risico bij het gebruik van deep learning is dat de beslissingen van
het model moeilijk te begrijpen zijn voor eindgebruikers – de zogenaamde
'black box'-problematiek. In dit project wordt gebruikgemaakt van Grad-CAM-
technieken, die visueel tonen welke regio’s van het röntgenbeeld hebben
bijgedragen aan de voorspelling. Deze visualisaties worden geïntegreerd in
de gebruikersinterface, zodat artsen kunnen nagaan waarop het model zijn
beslissing baseert. Dit verhoogt het vertrouwen en de controle.
• Verantwoordelijkheid en aansprakelijkheid:
Wanneer een AI-systeem een fout maakt, rijst de vraag: wie is
verantwoordelijk? De ontwikkelaar van het algoritme, de arts die het
gebruikte, of het ziekenhuis? Hoewel dit project zich nog in een
onderzoeksfase bevindt, wordt bij het ontwerp rekening gehouden met het feit
dat het model enkel mag dienen als ondersteunend hulpmiddel, niet als
vervanging van medische expertise. Artsen blijven eindverantwoordelijk voor
diagnoses, en het AI-systeem moet als een adviserend instrument worden
gezien binnen de klinische workflow.
4.4.1 In dit project:
• Maak ik alleen gebruik van geanomimiseerde data.
• Test ik de uitlegbaarheid met Grad- CAM visualisaties.
• Wil ik samenwerken met artsen voor feedback en beoordeling.
• Voor toekomstige stappen hou ik rekening met MDR- vereisten.
BACHELORPROEF Punnewaert Kenneth 145 Doelstellingen
Het hoofddoel van deze bachelorproef is het onderzoeken hoe AI ingezet kan worden voor
de automatische opsporing van pneumonie op röntgenbeelden. Er wordt niet enkel een
technisch werkend model ontwikkeld, maar er wordt ook een diepgaande analyse uitgevoerd
van de randvoorwaarden en voor de uitvoering in een klinische context.
5.1 De belangrijkste doelstellingen zijn:
5.1.1 Ontwikkelen van een deep learning- model voor pneumoniedetectie:
Er wordt een convolutioneel neuraal netwerk ontwikkeld en getraind op een publieke dataset
Kaggle Pediatric Chest X-ray Pneumonia Dataset en hierna gaan we het model extra
valideren op de Chest X- Ray Images (Pneumonia) Dataset en in een latere fase op
geanonimiseerde ziekenhuisdata van AZ Sint- Maarten. De prestaties van het model worden
beoordeeld aan de hand van metrics zoals accuracy, precision, recall, F1- score en de
analyse van de confusion matrix.
5.1.2 Technische haalbaarheid:
Het model wordt getest en goedgekeurd op externe datasets om zo te kunnen beoordelen of
het generaliseerbaar is buiten de trainingsdata. Er wordt nagegaan welke technische
beperkingen er zijn (bv.: bij het pre-processen van beelden, het omgaan met unbalanced
datasets, en het fine- tunen van hyperparameters) en hoe het model zich verhoudt ten
opzichte van benchmarks in de literatuur.
5.1.3 Ontwikkelen van een gebruiksvriendelijke interface:
Een prototype van een gebruiksvriendelijke webapplicatie wordt gebouwd met Streamlit,
hierin kunnen artsen dan röntgenbeelden uploaden en bestuderen. De applicatie voorziet
visuele hulpmiddelen zoals Grad- CAM heatmaps voor uitlegbaarheid, het biedt
functionaliteiten zoals het vervoegen van annotaties en het genereren van een rapport met
resultaten.
5.1.4 Ethische en juridische analyse:
Er wordt onderzocht welke ethische principes en juridische kaders (zoals GDPR en MDR)
van toepassing zijn bij de uitvoering van AI in de medische beeldvorming. Er wordt gekeken
welke risico’s er zijn rondom privacy en veiligheid, en hoe het AI- systeem controleerbaar en
uitlegbaar gemaakt kan worden voor de eindgebruikers.
BACHELORPROEF Punnewaert Kenneth 155.1.5 Positionering binnen TRL- en MDR-kaders:
Het project wordt ingedeeld binnen de Technology Readiness Levels (TRL) en Medical
Device Regulation (MDR) – richtlijnen. Er wordt gekeken welke stappen er nodig zijn om het
prototype op te schalen naar klinische testfase (TRL 4 en verder) en uiteindelijk richting CE-
markering en marktintroductie te werken.
5.1.6 Feedback van de eindgebruikers:
Er wordt uitdrukkelijk gekeken naar de rol van de eindgebruiker, in dit geval zijn dit de
radiologen en de artsen. Hun inbreng wordt meegenomen in het opstellen van de interface,
en er wordt in een latere fase feedback verzameld over de bruikbaarheid en het belang van
het systeem. Hierdoor is het eindproduct niet enkel technisch uitgewerkt, maar sluit ook
effectief aan op de noden van het werkveld.
Door het waarmaken van deze doelstellingen wil ik met deze bachelorproef bijdragen aan
het verlagen van de werkdruk van de radiologen/artsen, het verhogen van de snelheid en
betrouwbaarheid van diagnoses en het stimuleren van de integratie van AI in de klinische
praktijk, binnen een ethisch verantwoord kader.
BACHELORPROEF Punnewaert Kenneth 166 Methodologie
De Methodologie wordt zorgvuldig opgebouwd in mijn bachelorproef om zowel technische
ontwikkeling als de praktische toepasbaarheid van het AI- model te waarborgen. Dit proces
bestaat uit meerder fasen, namelijk:
6.1 Datasetselectie en- verwerking
6.1.1 Publieke datasets
Er werd gebruikt gemaakt van bestaande publieke datasets in de eerste fase nl.:
• Kaggle Pediatric Chest X-ray Pneumonia Dataset (Kermany et al., 2018),
die meer dan 5000 röntgenbeelden bevat van kinderen met en zonder
pneumonie.
• Chest X- Ray Images (Pneumonia) Dataset, die röntgenbeelden bevat met
annotaties door radiologen.
Deze datasets worden eerst grondig nagekeken op datakwaliteit en gebalanceerdheid. De
beelden worden genormaliseerd en geschaald naar een uniforme resolutie (224 x 224
pixels), en er worden augmentatietechnieken (zoals rotatie, zoom en horizontale flips)
toegepast om over filtering tegen te gaan en de robuustheid van het model te verbeteren.
6.1.2 Klinische data
Er worden in een latere fase van het project geanomiseerde röntgenbeelden verkregen, dit
vanuit AZ Sint Maarten. Dit wordt gebruikt als voorbereiding voor validatie van het model in
een realistische klinische omgeving (TRL 4)
BACHELORPROEF Punnewaert Kenneth 176.2 Modelontwikkeling
Het AI- model is gebaseerd op een Convolutional Neural Network, specifieker de
ResNet152- architectuur (He et al, 2016), deze staat bekend om zijn diepte en uitstekende
prestaties bij beeldherkenning. Met behulp van PyTorch wordt dit model ontwikkeld en
getraind.
6.2.1 Belangrijke parameters:
• Learning rate
• Optimizer
• Loss function
• Batch size
• Epochs
6.2.2 De prestaties van het model worden beoordeeld op basis van:
• Accuracy
• Precision, recall en F1-score
• ROC-AUC
• Confusion matrix
6.3 Interfaceontwikkeling
Er wordt een prototype van webapplicatie ontwikkeld met behulp van Streamlit, dit om het
model bruikbaar te maken voor de artsen. De interface bevat volgende functionaliteit:
• Uploadmogelijkheid voor röntgenbeelden
• Weergave van voorspelde diagnose
• Grad-CAM heatmaps die visueel tonen welke delen van het beeld belangrijk
waren voor de voorspelling
• Annotatietool waarmee artsen opmerkingen kunnen toevoegen
• Rapportgenerator die resultaten samenvat in een PDF-bestand
BACHELORPROEF Punnewaert Kenneth 186.4 Ethisch
Op basis van onderstaande punten wordt er een ethische analyse uitgevoerd:
• GDPR: Alle patiëntdata worden volledig geanonimiseerd. Er wordt een
procedure opgesteld voor dataveiligheid en toegangsbeheer.
• MDR (EU 2017/745): Het systeem vormt een medisch hulpmiddel dat de
diagnose ondersteunt en daarom wordt er een risicoklasse bepaald volgens
de richtlijnen van de MDR.
• Transparantie en uitlegbaarheid: Het is noodzakelijk dat alle artsen
begrijpen hoe het systeem tot zijn beslissing komt. Daarom worden
explainable AI-technieken (zoals Grad-CAM) toegepast en wordt er duidelijke
documentatie voorzien.
6.5 Positie binnen TRL en MDR
Op basis van de huidige status van het project bevindt het model zich volgens TRL-definities
van NASA zich in Technology Readiness Level 3 exitfase. Er werd een werkend prototype
ontwikkeld dat succesvol werd getest op zowel publieke data en offline ziekenhuisdata en
gedocumenteerd (zie hoofdstukken 7, 8, 9). Verschillende functies van het model zijn
gevalideerd, zoals performance op de pediatrische beelden, bias en explainability. Voor de
volgende stap TRL 4 zouden we het model moeten integreren in een relevante klinische
omgeving zoals de servers van het ziekenhuis. Waarbij we dan het model offline gaan
gebruiken en testen met de infrastructuur van het ziekenhuis. Door het offline testen van het
model met data van het ziekenhuis en het documenteren van de prestaties hebben we wel
reeds de eerste stappen gezet richting de exitfase van TRL 4.
Wat betreft de Medical Device Regulation (MDR, EU 2017/745) valt dit model onder de
categorie “software die medische diagnose ondersteunt” en is het potentieel een klasse IIa-
medisch hulpmiddel, afhankelijk of het model ondersteundend of beslissend werkt. In dit
stadium wordt het model nog niet ingezet in de klinische omgeving, en is certificering niet
vereist. Wel wordt er reeds rekening gehouden met:
• Gegevensbescherming (GDPR)
• Uitlegbaarheid (via Grad-CAM)
• Voorbereiding op risicoklasse-analyse
• Documentatie van prestaties en feedback.
Het doel is om bij verdere ontwikkeling stappen te zetten in het opstellen van een MDR-
conforme technische documentatie en risicoanalyse.
BACHELORPROEF Punnewaert Kenneth 196.6 Validatie en feedback
Desondanks het niet mogelijk is binnen het tijdspanne van deze bachelorproef een volledige
klinische validatie uit te voeren, wordt er wel een simulatie opgezet:
• De artsen van AZ Sint Maarten krijgen toegang tot het prototype om te testen
met demodata.
• Via interviews wordt er feedback over gebruiksvriendelijkheid en relevantie
verzameld.
• Deze feedback wordt dan aangetoond en vormt de basis voor toekomstige
optimalisaties.
BACHELORPROEF Punnewaert Kenneth 207 Resultaten
7.1 Datavoorbereiding en analyse
De data werd opgesplitst volgens de standaardstructuur van de Kaggle "Chest X-Ray
Pneumonia" dataset, die drie mappen voorziet: train, val en test. Deze splitsing is behouden,
de verdeling per klasse is als volgt:
• Train: 1082 normaal / 3110 opacity (Pneumonie)
• Validatie: 226 normaal / 605 opacity (Pneumonie)
• Test: 234 normaal / 390 opacity (Pneumonie)
Het analyseren van de datasets was mijn eerste stap. Ik controleerde de class balance
binnen de train-, validatie- en testset. Ik keek ook hoeveel beelden er waren met label
‘normal’ en ‘opacity’ (longontsteking). Hoewel de verdeling redelijk gebalanceerd was, was er
wel een lichte meerderheid van pneumoniebeelden.
Om te vermijden dat het model hierdoor een bias zou ontwikkelen, heb ik class weights
berekend met compute_class_weight uit scikit-learn. Deze gewichten heb ik meegegeven
aan de verliesfunctie zodat fouten op minder vertegenwoordigde klassen zwaarder
doorwegen in de training. Dit verhoogt de betrouwbaarheid van de classificatie.
Figuur 1 Train, val en test distribution
BACHELORPROEF Punnewaert Kenneth 217.2 Data-augmentatie
Ik heb data-augmentatie toegepast op trainingsets, dit om het model robuuster te maken en
overfitting tegen te gaan. Hierdoor leert ook het model hoe om te gaan met variaties in
beeldrotatie, helderheid, kleur en oriëntatie. Om het concreet te maken heb ik gebruikt
gemaakt van:
• Rotatie tot 15°
• Horizontale spiegeling
• Licht- en kleurveranderingen
• Center crop en resizing
Een batch met data-augmentatie bevat dus gevarieerde versies van dezelfde beelden. Er
wordt geen extra data gegenereerd op het originele aantal, maar bij elke epoch worden
nieuwe varianten van de bestaande 4192 trainingsbeelden gebruikt, wat overfitting tegengaat
zodat het model niet dezelfde beelden van buiten kan leren.
Hieronder een voorbeeld van augmentatie die is uitgevoerd op een aantal afbeeldingen:
Deze augmentaties zijn enkel toegepast tijdens training, validatie en test zijn origineel
gebleven, om een eerlijke evaluatie te garanderen.
Figuur 2
7.3 Modeltraining en optimalisatie
Ik heb gebruik gemaakt van een pretrained ResNet152-model voor de training, dat ik
gefinetuned heb voor binaire classificatie (NORMAL vs PNEUMONIA). De laatste laag werd
vervangen door een nieuwe outputlaag met 2 neuronen. Dit model liet ik trainen op mijn
aangepaste trainingsset met augmentatie.
Om overfitting te vermijden maakte ik gebruik van early stopping gebaseerd op validatiefout.
De optimizer was SGD, en ik paste learning rate scheduling toe. De validatieset werd tijdens
de training gebruikt om te bepalen wanneer het model niet verder verbeterde of aan het
overfitten is. Met overfitten bedoelen we dat het model de trainingsdata vanbuiten is aan het
leren en op ongeziene data dan slecht voorspelt.
Hierbij hield ik nauwkeurig de accuratesse en loss bij, op zowel training- als validatieset.
BACHELORPROEF Punnewaert Kenneth 22In dit project werd geen cross-validatie gebruikt. De reden hiervoor is dat de originele
Kaggle-dataset is opgesplitst in een trainingset, validatieset en een testset, hierdoor kunnen
we tijdens de training overfitting monitoren zoals hierboven vermeld. Daarnaast werd het
model ook gevalideerd op een andere dataset (Kaggle Pediatric Pneumonia) als
onafhankelijke validatie.
7.4 Prestaties op publieke datasets
Om een goed beeld te krijgen van de prestaties in een gecontroleerde omgeving werd het
model geëvalueerd op de Chest X- Ray Images (Pneumonia) Test Dataset en extra
gevalideerd op de Kaggle Pediatric Chest X-ray Pneumonia Train Dataset.
Deze tests geven een eerste beeld van de nauwkeurigheid en fouten die het model maakt op
ongeziene data.
De Resultaten zijn als volgt:
Chest X-Ray Images Images (Pneumonia) Dataset
Threshold Accuracy F1-score Confusion Matrix
0.90 92.5% 0.92 [[191, 43], [4, 386]]
0.97 93.7% 0.93 [[200, 34], [5, 385]]
Tabel 1. Threshold 0.97 gaf de beste balans tussen sensitiviteit en precisie
BACHELORPROEF Punnewaert Kenneth 23De confusion matrix laat zien dat we bij en threshold van 0.97, slechts 5 niet als pneumonie
voorspeld zijn en 34 foutief als pneumonie voorspeld zijn.
Figuur 3 Confusion matrix
Er werd geëvalueerd op zowel training set als de test set van de Chest X- Ray Images
(pneumonia). Dit om te controleren of het model overfit is op trainingsdata.
• Training accuracy: 98.52%, F1: 0.9853
• Test accuracy: 93.75%, F1: 0.9367
De kleine daling in accuraatheid en F1-score op de testset wijst op een beperkte mate van
overfitting, wat normaal is bij complexe modellen. De generalisatie wordt als aanvaardbaar
beschouwd, mede dankzij gebruik van data augmentatie en regularisatie .
Figuur 4 Confusion matrix & score
BACHELORPROEF Punnewaert Kenneth 24Pediatric Chest X-ray Pneumonia Dataset
Bij deze dataset gebruikten we enkel de train folder. Deze werd gebruikt als extra testset
voor ons model, dus niet voor training. Hierdoor kunnen we nagaan of het model
generaliseert op data uit een andere bron van Kaggle.
Threshold Accuracy F1-score Confusion Matrix
0.97 97.2% 0.98 [[1347, 2], [144, 3739]]
Tabel 2. Threshold 0.97 gaf de beste balans tussen sensitiviteit en precisie
De confusion matrix laat zien dat we bij en threshold van 0.97, 144 niet als pneumonie
voorspeld zijn en slechts 2 foutief als pneumonie voorspeld zijn. Hier kunnen we al zien dat
het model bij kinderen pneumonie minder goed kan voorspellen dan de normaal classificatie.
Figuur 5 Confusion matrix Pediatric
Conclusie:
De resultaten met een threshold van 0.97 op beide datasets tonen dat het model sterke
prestaties heeft. Dit betekent dat het model weinig fouten maakt op de publieke datasets van
Kaggle. Het model zou kunnen gebruikt worden in een klinische omgeving mits we dit eerst
valideren met ziekenhuisdata.
BACHELORPROEF Punnewaert Kenneth 257.5 ROC- en PR-curve
Om de prestaties van het model beter te begrijpen heb ik ook een ROC- en PR-curve
gevisualiseerd.
De ROC-curve geeft weer hoe goed het model onderscheid maakt tussen de twee klassen
bij verschillende thresholds. Hoe verder de curve in de linkerbovenhoek ligt hoe beter. De
AUC-score (Area Under the Curve) bedraagt 0.97, wat wijst op een hoge
classificatievermogen. Een AUC-score van 1 is perfect en een score van 0.5 (oranje
middenlijn) betekent dat het model niet beter voorspelt dan een willekeurige voorspelling.
Figuur 6 ROC curve
BACHELORPROEF Punnewaert Kenneth 26De PR-curve is vooral interessant in situaties met ongebalanceerde data, zoals medische
diagnose. Hier toont het model een score van 0.98, wat betekent dat het consistent
nauwkeurige voorspellingen maakt. Hoe verder de curve in de rechterbovenhoek ligt hoe
beter. In deze curve gaan we de precisie en recall plotten met verschillende thresholds.
Figuur 7 Precision- Recall Curve
BACHELORPROEF Punnewaert Kenneth 277.6 Gebouwde interface
Ik heb een gebruiksvriendelijke webinterface gebouwd met Streamlit, dit om mijn model
bruikbaar te maken voor niet- technische gebruikers. Hierin kan een gebruiker een
röntgenbeeld uploaden, waarna het model:
1. 2. 3. Een classificatie uitvoert (NORMAL of PNEUMONIA),
Een Grad-CAM heatmap toont ter interpretatie,
De resultaten samenvat in een overzicht.
Ik heb deze interface volledig zelf ontworpen en getest. Alles draait lokaal, zodat er geen
gevoelige gegevens verzonden hoeven te worden. In een vervolgversie kan dit ook
gekoppeld worden aan een PACS of ziekenhuisinformatiesysteem (ZIS).
Figuur 8 Screenshot van de interface met predictie en Grad-CAM
BACHELORPROEF Punnewaert Kenneth 287.7 Visuele uitleg
De Grad- CAM heatmaps tonen de gebieden van het röntgenbeeld die het meest bijdragen
aan de voorspelling van een longontsteking. Dit helpt ervoor om het black box aspect van
deep learning een stukje te doorbreken en het geeft de artsen een inzicht in de werking van
het model.
Figuur 9 Voorbeeld Grad-CAM
7.8 Status externe validatie
Er werd wel reeds contact gelegd met AZ Sint Maarten om in een toekomstige fase
geanomimiseerde röntgenbeelden te verkrijgen voor verdere bevestiging. Om het model te
testen in een realistische klinische omgeving is deze stap essentieel. Ook om mogelijke
biases of overfitting op publieke datasets te identificeren.
7.9 Simulatie van mogelijke impact
Hier voorspellen de prestaties op de publieke datasets dat het systeem tijdbesparend kan
werken door automatische beelden te scannen en een eerste indicatie van een
longonsteking te geven. Dit zou de werkdruk van de radiologen en artsen kunnen verlichten,
voor tijdens opstoten van periodes van luchtweginfecties.
BACHELORPROEF Punnewaert Kenneth 297.10 Knelpunten en observaties
• Op dit moment zijn de resultaten gebaseerd op goed gelabelde, publieke
datasets. Dit kan leiden tot optimistische prestaties die in een klinische setting
mogelijk lager zullen zijn.
• Het systeem is gemaakt om een ondersteunende rol te spelen en mag niet zelf
beslissingen nemen zonder een supervisie door een arts.
BACHELORPROEF Punnewaert Kenneth 308 Externe validatie met ziekenhuisdata
8.1 Inleiding
Er werd in samenwerking met AZ Sint- Maarten een set röntgenbeelden verzameld afkomstig
uit de klinische omgeving. Dit om de generaliseerbaarheid van het ontwikkelde AI- model te
testen buiten de publieke datasets van Kaggle. Dit vormt een cruciale stap in het project naar
werkelijke implementatie: een model dat goed werkt op Kaggle- datasets is niet per definitie
bruikbaar in een ziekenhuisomgeving.
8.2 Datasetbeschrijving
Voor de externe validatie werd door het AZ Sint-Maarten een klinische dataset aangeleverd,
dit bestaande uit röntgenbeelden van pediatrische patiënten. Deze beelden werden
rechtstreeks verstuurd met, een met wachtwoord beveiligde We- transfer link.
8.2.1 Structuur en verdeling
De dataset is georganiseerd in 3 afzonderlijke mappen:
• Positief (20 patiënten): kinderen met radiologisch bevestigde pneumonie.
• Negatief (20 patiënten): kinderen zonder radiologische aanwijzingen voor
pneumonie.
• Suspect (10 patiënten): beelden waarbij het verslag melding maakt van een
vermoeden van of beginnende pneumonie, maar zonder definitieve
bevestiging.
Deze indeling is van belang, aangezien de ‘suspecte’ groep zeer vaak voorkomt in
de praktijk en AI-systemen hier extra gevoelig op kunnen reageren. De beelden in
deze map zijn niet meegenomen in de evaluatie (zoals accuracy of F1-score), maar
deze kunnen wel nuttig zijn voor visuele analyse of toekomstige leerstrategieën.
8.2.2 Kenmerken van de beelden
• Populatie: uitsluitend pediatrische patienten .
• Beeldtypes: zowel vooraanzichten als zijaanzichten zijn opgenomen.
• Formaat: DICOM-beelden werden geconverteerd naar PNG.
BACHELORPROEF Punnewaert Kenneth 31Deze beelden waren opgeslagen in deelmappen, gescheiden per label. Hieronder
vindt je de bijzonderheden die werden vastgesteld:
• Zowel vooraanzichten als zijaanzichten kwamen voor.
• De beelden varieerden sterk qua belichting, contrast en scherpte.
• De beelden waren afkomstig van kinderen, terwijl het oorspronkelijke model
getraind was op volwassen populaties.
8.3 Eerste test: Originele model toepassen op ziekenhuisdata
Als eerste stap werd het getrainde ResNet152- model (getraind op volwassen Chest X-ray
Pneumonia dataset) rechtstreeks toegepast op deze ziekenhuisbeelden. In de dataset
hebben we dan meteen de zijaanzichten verwijderd. Dit omdat ons model enkel getraind is
op vooraanzichten. Er bleven hierdoor 46 beelden over in onze data.
Resultaten:
• Het model had een hoge recall op de negatieve klasse, dit betekent dat het goed in
staat was om afwezigheid van een longontsteking op te sporen.
• De positieve klasse (pneumonie) werd echter zeer slecht gedetecteerd met een recall
van slechts 0.16. Van de 19 positieve gevallen werden er maar 3 correct herkend.
• De AUC-score van 0.67 toont aan dat het model matig scoort in het onderscheiden
van klassen.
Figuur 10 Confusion Matrix & score Figuur 11 ROC curve
BACHELORPROEF Punnewaert Kenneth 328.4 Mogelijke oorzaken
8.4.1 Domain shift
• De ziekenhuisbeelden wijken zeer sterk af van de trainingsdata qua contrast,
belichting en ruisniveau. Een slechte belichting kan leiden tot verkeerd ingeschatte
voorspellingen in het classificatieproces.
• De trainingsdata bestond enkel uit beelden van volwassenen, terwijl de
ziekenhuisdata pediatrische beelden bevatte.
8.4.2 Te kleine testset
• De testset bevatte slechts 19 positieve gevallen, waardoor zelf een paar fouten leiden
tot sterke daling in F1-score. Toch toont dit aan dat het model niet robuust genoeg is
voor klinisch gebruik zonder aanpassingen.
Figuur 4 Voorbeeld van trainingsdata Figuur 13 Voorbeeld van ziekenhuisdata
BACHELORPROEF Punnewaert Kenneth 338.5 Hertraining met pediatrische data
Nadat de prestatie tegenviel van het oorspronkelijke model op de ziekenhuisdata, werd er
besloten om het model opnieuw te trainen met de Kaggle Pediatric Chest X- ray Pneumonia
dataset (Kermany et al., 2018). Deze dataset bevat enkel röntgenbeelden en werd gebruikt
om de generaliseerbaarheid van het model naar ziekenhuisdata te verbeteren.
Aanpak:
• We hebben de code van het oorspronkelijke model gebruikt.
• De dataset vervangen door de pediatrische dataset.
• Zelfde netwerkarchitectuur en augmentatie toegepast.
• Het model is getraind met aangepaste class weights.
Trainingsresultaten
• Training accuracy: 98.57%, F1: 0.9858
• Test accuracy: 90.06%, F1: 0.8972
De versie die we opnieuw trainde van het model toont een duidelijke verbetering aan in
vergelijking met de eerdere resultaten. Vooral de pneumonie gevallen zijn sterk verbetert.,
met slechts 3 false negatives. De verhoogde false positives (59 foutief als pneumonie
voorspelde normale beelden) is een gekende trade-off, maar dit kan in een klinische
omgeving aanvaardbaar zijn, gezien het risico van gemiste diagnoses groter is dan
overdetectie. Het verschil in prestaties tussen training en testset is beperkt, dit wijst op een
model dat goed generaliseert en slechts licht overfit is.
Figuur 14 Confusion Matrix op traingset en testset na hertraining
BACHELORPROEF Punnewaert Kenneth 348.6 Aanpassing helderheid en contrast
Bij verdere controle van de dataset van AZ Sint-Maarten viel het op dat de kleurtoon van de
ziekenhuisbeelden licht waren ten opzichte van de Kaggle trainingsdata zoals we kunnen
zien in het voorbeeld hierboven (zie 8.4.2). Deze verschillen in beeldkwaliteit kunnen leiden
tot domain shift, wat de prestaties van het model nadelig beïnvloedt. Daarom werd de
brightness en contrast van de data aangepast zodat deze visueel gelijk waren aan de
trainingsdata.
Deze stap was belangrijk om de beelden van de ziekenhuisdata beter te kunnen afstemmen
met de distributie van de trainingsdata, wat leidde tot verbeterde en betrouwbaardere
resultaten tijdens de voorspellingen.
Brightness en contrast werden afgewisseld tussen 0.6 en 1.4 op de data van het ziekenhuis.
8.7 Cropping: longregio isoleren
Er viel een extra probleem op, namelijk dat een groot deel van de ziekenhuisbeelden geen
relevante regio’s bevatte, zoals delen van de schedel en andere organen.
In de trainingsdata viel op dat alle foto’s bijgesneden werden tot enkel de longen grotendeels
overbleven, dit kan ook een oorzaak zijn van de misvoorspellingen van het model. Een
model kan gemakkelijk beïnvloed worden door overbodige gebieden op een scan.
Daarom werd cropping uitgevoerd op de data van het ziekenhuis, waardoor er enkel het
longgebied overbleef voor de voorspellingen van het model.
Hieronder vind je enkele voorbeelden van van ziekenhuisdata en trainingsdata:
Figuur 15 Voorbeelden van ziekenhuisdata
BACHELORPROEF Punnewaert Kenneth 35Figuur 16 Voorbeelden van trainingsdata
8.8 Tweede evaluatie met verbeteringen
Na de hertraining op pediatrische data van Kaggle, toepassing van cropping, en
helderbaarheidsaanpassing werden de beelden opnieuw door het model gehaald. Nu is de
data gelijkwaardig aan de trainingsdata van het model.
De resultaten waren duidelijk merkbaar beter :
Oorspronkelijk Model Nieuw Model
Accuracy 0.61 0.78
F1-score (macro) 0.49 0.78
Negatief [25-2] [17-10]
Positief [16-3] [0-19]
BACHELORPROEF Punnewaert Kenneth 36Resultaten van het nieuwe model:
Figuur 5 Confusion Matrix & score Figuur 18 ROC curve
De nieuwe confusion matrix toont aan dat het model alle echte positieve gevallen
(pneumonie) correct detecteert en enkel bij normale beelden nog 10 foutieve classificaties
maakt. Dat betekent een 100% recall voor pneumonie, dit is cruciaal in een medische
omgeving. De F1-score steeg van 0.49 naar 0.78, dit is een aanzienlijke verbetering.
Daarnaast laat de ROC- curve een AUC van 0.86 zien, dit wijst op een sterke
onderscheidingskracht tussen gezonde en zieke beelden. Dit is een duidelijke indicatie dat
de combinatie van de juiste trainingsdata en preprocessing cruciaal is voor een model dat
klinisch bruikbaar moet zijn.
8.9 Reflectie
Door deze externe test leert dit ons belangrijke lessen over AI in de praktijk:
• Preprocessing is cruciaal bij toepassing op reële klinische beelden.
• Trainingsdata moet representatief zijn voor de doelgroep en context.
• Zijaanzicht beelden kunnen het model verwarren als ze nooit gezien zijn tijdens
training.
• Een model trainen op alleen publieke data zonder externe controle is onvoldoende
voor de uitvoer in de zorg.
8.10 Conclusie
De ziekenhuisdata toonde aan dat zelfs een nauwkeurig model op publieke datasets, het
moeilijk kan hebben in realistische settings. Door gerichte aanpassingen (zoals retraining,
cropping en belichtingscorrectie) kon de prestatie verbeterd worden. Deze externe evaluatie
bevestigt het belang van domain shift te behandelen en dit vormt een noodzakelijke stap in
de overgang naar een klinische inzetbaar hulpmiddel.
BACHELORPROEF Punnewaert Kenneth 379 Discussie
9.1 Belang van het probleem
Wereldwijd is een longonsteking een belangrijke doodsoorzaak, vooral bij jonge kinderen,
oudere mensen en mensen met een laag immuunsysteem (WHO, 2022). Radiologen in een
klinische setting zoals in het AZ Sint Maarten worden dagelijks geconfronteerd met een grote
hoeveelheid van medische beelden. De hoge werkdruk maakt het uitdagend om elk
röntgenbeeld met dezelfde mate van aandacht te interpreteren en te evalueren. AI kan hier
een bijdrage in leveren door verdachte beelden vooraf te markeren, hierdoor kunnen artsen
sneller prioriteiten stellen.
9.2 De rol van de eindgebruiker
Het model werd ontworpen met de radioloog als primaire eindgebruiker. Via een
gebruiksvriendelijke interface Streamlit- app kunnen de dokters beelden uploaden, heatmaps
bekijken en automatische analyses uitvoeren. Het werd duidelijk tijdens een overleg met het
hoofd van de afdeling radiologie dat er nood is aan eenvoudige, snelle interpreteerbare
hulpmiddelen die geen extra werkdruk leggen op het werk van de arts. Om deze reden werd
er veel aandacht besteed aan visualisatie (Grad- CAM) en downloadbare rapporten.
9.3 Gebruiksvriendelijkheid en dummy-proof ontwerp
Een belangrijk punt waar veel aandacht aan moest worden geschonken was dat de interface
zo ontworpen moest worden dat zelfs artsen zonder technische achtergrond deze vlot
konden gebruiken. Daarom werden de volgende functies ingebouwd:
• Automatische bestandsdetectie bij uploaden.
• Eenvoudige knoppen om analyses te starten.
• Visuele feedback (heatmaps) met korte uitleg.
• Downloadbare rapporten in PDF-formaat voor dossierbeheer.
Deze keuzes werden geïnspireerd door de aanbevelingen tijdens het gastcollege ‘Al Ethics-
Dardan Hot’, hierin werd ook benadrukt dat AI-systemen toegankelijk en begrijpelijk moeten
zijn voor eindgebruikers om ethisch verantwoord te zijn.
BACHELORPROEF Punnewaert Kenneth 389.4 Kritische reflectie over de data
Het is belangrijk om kritisch te blijven ook al zijn de prestaties op publieke datasets
indrukwekkend. Publieke datasets zijn vaak goed gestructureerd en bevatten weinig ruis. In
werkelijkheid is het mogelijk dat ziekenhuisbeelden van mindere kwaliteit zijn, verschillende
opnametechnieken vertonen of metadata missen.
Na de evaluatie met ziekenhuisdata bleek dat er enorme verschillen waren met de publieke
trainingsdata van Kaggle. Zoals de verschillen in helderheid, zijaanzichten in plaats van
enkel vooraanzichten, en beelden van kinderen terwijl het model getraind was op
volwassenen. Deze domain shift had invloed op de prestaties van het model, en werd
aangepakt door hertraining met pediatrische data, cropping, en helderheidsaanpassing.
9.5 Waarde van het werk
Het project toont aan dat een AI-model voor pneumoniedetectie technisch haalbaar is. De
tools die ontwikkeld zijn voor het project, bieden een basis die kan dienen als proof of
concept voor verdere klinische validatie en eventuele certificatie onder de Medical Device
Regulation (MDR). We hebben het model getest en aangepast met de ziekenhuisdata van
Sint-Maarten voor validatie van het model. Dit vormde een waardevol leertraject over
modelontwikkeling met oog op integratie naar een klinische omgeving. Het werk legt hiermee
de technische maar ook etische en klinische fundamenten uit voor verdere samenwerkingen
met zorginstellingen en eventuele certificatie als medisch hulpmiddel.
BACHELORPROEF Punnewaert Kenneth 3910 Conclusie & Toekomstwerk
10.1 Conclusie
In deze bachelorproef werd onderzocht hoe artificiële intelligentie kan bijdragen aan de
vroegtijdige diagnose van pneumonie op röntgenbeelden. Het model, gebaseerd op een
ResNet152-architectuur, toont sterke prestaties op publieke datasets zoals de Chest X- Ray
Images (Pneumonia) Dataset en de Kaggle Pediatric Chest X-ray Dataset, met
nauwkeurigheidspercentages tot boven 97%.
De onderzoeksvraag –
“Hoe kan artificiële intelligentie bijdragen aan vroegtijdige
ziektediagnose in de gezondheidszorg en welke technische en ethische uitdagingen komen
hierbij kijken?” – werd beantwoord door niet alleen het model te ontwikkelen, maar ook door
diep in te gaan op de ethische vereisten, de regelgeving (MDR), en het belang van
uitlegbaarheid. De gastlezing van Dardan Hoti over black boxes onderstreepte het belang
van transparantie en vertrouwen in medische AI.
Hoewel het model reeds goed presteert in een testomgeving, is het cruciaal om erop te
wijzen dat validatie met echte ziekenhuisbeelden van belang is. Dankzij het testen met
beelden van het AZ Sint-Maarten kwamen enkele tekortkomingen van het oorspronkelijke
model naar boven. Door over te schakelen naar een pediatrisch getraind model en extra
preprocessing (zoals cropping en helderheidsaanpassing) konden de prestaties aanzienlijk
verbeteren. Toch blijft volledige integratie in een klinische omgeving nog uit, en is verdere
validatie nodig in samenwerking met artsen in een realistische omgeving.
Tot slot wil ik meegeven dat ik het jammer vind hoe moeilijk het is om een AI-model binnen
de gezondheidszorg te ontwikkelen. Door de strenge wetgeving en de lange overgang van
medische goedkeuringstrajecten duurt het vaak jaren voor een AI-systeem effectief kan
worden ingezet. Daarnaast ondervind ik dat veel mensen binnen de zorgsector
terughoudend zijn om actief mee te werken aan zulke projecten, ondanks het feit dat we
hiermee proberen om mens en maatschappij te helpen en de gezondheidszorg te
verbeteren.
BACHELORPROEF Punnewaert Kenneth 4010.2 Toekomstwerk
Om het project verder te brengen richting klinische praktijk, worden volgende stappen
aanbevolen:
10.2.1 Gebruikersonderzoek en feedbacksessies:
• Radiologen en andere medische professionals dienen bevraagd te worden
over de gebruiksvriendelijkheid van de applicatie en de kwaliteit van de
gegenereerde uitleg. Deze feedback moet verwerkt worden in verdere
iteraties.
10.2.2 Uitbreiding naar andere toepassingen:
• Zoals eerder besproken met AZ Sint-Maarten bestaat er interesse om het
model in de toekomst uit te breiden naar andere detectiegebieden, zoals
tumoren of andere luchtwegaandoeningen.
10.2.3 MDR-certificatie en risicoklasse-analyse:
• De eerste stappen naar certificatie moeten gezet worden, inclusief
risicobeoordeling en het opstellen van de verplichte documentatie voor
medische hulpmiddelen binnen Europa.
10.2.4 Data-ethiek en privacy:
• Bij elke nieuwe stap moet blijvende aandacht gaan naar GDPR-vereisten en
ethische richtlijnen, bijvoorbeeld via een ethisch comité dat de voortgang
monitort.
10.3 Lessen uit de bachelorproef
Wat ik geleerd heb tijdens deze bachelorproef is dat technische haalbaarheid maar 1 aspect
is van een succesvolle AI- oplossing in de zorgsector. Wat even belangrijk is, zijn de
ethische en juridische context, het betrekken van eindgebruikers en het maken van duidelijke
keuzes op vlak van uitlegbaarheid en gebruiksvriendelijkheid. Een AI- model kan pas een
echte impact maken als het toegevoegd wordt in een werkbare en veilige klinische werkflow.
Tot slot besefte ik dat een samenwerking met zorgprofessionals en iteratieve aanpassingen
belangrijk zijn om AI bruikbaar en verantwoord te maken in een klinische omgeving. Deze
ervaring gaf mij inzicht in de complexiteit van medische AI – zowel technisch als
maatschappelijk.
BACHELORPROEF Punnewaert Kenneth 4111 Bronnenlijst
• NASA. (2012). Technology Readiness Level (TRL) Definitions. NASA.
https://www.nasa.gov/directorates/heo/scan/engineering/technology/techn…
ness_level
• European Commission. (2021). Medical devices: Regulation (EU) 2017/745.
https://eur-lex.europa.eu/legal-content/NL/TXT/?uri=CELEX%3A32017R0745
• Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., ... & Ng, A. Y. (2017).
Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep
learning. arXiv preprint arXiv:1711.05225.
• He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image
Recognition. https://doi.org/10.48550/arxiv.1512.03385
• European Union. (2016). Regulation (EU) 2016/679 of the European Parliament and
of the Council of 27 April 2016 (General Data Protection Regulation). Official Journal
of the European Union. https://eur-lex.europa.eu/eli/reg/2016/679/oj
• Amann, J., Blasimme, A., Vayena, E., Frey, D., & Madai, V. I. (2020). Explainability
for artificial intelligence in healthcare: a multidisciplinary perspective. BMC Medical
Informatics and Decision Making, 20(1), 310–310. https://doi.org/10.1186/s12911-
020-01332-6
• Mittelstadt, B. D., Allo, P., Taddeo, M., Wachter, S., & Floridi, L. (2016). The ethics of
algorithms: Mapping the debate. Big Data & Society, 3(2).
https://doi.org/10.1177/2053951716679679 (Original work published 2016)
• Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2020).
Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based
Localization. International Journal of Computer Vision, 128(2), 336–359.
https://doi.org/10.1007/s11263-019-01228-7
• World Health Organization. (2022). Pneumonia.
https://www.who.int/news-room/fact-sheets/detail/pneumonia
• Mooney, P. T. (2018). Chest X-Ray Images (Pneumonia) [Dataset].
Kaggle. https://www.kaggle.com/datasets/paultimothymooney/chest-xray-
pneumonia
• Kermany, Daniel; Zhang, Kang; Goldbaum, Michael (2018), “Labeled Optical
Coherence Tomography (OCT) and Chest X-Ray Images for Classification”,
BACHELORPROEF Punnewaert Kenneth 42Mendeley Data, v2
http://dx.doi.org/10.17632/rscbjbr9sj.2
• Hoti, D. (2024). Gastlezing gegeven aan Thomas More Hogeschool,
Mechelen.
• NASA. (2017). Technology readiness level definitions. NASA.
https://www.nasa.gov/wp-content/uploads/2017/12/458490main_trl_definiti…
BACHELORPROEF Punnewaert Kenneth