De PFAS-cocktail ontrafeld: van verborgen mix naar zichtbare gezondheidsrisico's

Jonas
Meijerink

Stel je voor: je wilt weten van welk ingrediënt in een cocktail je hoofdpijn krijgt. Hoe achterhaal je de boosdoener? Precies die vraag stond centraal in recent onderzoek aan de UHasselt, in samenwerking met VITO, de Vlaamse Instelling voor Technologisch Onderzoek. Het onderzoek brengt aan de hand van statistische modellen nauwkeuriger in kaart welke gezondheidsklachten een PFAS-cocktail te weeg kan brengen. 

Wat maakt PFAS 'forever chemicals'?

PFAS zijn een familie van meer dan 6000 door de mens gemaakte chemische verbindingen. Ze zitten in talloze producten, van cosmetica en eieren tot ons drinkwater. Omdat deze stoffen nauwelijks afbreken, stapelen ze zich op in ons lichaam en ons leefmilieu. Daarom krijgen ze ook de bijnaam 'forever chemicals'.

Hoe meten we de PFAS-cocktail in ons lichaam?

Dit gebeurt via humane biomonitoring, waarbij onderzoekers de chemische stoffen meten in ons bloed, urine of haar. Zo krijgen we zicht op de stoffen die in een menselijk lichaam aanwezig zijn. Dit onderzoek gebruikt data van jongeren uit de omgeving van de 3M-fabriek in Zwijndrecht, een regio met ernstige PFAS-vervuiling. Uit de bloedstalen bleek dat wie hoge concentraties van één PFAS had, vaak ook verhoogde waarden van andere PFAS-varianten vertoonde. Statistisch gezien is dat een uitdaging: het is alsof je de effecten van gin probeert te scheiden van de tonic, terwijl ze altijd samen in het glas zitten. Deze complexiteit noemen statistici: 'multicollineariteit'.

Traditionele benadering

Traditioneel probeerden wetenschappers het effect van PFAS te begrijpen per stof. In deze zogenoemde 'single-pollutant' methodes zoek je bijvoorbeeld naar de relatie tussen stof A en gezondheidseffect X. Het fundamentele probleem? In humane biomonitoring data bestaan stoffen zelden afzonderlijk. Het onderzoek toont aan dat het gebruik van 'single-pollutant' methodes in deze context tot misleidende resultaten kan leiden. Je denkt het effect van gin te meten, maar vangt ook het effect van de tonic mee. Zo gaat de werkelijke impact van de PFAS-cocktail verloren.

De noodzaak aan geavanceerde methodologie

Een veelbelovend alternatief zijn 'multi-pollutant' modellen, die de invloed van meerdere PFAS tegelijk in rekening nemen. In plaats van één ingrediënt apart te proeven, bekijk je zo de impact van de volledige cocktail. Dat maakt het mogelijk te ontdekken welke stoffen afzonderlijk schadelijk zijn. Daarnaast laat het zien hoe combinaties van stoffen elkaar kunnen versterken of juist afzwakken in hun impact op de gezondheid.

Om het cocktailprobleem van PFAS aan te pakken, bestudeerde men uiteenlopende statistische modellen – van klassieke regressie en machine learning tot geavanceerde Bayesiaanse modellen met exotische namen als de 'horseshoe prior'. De echte uitdaging was: hoe test je welke methode het meest geschikt is voor deze PFAS-cocktail? Hiervoor creëerde men uitgebreide simulatiestudies. Dit zijn computer experimenten waarbij de 'waarheid' vooraf  gekend is en men kan nagaan hoe goed elke methode die waarheid wist te reconstrueren.

De juiste vragen vereisen de juiste modellen

De belangrijkste bijdrage van dit onderzoek ligt niet in definitieve antwoorden over PFAS-gevaren, maar in het ontwikkelen van betere manieren om de juiste vragen te stellen en te beantwoorden. Twee methodologische inzichten bleken cruciaal:

Ten eerste, bleek dat het gezamenlijk effect van de volledige PFAS-cocktail beter detecteerbaar is dan dat van afzonderlijke stoffen. Voor de volksgezondheid zijn gezamenlijke effecten ook vaak relevanter dan individuele effecten. In plaats van te vragen “wat doet PFAS-stof X met je lichaam?” kunnen we beter vragen “wat gebeurt er als de totale PFAS-blootstelling in de bevolking stijgt?”. Deze vraag sluit beter aan bij de realiteit, bijvoorbeeld het verschil in de gezondheidsimpact voor bewoners die vlak bij de 3M-fabriek wonen en zij die verder weg wonen. 

Ten tweede, biedt de onderzochte methodologie krachtige mogelijkheden om afzonderlijke effecten beter in te schatten. Deze methoden geven niet alleen een schatting, maar ook meteen hoe onzeker die schatting is. Bovendien kunnen ze rekening houden met de echte, en vaak complexe omstandigheden waarmee data wordt verzameld.

Dit onderzoek gaat verder dan de PFAS-problematiek alleen. De geavanceerde modellen helpen ons de volledige complexiteit van humane biomonitoringstudies te begrijpen. Daar ligt hun ware kracht: deze methoden groeien mee met de complexiteit van de data die we vandaag verzamelen.

Hoe bouwen we een gezondere toekomst?
De volgende stap? Deze aanpak verder uitbouwen en toepassen, zodat we niet alleen PFAS, maar ook andere chemische mengsels beter begrijpen. Voor u betekent dit dat gezondheidsrisico’s nauwkeuriger in kaart kunnen worden gebracht en dat interventies gerichter en effectiever kunnen zijn. Hoe beter we deze complexe effecten begrijpen, hoe beter we onze leefomgeving kunnen beschermen. Het is tijd om de manier waarop we PFAS-blootstelling bestuderen te verfijnen voor een gezondere toekomst!

 

Dit werk, uitgevoerd binnen de master statistiek aan de Universiteit Hasselt (Data Science Instituut) en in samenwerking met VITO (Vlaamse Instelling voor Technologisch Onderzoek), toont hoe methodologie kan bijdragen aan het begrijpen van complexe milieu- en gezondheidsvragen.

 

Bibliografie

Bobb, J. F., Claus Henn, B., Valeri, L., and Coull, B. A. (2018). Statistical software for
analyzing the health effects of multiple concurrent exposures via Bayesian kernel machine
regression. Environmental Health, 17(1):67.


Bobb, J. F., Valeri, L., Claus Henn, B., Christiani, D. C., Wright, R. O., Mazumdar, M.,
Godleski, J. J., and Coull, B. A. (2014). Bayesian kernel machine regression for estimating
the health effects of multi-pollutant mixtures. Biostatistics, 16(3):493–508.


Braun, J. M., Gennings, C., Hauser, R., and Webster, T. F. (2016). What can epidemio-
logical studies tell us about the impact of chemical mixtures on human health? Environ-
mental Health Perspectives, 124(1):A6–A9.


Breiman, L., Cutler, A., Liaw, A., and Wiener, M. (2022). Breiman and Cutler’s Random
Forests for Classification and Regression. R package version 4.7-1.2.


Carrico, C., Gennings, C., Wheeler, D. C., and Factor-Litvak, P. (2015). Characterization
of weighted quantile sum regression for highly correlated data in a risk analysis setting.
Journal of Agricultural, Biological, and Environmental Statistics, 20(1):100–120.


Carvalho, C. M., Polson, N. G., and Scott, J. G. (2009). Handling sparsity via the horse-
shoe. In Proceedings of the Twelfth International Conference on Artificial Intelligence and
Statistics, volume 5 of Proceedings of Machine Learning Research, pages 73–80. PMLR.


Carvalho, C. M., Polson, N. G., and Scott, J. G. (2010). The horseshoe estimator for sparse
signals. Biometrika, 97(2):465–480.


Chipman, H. A., George, E. I., and McCulloch, R. E. (2010). Bart: Bayesian additive
regression trees. The Annals of Applied Statistics, 4(1):266–298.


Christensen, K. L. Y., Carrico, C. K., Sanyal, A. J., and Gennings, C. (2013). Multiple
classes of environmental chemicals are associated with liver disease: Nhanes 2003–2004.
International Journal of Hygiene and Environmental Health, 216(6):703–709.


Clyde, M. (2024). BAS: Bayesian Variable Selection and Model Averaging using Bayesian
Adaptive Sampling. R package version 1.7.5.


Clyde, M. A., Joyee, G., and Michael L., L. (2011). Bayesian adaptive sampling for vari-
able selection and model averaging. Journal of Computational and Graphical Statistics,
20(1):80–101.


Consortium UAntwerpen, VITO, PIH, UHasselt and VUB (2023). Jongerenstudie hbm
- omgeving 3m – resultatenrapport. Research report, Departement Omgeving, Vlaams
Planbureau voor Omgeving. In opdracht van het Departement Omgeving, Vlaams Plan-
bureau voor Omgeving.


Cristianini, N. and Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines
and Other Kernel-based Learning Methods. Cambridge University Press.


Curtin, P., Kellogg, J., Cech, N., and Gennings, C. (2019). A random subset implementation
of weighted quantile sum (wqsRS ) regression for analysis of high-dimensional mixtures.
Communications in Statistics - Simulation and Computation, 50(4):1119–1134.


de Valpine, P., Turek, D., Paciorek, C. J., Anderson-Bergman, C., Lang, D. T., and Bodik,
R. (2017). Programming with models: Writing statistical algorithms for general model
structures with nimble. Journal of Computational and Graphical Statistics, 26(2):403–
413.


Dominici, F., Peng, R., Barr, C., and Bell, M. (2010). Protecting human health from air
pollution: Shifting from a single-pollutant to a multipollutant approach. Epidemiology,
21(2):187–194.


Ehrlich, V., Bil, W., Vandebriel, R., Granum, B., Luijten, M., Lindeman, B., Grandjean,
P., Kaiser, A.-M., Hauzenberger, I., Hartmann, C., Gundacker, C., and Uhl, M. (2023).


Consideration of pathways for immunotoxicity of per- and polyfluoroalkyl substances
(pfas). Environmental Health, 22.


Friedman, J., Hastie, T., and Tibshirani, R. (2010). Regularization paths for generalized
linear models via coordinate descent. Journal of Statistical Software, 33(1):1–22.


Garnier, Simon, Ross, Noam, Rudis, Robert, Camargo, Pedro, A., Sciaini, Marco, Scherer,
and C´edric (2024). viridis(Lite) - Colorblind-Friendly Color Maps for R. viridis package
version 0.6.5.


Genz, A. and Bretz, F. (2009). Computation of Multivariate Normal and t Probabilities.
Lecture Notes in Statistics. Springer-Verlag, Heidelberg.


George, E. and McCulloch, R. (1993). Variable selection via gibbs sampling. Journal of
The American Statistical Association, 88:881–889.


Gilles, L., Govarts, E., Rodriguez Martin, L., Andersson, A.-M., Appenzeller, B. M. R.,
Barbone, F., Casta˜no, A., Coertjens, D., Den Hond, E., Dzhedzheia, V., Erˇzen, I., L´opez,
M. E., F´abelov´a, L., Fillol, C., Franken, C., Frederiksen, H., Gabriel, C., Haug, L. S.,
Horvat, M., Halld´orsson, T. I., Janasik, B., Holcer, N. J., Kakucs, R., Karakitsios,
S., Katsonouri, A., Kl´anov´a, J., Kold-Jensen, T., Kolossa-Gehring, M., Konstantinou,
C., Koponen, J., Lignell, S., Lindroos, A. K., Makris, K. C., Mazej, D., Morrens, B.,
Mur´ınov´a, P., Namorado, S., Pedraza-Diaz, S., Peisker, J., Probst-Hensch, N., Ram-
baud, L., Rosolen, V., Rucic, E., R¨uther, M., Sarigiannis, D., Tratnik, J. S., Standaert,
A., Stewart, L., Szigeti, T., Thomsen, C., Tolonen, H., Eir´ıksd´ottir, , Van Nieuwenhuyse,
A., Verheyen, V. J., Vlaanderen, J., Vogel, N., Wasowicz, W., Weber, T., Zock, J.-P.,
Sepai, O., and Schoeters, G. (2022). Harmonization of human biomonitoring studies in
europe: Characteristics of the hbm4eu-aligned studies participants. International Journal
of Environmental Research and Public Health, 19(11).


Grammarly Inc. (2025). Grammarly. https://www.grammarly.com. Accessed: 2025-08-11.

Hassen, H., Govarts, E., Portengen, L., Kalina, J., Komprdov´a, K., Tratnik, J. S., Kocman,
D., Iszatt, N., Peeters, R., de Souza, C. M. T., Martin, L. R., Gilles, L., Santonen, T.,
Porras, S., Aimonen, K., Scheepers, P., Viegas, S., Bessonneau, H., Riou, M., Remy, S.,
Rodriguez-Carrillo, A., Vlaanderen, J., Gabriel, C., da Silva, S. d. N. P., Ogura, J. H.,
Bruckers, L., Engel, J., and Cano-Sancho, G. (2023). Statistical analysis plan (sap) for
t4.1 projects: Human biomonitoring. Technical Report T4.1.4, VITO, Mol, Belgium.
HBM4EU (2021). PFAS – Factsheet. Accessed: 2025-06-01.


Hernan, M. and Robins, J. (2025). Causal Inference: What If. Chapman & Hall/CRC
Monographs on Statistics & Applied Probab. CRC Press.


Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthog-
onal problems. Technometrics, 12(1):55–67.


Hoeting, J. A., Madigan, D., Raftery, A. E., and Volinsky, C. T. (1999). Bayesian model
averaging: a tutorial. Statistical science, 14(4):382–417.


Kassambara, A. (2025). ggpubr: ‘ggplot2’ Based Publication Ready Plots. R package version
0.6.0.


Keil, A. P. (2020). 2020 isee causal inference tutorial slides. https://github.com/
alexpkeil1/2020_ISEE_causal/blob/master/slides/2020_ISEE_Keil_talk.pdf.
Presentation slides from the International Society for Environmental Epidemiology
(ISEE) 2020.


Keil, A. P., Buckley, J. P., O’Brien, K. M., Ferguson, K. K., Zhao, S., and White, A. J.
(2020). A quantile-based g-computation approach to addressing the effects of exposure
mixtures. Environmental Health Perspectives, 128(4):047004.


Kuhn and Max (2008). Building predictive models in r using the caret package. Journal of
Statistical Software, 28(5):1–26.


Kyung, M., Gill, J., Ghosh, M., and Casella, G. (2010). Penalized regression, standard
errors, and bayesian lassos. Bayesian Analysis, 5:369–412.


Lempers, F. (1971). Posterior Probabilities of Alternative Linear Models: Some Theoretical
Considerations and Empirical Experiments. Rotterdam University Press.


Liu, D., Lin, X., and Ghosh, D. (2007). Semiparametric regression of multidimensional ge-
netic pathway data: Least-squares kernel machines and linear mixed models. Biometrics,
63(4):1079–1088.


Marx-Stoelting, P., Rivi`ere, G., Luijten, M., Aiello-Holden, K., Bandow, N., Baken, K.,
Ca˜nas, A., Castano, A., Denys, S., Fillol, C., Herzler, M., Iavicoli, I., Karakitsios, S.,
Klanova, J., Kolossa-Gehring, M., Koutsodimou, A., Vicente, J. L., Lynch, I., Namorado,
S., Norager, S., Pittman, A., Rotter, S., Sarigiannis, D., Silva, M. J., Theunis, J., Tralau,
T., Uhl, M., van Klaveren, J., Wendt-Rasch, L., Westerholm, E., Rousselle, C., and
Sanders, P. (2023). A walk in the parc: developing and implementing 21st century
chemical risk assessment in europe. Archives of Toxicology, 97(3):893–908.


Microsoft and Weston, S. (2022a). doParallel: Foreach Parallel Adaptor for the ’parallel’
Package. R package version 1.0.17.

Microsoft and Weston, S. (2022b). foreach: Provides Foreach Looping Construct. R package
version 1.5.2.


Mitchell, T. J. and Beauchamp, J. J. (1988). Bayesian variable selection in linear regression.
Journal of the American Statistical Association, 83(404):1023–1032.


Morris, T. P., White, I. R., and Crowther, M. J. (2019). Using simulation studies to evaluate
statistical methods. Statistics in Medicine, 38(11):2074–2102.


OpenAI (2023). Chatgpt: GPT-4 language model. https://chat.openai.com/. Accessed:
2025-08-11.


Park, T. and Casella, G. (2008). The bayesian lasso. Journal of the American Statistical
Association, 103(482):681–686.


Pedersen, T. L. (2025). patchwork: The Composer of Plots. R package version 1.3.0.


Pelgrims, I., Devleesschauwer, B., Vandevijvere, S., De Clercq, E. M., Van der Heyden, J.,
and Vansteelandt, S. (2024). The potential impact fraction of population weight reduction
scenarios on non-communicable diseases in belgium: application of the g-computation
approach. BMC Medical Research Methodology, 24.


Piironen, J. and Vehtari, A. (2017). Sparsity information and regularization in the horseshoe
and other shrinkage priors. Electronic Journal of Statistics, 11(2).


Plummer, M., Best, N., Cowles, K., and Vines, K. (2006). Coda: Convergence diagnosis
and output analysis for mcmc. R News, 6(1):7–11.


R Core Team (2024). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria.


Renzetti, S., Curtin, P., and Gennings, C. (2023). gWQS: Generalized Weighted Quantile
Sum Regression. R package version 3.0.5.


Robins, J. (1986). A new approach to causal inference in mortality studies with a sustained
exposure period—application to control of the healthy worker survivor effect. Mathemat-
ical Modelling, 7(9):1393–1512.


Rudis, B. (2024). hrbrthemes: Additional Themes, Theme Components and Utilities for
’ggplot2’. R package version 0.8.7.


Silva, E., Rajapakse, N., and Kortenkamp, A. (2002). Something from “nothing”-eight
weak estrogenic chemicals combined at concentrations below noecs produce significant
mixture effects. Environmental science technology, 36:1751–6.


Snowden, J. M., Rose, S., and Mortimer, K. M. (2011). Implementation of g-computation on
a simulated data set: Demonstration of a causal inference technique. American Journal
of Epidemiology, 173(7):731–738.


Tanner, E. M., Bornehag, C.-G., and Gennings, C. (2019). Repeated holdout validation for
weighted quantile sum regression. MethodsX, 6:2855–2860.


Tay, J. K., Narasimhan, B., and Hastie, T. (2023). Elastic net regularization paths for all
generalized linear models. Journal of Statistical Software, 106(1):1–31.

Thas, O. (2023). Linear models. https://othas.github.io/LIMO/. Accessed: 2025-05-24.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society: Series B (Methodological), 58(1):267–288.


Vansteelandt, S. and Keiding, N. (2011). Invited commentary: G-computation–lost in
translation? American Journal of Epidemiology, 173(7):739–742.


Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New
York, fourth edition. ISBN 0-387-95457-0.


VITO (2025). Vito - flemish institute for technological research. https://vito.be/en.
Accessed: 2025-06-05.


Wickham, H. (2007). Reshaping data with the reshape package. Journal of Statistical
Software, 21(12):1–20.


Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New
York.


Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L. D., Fran¸cois, R., Grole-
mund, G., Hayes, A., Henry, L., Hester, J., Kuhn, M., Pedersen, T. L., Miller, E., Bache,
S. M., M¨uller, K., Ooms, J., Robinson, D., Seidel, D. P., Spinu, V., Takahashi, K.,
Vaughan, D., Wilke, C., Woo, K., and Yutani, H. (2019). Welcome to the tidyverse.
Journal of Open Source Software, 4(43):1686.


Wickham, H. and Bryan, J. (2023). readxl: Read Excel Files. R package version 1.4.3.


Wickham, H., Fran¸cois, R., Henry, L., Müller, K., and Vaughan, D. (2023). dplyr: A
Grammar of Data Manipulation. R package version 1.1.4.


Wold, S., Ruhe, A., Wold, H., and Dunn, III, W. J. (1984). The collinearity problem in
linear regression. the partial least squares (pls) approach to generalized inverses. SIAM
Journal on Scientific and Statistical Computing, 5(3):735–743.


Youngflesh, C. (2018). Mcmcvis: Tools to visualize, manipulate, and summarize mcmc
output. Journal of Open Source Software, 3(24):640.


Yu, L., Liu, W., Wang, X., Ye, Z., Tan, Q., Qiu, W., Nie, X., Li, M., Wang, B., and
Chen, W. (2022). A review of practical statistical methods used in epidemiological stud-
ies to estimate the health effects of multi-pollutant mixture. Environmental Pollution,
306:119356.


Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net.
Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67:301 – 320.
 

Download scriptie (5.68 MB)
Universiteit of Hogeschool
Universiteit Hasselt
Thesis jaar
2025
Promotor(en)
Christel Faes, Bianca Cox
Thema('s)