Hoe vind je een naald in een hooiberg groter dan het universum? Met die vraag begint Robbe Claeys zijn masteronderzoek aan de UGent. Hij doelt op de zoektocht naar nieuwe geneesmiddelen: er bestaan naar schatting 10^33 mogelijke moleculen - veel meer dan het aantal sterren in het heelal. Het testen van al die combinaties in een labo? Onmogelijk. Maar Robbe ontwikkelde een slimme manier om die zoektocht te versnellen.
Geneesmiddelen werken omdat ze binden aan een doelwit in ons lichaam, meestal een eiwit. Ibuprofen, zoals afgebeeld hieronder links, hecht zich aan het enzym COX-2 en zorgt zo voor pijnstilling en koortsverlichting in zij die het medicament innemen.
Het achterhalen van welke molecule op welk doelwit past, is cruciaal voor het vinden van nieuwe medicijnen en therapieën. Vandaag de dag gebeurt dat nog vaak met traag manueel labowerk en dure experimenten. Robbe zocht een alternatief: computers die leren welke moleculen kans maken om te werken.
Hij verzamelde gigantische databanken vol bekende interacties tussen moleculen en eiwitten. Vervolgens bouwde hij een zogenaamd 'multi-branch' neuraal netwerk. Dat is een slim algoritme met verschillende 'takken' of 'branches' in het Engels: een voor de chemische eigenschappen van het medicijn, een andere voor de kenmerken van het doelwit. Elke tak kan verschillende soorten informatie verwerken, zoals de chemische structuur van een molecule of de DNA-code van een eiwit. Samen leren ze patronen herkennen die voorspellen of een stof en een doelwit elkaar zullen aantrekken.
Je kan zo'n tak van een AI model een beetje vergelijken met een zintuig van een mens. Wij zien een hond met onze ogen en horen geblaf met onze oren; dit 'multi-branch' AI systeem heeft als het ware een tak om moleculen te 'zien' en een tak om een eiwitdoelwit te 'horen'.
Maar Robbe ging nog een stap verder. Zijn model kan niet alleen voorspellen, maar ook ontwerpen. Geïnspireerd door het nu alomtegenwoordige generative AI op foto's (zoals DALL·E of Midjourney) laat hij de computer stap voor stap een nieuwe moleculen genereren uit ruis, gestuurd door het gewenste doelwit. Het resultaat: volledig nieuwe, chemisch valide moleculen die beloven een bepaald eiwit te beïnvloeden. Een soort digitale molecuulkunstenaar dus.
Hieronder zie je dit generatieve proces in actie: Geef het model een bepaald doelwit (in vaktaal wordt dit het 'conditionerende signaal' genoemd) en stap-voor-stap tracht het AI systeem een molecule te genereren die met dit eiwit zou binden. Dit is eigenlijk equivalent met hoe ChatGPT een foto genereerd; jij geeft het een prompt (een conditionerend signaal) en het model genereert een foto die bij dat stukje tekst hoort. Enkel is het conditionerende signaal hier een eiwitdoelwit i.p.v. een tekstuele prompt, en is het ding dat gegenereerd wordt een molecule i.p.v. een foto.


Hoewel de eerste resultaten veelbelovend zijn, is het model nog geen wondermachine. De gegenereerde moleculen zijn voorlopig enkel een proof-of-concept. Voor ze ooit als medicijn in een pilletje belanden, moeten ze nog talloze labo- en klinische testen doorstaan.
Maar de richting is duidelijk: slimme algoritmes kunnen de zoektocht naar nieuwe therapieën drastisch versnellen. Misschien vindt een toekomstige versie van dit algoritme wel ooit dat ene molecuul dat een ongeneeslijke ziekte kan verslaan. Een kleine stap voor een computer, een grote sprong voor de geneeskunde.
Aleixo, E. L. et al. (2023). “Catastrophic forgetting in deep learning: A comprehensive taxonomy”. arXiv preprint arXiv:2312.10549.
Altschul, S. F. et al. (1990). “Basic local alignment search tool”. Journal of molecular biology 215.: 403–410.
Anthropic (2025). Claude Sonnet.
Barlow, H. B. (1989). “Unsupervised learning”. Neural computation 1.: 295–311.
Blei, D. M., Kucukelbir, A. & McAuliffe, J. D. (2017). “Variational inference: A review for statisticians”. Journal of the American statistical Association 112.: 859–877.
Bobadilla, J. et al. (2023). “Deep variational models for collaborative filtering-based recommender systems”. Neural Computing and Applications 35: 7817–7831.
Bohde, M. et al. (2025). “DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra”. arXiv preprint arXiv:2502.09571.
Boshar, S. et al. (2024). “Are genomic language models all you need? Exploring genomic language models on protein downstream tasks”. Bioinformatics 40.: btae529.
Butini, S. et al. (2010). “Discovery of bishomo (hetero) arylpiperazines as novel multifunctional ligands targeting dopamine D3 and serotonin 5-HT1A and 5-HT2A receptors”. Journal of medicinal chemistry 53.: 4803–4807.
Chen, T. et al. (2020). “A simple framework for contrastive learning of visual representations”. International conference on machine learning. PmLR: 1597–1607.
Chen, Z. et al. (2020). “Can graph neural networks count substructures?” Advances in neural information processing systems 33: 10383–10395.
Corso, G. et al. (2022). “Diffdock: Diffusion steps, twists, and turns for molecular docking”. arXiv preprint arXiv:2210.01776.
Dalla-Torre, H. et al. (2023). “The Nucleotide Transformer: Building and Evaluating Robust Foundation Models for Human Genomics”. bioRxiv: 2023–01.
Dalla-Torre, H. et al. (2024). “Nucleotide Transformer: building and evaluating robust foundation models for human genomics”. Nature Methods: 1–11.
Davies, M. et al. (2015). “ChEMBL web services: streamlining access to drug discovery data and utilities”. Nucleic acids research 43.: W612–W620.
Davis, M. I. et al. (2011). “Comprehensive analysis of kinase inhibitor selectivity”. Nature biotechnology 29.: 1046–1051.
Devlin, J. et al. (2019). “Bert: Pre-training of deep bidirectional transformers for language understanding”. Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers): 4171–4186.
Du, Y. et al. (2024). “Machine learning-aided generative molecular design”. Nature Machine Intelligence 6.: 589–604.
Dunn, I. & Koes, D. R. (2024). “Exploring Discrete Flow Matching for 3D De Novo Molecule Generation”. ArXiv: arXiv–2411.
Eijkelboom, F. et al. (2024). “Variational flow matching for graph generation”. Advances in Neural Information Processing Systems 37: 11735–11764.
El Naqa, I. & Murphy, M. J. (2015). “What is machine learning?” Machine learning in radiation oncology: theory and applications. Springer: 3–11.
ESM Team (2024). ESM Cambrian: Revealing the mysteries of proteins with unsupervised learning.
Falcon, W. & The PyTorch Lightning team (Mar. 2019). PyTorch Lightning. Version 1.4.
Garau-Luis, J. J. et al. (2024). Multi-modal Transfer Learning between Biological Foundation Models.
Gardner, M. & Dorling, S. (1998). “Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences”. Atmospheric Environment 32.: 2627–2636.
Gómez-Bombarelli, R. et al. (2018). “Automatic chemical design using a data-driven continuous representation of molecules”. ACS central science 4.: 268–276.
Google (2025). Gemini.
Gorantla, R. et al. (2024). “From Proteins to Ligands: Decoding Deep Learning Methods for Binding Affinity Prediction”. Journal of Chemical Information and Modeling 64.:2496–2507.
Guo, D. et al. (2025). “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning”. arXiv preprint arXiv:2501.12948.
Hayes, T. et al. (2024). “Simulating 500 million years of evolution with a language model, July 2024”. bioRxiv 1: v1.
He, T. et al. (2017). “SimBoost: a read-across approach for predicting drug-target binding affinities using gradient boosting machines”. Journal of Cheminformatics 9: 24.
Higgins, I. et al. (2017). “beta-VAE: Learning Basic Visual Concepts with a Constrained
Variational Framework”. International Conference on Learning Representations.
Hinton, G. E. & Salakhutdinov, R. R. (2006). “Reducing the dimensionality of data with neural networks”. science 313.: 504–507.
Holm, L. & Sander, C. (1996). “Mapping the protein universe”. Science 273.: 595–602.
Hosna, A. et al. (2022). “Transfer learning: a friendly introduction”. Journal of Big Data 9.:102.
Huang, K. et al. (2019). “Explainable Substructure Partition Fingerprint for Protein, Drug, and More”. NeurIPS Learning Meaningful Representation of Life Workshop.
Huang, K. et al. (Dec. 2020). “DeepPurpose: a deep learning library for drug–target interaction prediction”. Bioinformatics 36.: 5545–5547.
Huang, K. et al. (2021). “Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development”. Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks.
Huang, K. et al. (2022). “Artificial intelligence foundation for therapeutic science”. Nature Chemical Biology.
Iliadis, D., De Baets, B. & Waegeman, W. (2022). “Multi-target prediction for dummies using two-branch neural networks”. Machine Learning 111.: 651–684.
Iliadis, D. et al. (2024). “A comparison of embedding aggregation strategies in drugtarget interaction prediction”. BMC Bioinformatics 25: 59.
Jin, W., Barzilay, R. & Jaakkola, T. (2018). “Junction tree variational autoencoder for molecular graph generation”. International conference on machine learning. PMLR: 2323–2332.
Johnson, E. F. et al. (2007). “Pharmacological and functional comparison of the polo-like kinase family: insight into inhibitor and substrate specificity”. Biochemistry 46.: 9551–9563.
Kansal, N., Silakari, O. & Ravikumar, M. (2010). “Three dimensional pharmacophore modelling for c-Kit receptor tyrosine kinase inhibitors”. European journal of medicinal chemistry 45.: 393–404.
Karimi, M. et al. (2019). “DeepAffinity: interpretable deep learning of compound–protein affinity through unified recurrent and convolutional neural networks”. Bioinformatics 35.: 3329–3338.
Kim, J. et al. (2022). Pure Transformers are Powerful Graph Learners.
Kim, S. et al. (2025). “PubChem 2025 update”. Nucleic Acids Research 53.: D1516–D1525. 69
Kingma, D. P. & Ba, J. (2014). “Adam: A method for stochastic optimization”. arXiv preprint arXiv:1412.6980.
Kingma, D. P., Welling, M., et al. (2019). “An introduction to variational autoencoders”.
Foundations and Trends® in Machine Learning 12.: 307–392.
Landrum, G. (2013). “Rdkit documentation”. Release 1.: 4.
Lecun, Y., Bengio, Y. & Hinton, G. (2015). “Deep learning”. Nature 521.: 436–444.
Li, F.-Z. et al. (2024). “Feature reuse and scaling: Understanding transfer learning with protein language models”. bioRxiv: 2024–02.
Li, Y. (2017). “Deep reinforcement learning: An overview”. arXiv preprint arXiv:1701.07274.
Lin, Z. et al. (2022). “Language models of protein sequences at the scale of evolution enable accurate structure prediction”. bioRxiv.
Lin, Z. et al. (2023). “Evolutionary-scale prediction of atomic-level protein structure with a language model”. Science 379.: 1123–1130.
Liu, T. et al. (2007). “BindingDB: a web-accessible database of experimentally determined protein–ligand binding affinities”. Nucleic acids research 35.: D198–D201.
Loshchilov, I. & Hutter, F. (2016). “Sgdr: Stochastic gradient descent with warm restarts”. arXiv preprint arXiv:1608.03983.
Loshchilov, I. & Hutter, F. (2017). “Decoupled weight decay regularization”. arXiv preprint arXiv:1711.05101.
Marin, F. I. et al. (2024). “BEND: Benchmarking DNA Language Models on biologically meaningful tasks”. arXiv preprint arXiv:2311.12570.
Mayr, A. et al. (2016). “DeepTox: Toxicity Prediction using Deep Learning”. Frontiers in Environmental Science 3.
Mendez, D. et al. (2019). “ChEMBL: towards direct deposition of bioassay data”. Nucleic acids research 47.: D930–D940.
Metz, J. T. et al. (2011). “Navigating the kinome”. Nature chemical biology 7.: 200–202.
Morris, C. et al. (2019). “Weisfeiler and leman go neural: Higher-order graph neural networks”. Proceedings of the AAAI conference on artificial intelligence. Vol. 33. 01: 4602–4609.
Mouchlis, V. D. et al. (2021). “Advances in de novo drug design: from conventional to machine learning methods”. International journal of molecular sciences 22.: 1676.
Ngiam, J. et al. (2011). “Multimodal deep learning.” ICML. Vol. 11: 689–696.70
Nguyen, T. et al. (2021). “GraphDTA: predicting drug–target binding affinity with graph neural networks”. Bioinformatics 37.: 1140–1147.
Nie, S. et al. (2025). “Large language diffusion models”. arXiv preprint arXiv:2502.09992.
Núñez, S., Venhorst, J. & Kruse, C. G. (2012). “Target–drug interactions: first principles and their application to drug discovery”. Drug discovery today 17.: 10–22.
O’Leary, N. A. et al. (2016). “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation”. Nucleic acids research 44.:D733–D745.
Oja, E. (2002). “Unsupervised learning in neural computation”. Theoretical Computer Science 287. Natural Computing: 187–207.
Oord, A. v. d., Li, Y. & Vinyals, O. (2018). “Representation learning with contrastive predictive coding”. arXiv preprint arXiv:1807.03748.
OpenAI (2025). Introducing GPT-5.
Orlando, B. J., Lucido, M. J. & Malkowski, M. G. (2015). “The structure of ibuprofen bound to cyclooxygenase-2”. Journal of structural biology 189.: 62–66.
Pahikkala, T. et al. (2015). “Toward more realistic drug-target interaction predictions”. Briefings in Bioinformatics 16.: 325–337.
Paszke, A. et al. (2019). “Pytorch: An imperative style, high-performance deep learning library”. Advances in neural information processing systems 32.
Pei, Q. et al. (2023). “Breaking the barriers of data scarcity in drug–target affinity prediction”. Briefings in Bioinformatics 24.
Peng, J. et al. (2021). “Machine learning techniques for personalised medicine approaches in immune-mediated chronic inflammatory diseases: applications and challenges”. Frontiers in pharmacology 12: 720694.
Plaat, A. (2022). Deep reinforcement learning. Vol. 10. Springer.
Polishchuk, P. G., Madzhidov, T. I. & Varnek, A. (2013). “Estimation of the size of drug-like chemical space based on GDB-17 data”. Journal of computer-aided molecular design 27:675–679.
Polykovskiy, D. et al. (2020). “Molecular sets (MOSES): a benchmarking platform for molecular generation models”. Frontiers in pharmacology 11: 565644.
Popova, M., Isayev, O. & Tropsha, A. (2018). “Deep reinforcement learning for de novo drug design”. Science Advances 4.: eaap7885.
Ragoza, M., Masuda, T. & Koes, D. R. (2022). “Generating 3D molecules conditional on receptor binding sites with deep generative models”. Chemical science 13.: 2701–2713.
Rao, R. et al. (2020). “Transformer protein language models are unsupervised structure learners”. Biorxiv: 2020–12.
Rives, A. et al. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences”. PNAS.
Ross, J. et al. (2022). “Large-scale chemical language representations capture molecular structure and properties”. Nature Machine Intelligence 4.: 1256–1264.
Ruder, S. (2016). “An overview of gradient descent optimization algorithms”. arXiv preprint arXiv:1609.04747.
Salimans, T. & Ho, J. (2022). “Progressive distillation for fast sampling of diffusion models”. arXiv preprint arXiv:2202.00512.
Sayers, E. W. et al. (2024). “Database resources of the National Center for Biotechnology Information in 2025”. Nucleic Acids Research 53.: D20.
Silver, D. et al. (2018). “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play”. Science 362.: 1140–1144.
Simonovsky, M. & Komodakis, N. (2018). “Graphvae: Towards generation of small graphs using variational autoencoders”. Artificial Neural Networks and Machine Learning–ICANN 2018: 27th International Conference on Artificial Neural Networks, Rhodes, Greece, October 4-7, 2018, Proceedings, Part I 27. Springer: 412–422.
Smith, L. N. & Topin, N. (2019). “Super-convergence: Very fast training of neural networks using large learning rates”. Artificial intelligence and machine learning for multidomain operations applications. Vol. 11006. SPIE: 369–386.
Song, W. et al. (June 2024). “Drug-target interaction predictions with multi-view similarity network fusion strategy and deep interactive attention mechanism”. Bioinformatics 40.: btae346.
Spadoni, G. et al. (2014). “Towards the development of 5-HT7 ligands combining serotoninlike and arylpiperazine moieties”. European Journal of Medicinal Chemistry 80: 8–35.
Sterling, T. & Irwin, J. J. (2015). “ZINC 15–ligand discovery for everyone”. Journal of chemical information and modeling 55.: 2324–2337.
Suryanarayanan, P. et al. (2024). Multi-view biomedical foundation models for moleculetarget and property prediction.
Tak-Tak, L. et al. (2011). “Synthesis of purin-2-yl and purin-6-yl-aminoglucitols as Cnucleosidic ATP mimics and biological evaluation as FGFR3 inhibitors”. European journal of medicinal chemistry 46.: 1254–1262
Tang, J. et al. (2014). “Making sense of large-scale kinase inhibitor bioactivity data sets: a comparative and integrative analysis”. Journal of chemical information and modeling 54.: 735–743.
UniProt Consortium, T. (2018). “UniProt: the universal protein knowledgebase”. Nucleic acids research 46.: 2699–2699.
Vamathevan, J. et al. (2019). “Applications of machine learning in drug discovery and development”. Nature reviews Drug discovery 18.: 463–477.
Velez-Arce, A. et al. (2024). “Signals in the Cells: Multimodal and Contextualized Machine
Learning Foundations for Therapeutics”. NeurIPS 2024 Workshop on AI for New Drug Modalities.
Vieira, L. C., Handojo, M. L. & Wilke, C. O. (2025). “Scaling down for efficiency: Mediumsized protein language models perform well at transfer learning on realistic datasets”. bioRxiv: 2024–11.
Vignac, C. et al. (2022). “Digress: Discrete denoising diffusion for graph generation”. arXiv preprint arXiv:2209.14734.
Villegas-Morcillo, A. et al. (2021). “Unsupervised protein embeddings outperform handcrafted sequence and structure features at predicting molecular function”. Bioinformatics 37.: 162–170.
Waegeman, W., Dembczyński, K. & Hüllermeier, E. (2019). “Multi-target prediction: a unifying view on problems and methods”. Data Mining and Knowledge Discovery 33:293–324.
Wang, E. et al. (2025). “Txgemma: Efficient and agentic llms for therapeutics”. arXiv preprint arXiv:2504.06196.
Weiss, K., Khoshgoftaar, T. M. & Wang, D. (2016). “A survey of transfer learning”. Journal of Big data 3: 1–40.
Wen, M. et al. (2017). “Deep-learning-based drug–target interaction prediction”. Journal of proteome research 16.: 1401–1409.
Wheeler, D. L. et al. (2007). “Database resources of the national center for biotechnology information”. Nucleic acids research 36.: D13–D21.
Xu, K. et al. (2018). “How powerful are graph neural networks?” arXiv preprint arXiv:1810.00826.
Xu, P., Zhu, X. & Clifton, D. A. (2023). “Multimodal learning with transformers: A survey”. IEEE Transactions on Pattern Analysis and Machine Intelligence 45.: 12113–12132.
Zdrazil, B. et al. (Nov. 2023). “The ChEMBL Database in 2023: a drug discovery platform spanning multiple bioactivity data types and time periods”. Nucleic Acids Research 52.: D1180–D1192.
Zeng, X. et al. (2022). “Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework”. Nature Machine Intelligence 4.: 1004–1016.
Zhao, L. et al. (2022). “A brief review of protein–ligand interaction prediction”. Computational and Structural Biotechnology Journal 20: 2831–2838.