Computer en immunologie? Een onmisbare match in de 21 ste eeuw?!

Ömer
Sercik

Zonder twijfel weet je het al: vandaag de dag zijn computers onmisbaar voor ons allemaal, van een

boekhouder, tot een wiskundige, en ja, zelfs een (bio)medische wetenschapper. De focus ligt hier op

de laatste groep. Vandaag de dag vormen computerwetenschappen en biologie een onmisbare

match, een koppel dat als het ware complexe problemen (bijvoorbeeld het voorspellen van een

immuunreactie) op een versnelde manier kan oplossen. Mijn masterthesis, Prediction of T-Cell

Receptor Peptide Binding using Machine Learning and Ab Initio Principles, onder begeleiding van

prof. Dirk Valkenborg en prof. Bart Cleuren, is hier een mooi voorbeeld van. Laten we erin duiken,

zonder veel zorgen te maken over de technische details!



Wat is het? Wat is de oorsprong of het startpunt van het probleem?



De titel van het werk vat eigenlijk alles mooi samen. Wanneer we het hebben over een

immuunreactie, gaat het vaak over een chemische binding tussen de immuuncellen en een onbekend

proteïne, afkomstig van (bijvoorbeeld) een virus. Het bestrijden van een virus en het voorkomen van

ziek worden start met deze binding tussen de immuuncellen en de viraal proteïne. Er zijn

verschillende soorten immuuncellen, maar in deze context van een virale infectie, kijken we specifiek

naar de T-cellen. T-cellen zijn immuuncellen die het lichaam beschermen van “ziek worden” door

alreeds geïnfecteerde cellen te vernietigen. Wanneer een cel geïnfecteerd is door een virus, zal dit

virus in die cel zijn genetisch materiaal transleren naar proteïnen. De cel zal dit opmerken en zal die

virale proteïnen op zijn celmembraan hechten, als een teken van infectie voor de T-cellen. T-cellen

zien dan dat die cel geïnfecteerd is en zullen zich hechten aan die cel. De hechting gebeurt door een

chemische binding tussen de T cell receptoren (TCR) en de viraal proteïne. Om dus goed te kunnen

voorspellen in hoeverre een immuunreactie succesvol zal zijn, hebben we dus informatie nodig over

de onbekend proteïne (het virus, en meer bepaald het genetisch materiaal van het virus) en ook over

de TCR. Uiteindelijk is de kern van het verhaal dat deze twee zullen binden en moeten we dus

beschikken over voldoende informatie over deze twee entiteiten, zodanig dat we betrouwbare

predicties kunnen maken.



Hoe helpt in dit verhaal een computer?



Beide entiteiten zijn proteïnen. Proteïnen bestaan uit aminozuren en deze bouwstenen spelen een

heel belangrijke rol in de functionaliteit van de proteïne. De sequentie van deze aminozuren bepaalt

de structuur van het eiwit, die op zijn beurt de functionaliteit bepaalt. Proteïnen voeren specifieke

functies uit waarvoor ze ook specifieke structuren moeten hebben. Een storing in de

aminozuursequentie zal dus de structuur ook verstoren, waardoor het eiwit uiteindelijk zijn functie

niet kan uitvoeren. Hetzelfde geldt ook voor een binding van twee proteïnen: indien twee proteïnen

een binding moeten aangaan, dan moeten ze de geschikte structuur, maar ook de geschikte fysische

en chemische eigenschappen bezitten zodanig dat de binding gunstig kan verlopen. In mijn

masterthesis heb ik gefocust op de taak om de gunstige fysische en chemische eigenschappen van

beide eiwitten te bepalen zodanig dat de twee kunnen binden.



Wat heb ik dan precies gedaan in mijn masterthesis?



In mijn masterthesis heb ik Machine Learning en Deep Learning modellen gemaakt om de kans op

een binding tussen een gegeven TCR en een gegeven proteïne te voorspellen. De software die ik heb

gebruikt, namelijk R, bevat diverse functionaliteiten die als input een aminozuursequentie innemen,

en als output een bepaalde fysische en/of chemische grootheid berekenen voor de

aminozuursequentie: moleculaire massa, bepaalde stabiliteitsconstanten, hydrofobiciteit, … ML en

DL modellen kunnen dan leren voor welke eigenschappen van beide entiteiten (de TCR en het

onbekend eiwit) de kans op een binding heel hoog is en de kans op geen binding heel laag is. Hoe

meer koppens deze modellen zien (of met andere woorden, hoe groter de data set), hoe beter de

modellen zullen “leren” en dus hoe nauwkeuriger ze een predictie kunnen maken voor een “nieuw”

koppel van TCR – proteïne. Voor dit nieuw koppel worden dan ook de chemische en fysische

eigenschappen berekend en als input gegeven voor deze modellen. Meer bepaald zijn het deze

eigenschappen die de modellen gebruiken om de kans op een binding te berekenen.



Tot slot, wat is de toekomst?



De toekomst ziet er helder uit voor dit domein. Meer complexere studies zoals kanker kunnen in de

toekomst geholpen worden met AI. Ook is het de afgelopen twee jaar duidelijk geworden dat we

altijd paraat moeten staan voor een virusuitbraak.

Download scriptie (7.72 MB)
Universiteit of Hogeschool
Universiteit Hasselt
Thesis jaar
2022
Promotor(en)
prof. Dirk Valkenborg en prof. Bart Cleuren