Ontwikkeling van Illumina data analyse pipeline voor resequencing

Svenn D'Hert
 Analyse helpt recyclage bacteriën beter te werken in de ruimteBij SCK-CEN (studiecentrum voor kernenergie, Mol) is een nieuwe analyse gebouwd om sneller de resultaten van DNA onderzoek te vergelijken met reeds gekende DNA sequenties. Met behulp van deze nieuwe methode kan het onderzoek nu sneller bepalen of de bacterie Rhodospirillum rubrum geschikt is voor lange bemande ruimtereizen, als deel van het recyclage systeem (MELliSA).De nieuwe analyse is ontwikkeld met het oog op de nieuwe DNA sequencing technologie, de zogenaamde next-generation sequencing technologie.

Ontwikkeling van Illumina data analyse pipeline voor resequencing

 

Analyse helpt recyclage bacteriën beter te werken in de ruimte

Bij SCK-CEN (studiecentrum voor kernenergie, Mol) is een nieuwe analyse gebouwd om sneller de resultaten van DNA onderzoek te vergelijken met reeds gekende DNA sequenties. Met behulp van deze nieuwe methode kan het onderzoek nu sneller bepalen of de bacterie Rhodospirillum rubrum geschikt is voor lange bemande ruimtereizen, als deel van het recyclage systeem (MELliSA).

De nieuwe analyse is ontwikkeld met het oog op de nieuwe DNA sequencing technologie, de zogenaamde next-generation sequencing technologie. Deze nieuwe technologie heeft een ware revolutie veroorzaakt in de moleculaire biologie. Het bepalen van een volledig genoom van een organisme of individu kan nu in een aantal uren, in tegenstelling tot oudere technologieën zoals Sanger sequencing waarvoor meerdere jaren nodig zijn om te achterhalen hoe het organisme er genetisch uitziet. De bottleneck zit niet meer in het produceren van de sequentie, maar in de gigabytes aan data die deze technologieën produceren en de data te analyseren en in een nuttige vorm bij de onderzoeker brengen.

Bij de next-generation sequencing technologie wordt het genoom in korte fragmenten geknipt (reads) en vervolgens gesequeneerd. Elk fragment is een klein stukje van de puzzel die we het genoom noemen. Omdat het genoom uit amper vier verschillende basen bestaat (ATCG) is de kans groot dat er fragmenten meermaals voorkomen, hierdoor is het maken van de puzzel een computationeel zware taak. Voor nieuwe genomen is deze manier van werken niet ideaal. Om een accurate DNA sequentie te bekomen moet men meermaals sequeneren en zelfs dan nog, zijn fouten aanwezig. Voor veel onderzoeken is dit een langdurige en dure aangelegenheid, daarom zijn er al sinds de jaren ‘90 databanken opgezet van gesequeneerde organismen. Door gebruik te maken van deze bestaande kennis kan de analyse sneller informatie uit de databrei halen door gebruik te maken van nauw verwante organismen. Bij deze manier van werken spreekt men dan ook van re-sequencing of herseqeunering omdat reeds een ruwe schets van het onderzochte organisme bekend is. 

Resequencing

Zo zijn de mens en aap voor 95-99% genetisch aan elkaar verwant. Het is dus niet ondenkbaar dat onderzoekers hiervan gebruik proberen te maken. Met behulp van de in SCK-CEN ontwikkelde analyse kan dit nu volautomatisch gebeuren. Daarvoor maken de onderzoekers gebruik van de enkele eigenschappen van de next-gen technologie. Zo bestaan er  een techniek die paired-end reads produceerd, dit zijn reads, die een gekende afstand (insert size) hebben van elkaar in het genoom. Met behulp van een referentie sequentie -van een nauw verwant organisme- kan men deze eenvoudiger ‘puzzelen’. Wanneer de insert size evenwel niet voldoet aan de gekende lengte wijst dit op een variatie ten opzichte van de referentie en het zijn net deze variaties waar onderzoekers naar zijn geïnteresseerd. Dat kan namelijk wijzen op het al dan niet aanwezig of afwezig zijn van een gen. Op deze manier kunnen deleties (verdwenen stukken DNA) en inserties (nieuwe stukken DNA) worden gedetecteerd.

MELliSSA

De ontwikkeling van de pipeline kaderde in het onderzoek MELliSSA (Micro-Ecological Life Support Sytem Alternative) ,  een artificieel ecosysteem die bestaat uit bacteriën en hogere planten. Dit ecosysteem zal gebruikt worden in toekomstige langdurige ruimtereizen. Hierbij is de bacterie Rhodospirillum rubrum van belang bij de omzetting van koolstoffen in zuurstofloze (anaerobe) omstandigheden. Deze bacterie is gekozen omdat ze naast de omzetting ook als extra voedselbron kan worden gebruikt. Het is belangrijk de genetische code van deze bacterie te kennen. Gezien constante stralingsbombardementen in de ruimte eventueel genen zou kunnen “deactiveren” waardoor deze bacterie haar werk niet of minder kan uitvoeren en bijgevolg het leven in gevaar kan brengen van de crew.

Mars express

De sequentie van de bacterie is vergeleken met meerdere nauw verwante soorten. Hierdoor is de bacterie nu beter gekend en kan men de resultaten verder analyseren of deze al dan de astronauten in problemen kunnen brengen tijdens hun verblijf op de rode planeet.

Bibliografie

 

atcc. (2012, maart) lgcsstandards-atcc. [Online]. http://www.lgcstandards-atcc.org/

(2012, Maart) SCKCEN. [Online]. http://www.sckcen.be/nl/Ons-Onderzoek/Research-projects/ESA-projects/MELGEN-2

Esa. (2012, Mei) ESA. [Online]. http://ecls.esa.int/ecls/?p=melissa

SCKCEN. (2012, maart) SCKCEN. [Online]. http://www.sckcen.be/nl/Over-SCK-CEN

SCKCEN. (2012, maart) SCK•CEN bedrijfssynopsis. pdf document.

 

SCKCEN. (2012, maart) Instituut voor Nucleaire Materiaalwetenschappen. pdf document.

SCKCEN. (2012, maart) Instituut voor Geavanceerde Nucleaire Systemen. pdf document.

SCKCEN. (2012, maart) Instituut voor Mileu, Gezondheid en Veiligheid. pdf document.

"Microbial ecology of the closed artificial ecosystem MELiSSA, Reinventing and compartmentalizing the Earth's food and oxygen regeneration system for long-haul space exploration missions," Research in Microbiology, vol. 157, pp. 77-86, April 2006.

Munk et al., "Complete genome sequence of Rhodospirillum rubrum type strain (S1T)," Genomic Standard Consortium, vol. 4, no. 3, pp. 128-132, Juni 2011.

et al. Lonjers ZT, "Identification of a new gene required for the biosynthesis of rhodoquinone in Rhodospirillum rubrum.," J Bacteriol, vol. 194, no. 965, p. 71, Juli 2012.

Pieter Monsieurs, Max Mergeay, Natalie Leys, Jacque Mahillon, Rob Van Houdt Kristel Mijnendonckx. (2012) Silver resistance in Cupriavidus metallidurans CH34 is affected by endogenous insertion sequence elemnts and cross regulation. poster.

Mijnendonckx K., Leys N., Van Houdt R Monsieurs P. (2012) Transcriptional cross-regulation as survival mechanism in bacteria. poster.

R. CONTRERAS, F. DUERINCK, G. HAEGEMAN, D. ISERENTANT, J. MERREGAERT, W. MIN JOU, F. MOLEMANS, A. RAEYMAEKERS, A. VAN DEN BERGHE, G. VOLCKAERT & M. YSEBAERT W. FIERS, "Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene," Nature, no. 260, pp. 500-507, April 1976.

Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M Sanger F, "Nucleotide sequence of bacteriophage phi X174 DNA," Nature, no. 265, pp. 687-695, Februari 1977.

"Whole-genome random sequencing and assembly of Haemophilus influenzae Rd," Science, vol. 269, no. 5223, pp. 496-512, Juli 1995.

Mike Gilchrist. medical institute for medical research. [Online]. http://www.nimr.mrc.ac.uk/mill-hill-essays/bringing-it-all-back-home-next-generation-sequencing-technology-and-you

Waterman MS Lander E, "Genomic Mapping by Fingerprinting Random Clones : A Mathematical Analysis," Genomics, no. 2, pp. 231-239, januari 1988.

Wetterstrand KA. genomes.gov. [Online]. http://www.genome.gov/sequencingcosts/

NCBI. [Online]. http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechResequencing.shtml

(2012, mei) from millions to one : theoretical and concrete approaches to denovo assembly using short read DNA sequences. digitaal boek.

illumina. (2012, maart) illumina paired end sequencing assay. [Online]. http://www.illumina.com/technology/paired_end_sequencing_assay.ilmn

SAM format. (2012, Februari) SAM Format Specifiactions. pdf. [Online]. samtools.sourceforge.net/SAM1.pdf

Nils Homer. (2012, maart) Whole Genome Simulation. [Online]. http://sourceforge.net/apps/mediawiki/dnaa/index.php?title=Whole_Genome_Simulation

(2012, maart) BWA. [Online]. http://bio-bwa.sourceforge.net/bwa.shtml

(2012, maart) seqanswers. [Online]. http://seqanswers.com/wiki/BWA

(2012, maart) Bowtie. [Online]. http://bowtie-bio.sourceforge.net

samtools. (2012, maart) samtools. [Online]. http://samtools.sourceforge.net

Tobias Rauch. (2011, Juli) Variant Calling from Genomic Sequencing Data. [Online]. http://www.embl.de/~rausch/

Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan Heng Li, "The Sequence Alignment/Map (SAM) Format and SAMtools," Bioinformatics advance access, pp. 1-2, Juni 2009.

Karamohamed S, Pettersson B, Uhlén M, Nyrén P. Ronaghi M, "Real-time DNA sequencing using detection of pyrophosphate release.," Anal Biochemie, vol. 242, no. 9, p. 84, November 1996.

(2012, maart) Velvet. [Online]. http://www.ebi.ac.uk/~zerbino/velvet/

"Assembling millions of short DNA sequences using SSAKE," bioinformatics, vol. 23, no. 4, pp. 500–501, december 2007.

Christiaan V. Henkel, Hans J. Jansen, Derek Butler Marten Boetzer, "Scaffolding pre-assembled contigs using SSPACE," bioinformatics, vol. 27, no. 4, pp. 578–579, December 2010.

 

Universiteit of Hogeschool
Biomedische laboratoriumtechnologie: bio-informatica
Publicatiejaar
2012
Share this on: