Scriptiebank is een vrij toegankelijke online databank. Deze bevat alle artikels en full text scripties van deelnemende bachelors en masters aan de Vlaamse Scriptieprijs.

Serverless cloudplatformen voor Big Data: een vergelijkende studie

Thomas Aelbrecht
Dit onderzoek kan dienen als basis voor de keuze tussen verschillende cloud clustercomputing platformen. Dit omdat een datawarehouse praktisch onmisbaar is voor een hedendaags bedrijf. Dit onderzoek focust zich vooral op het opslaan, analyseren en verwerken van de verzamelde data. Tijdens dit onderzoek wordt zowel een Amazon AWS
Spark cluster als Google BigQuery onderzocht en met elkaar vergeleken. Daarnaast wordt er ook een blik geworpen op een eventueel alternatief voor Amazon EMR: Google Cloud
Dataproc. Bij dit onderzoek worden een aantal queries uitgevoerd op een dataset over boetes in New York. Daarnaast wordt elke cloudoplossing geanalyseerd o.b.v. enkele
requirements opgesteld door IntoData. Bij deze analyse wordt o.a. de performantie, leercurve en kost van de gebruikte tools en technologieën vergeleken. In dit document
vindt u een inleiding tot het onderwerp met o.a. de huidige stand van zaken. Daarnaast vindt u per cloudoplossing de resultaten van de queries en de scores op de requirements.
Uit dit onderzoek komt naar voor dat Google BigQuery de absolute winnaar is op het gebied van verwerking van BigData in de cloud, op de voet gevolgd door Google Cloud
Dataproc en uiteindelijk Amazon EMR. Daarnaast blijkt ook dat elk van deze oplossingen zijn specifieke use cases heeft. Toekomstig onderzoek kan zijn naar de verschillend
in performantie tussen Google Cloud Dataproc en Amazon EMR, naar gelijkwaardige alternatieven voor Google BigQuery of naar de verschillende integratiemogelijkheden bij
deze drie oplossingen.