Energieverbruik voorspellen en clusteren met Gaussiaanse processen

Christiaan Leysen
Vandaag de dag is elektriciteit een basisbehoefte. Doordat de elektriciteitsvraag elk jaar sterk stijgt, moet ook de hoeveelheid opgewekte energie elk jaar opgedreven worden. Dit gebeurt meer en meer op een duurzame manier. Het nadeel hiervan is echter dat de productie op deze manier zeer sterk kan fluctueren, afhankelijk van de weersomstandigheden. Energiebedrijven hebben daarom een goed zicht nodig op de consumptie van elektrische energie en doen hiervoor vaak beroep op voorspellings- en/of clustermethoden. In deze context stelt dit werk een voorspellings- en cluster- methode voor, die gebaseerd zijn op Gaussiaanse processen.
Deze thesis is opgedeeld in een voorspellings- en een clustergedeelte. In het voor- spellingsgedeelte bespreken we hoe we de ruwe data verwerken tot input voor de Gaussiaanse proces regressie en focussen we ons op een voorspelling voor de volgende twee dagen per uur.
Het clustergedeelte van de thesis stelt een nieuwe clustermethode voor, die gebaseerd is op Gaussiaanse proces regressie (GPRC), en passen we toe op het consumptiegedrag van huishoudens om er inzichten in te ontdekken. Dit doen we door de weekprofielen (tijdreeksen) van de huishoudens te beschouwen. Om deze te clusteren zal de methode gebruik maken van een algemeen model dat geleerd wordt op een set van tijdreeksen, gebaseerd op hun waarschijnlijkheid. Het voordeel van de voorgestelde techniek is dat ze geen paarsgewijze vergelijking van de tijdreeksen nodig heeft, in tegenstelling tot vele andere clustermethoden voor tijdreeksen.
Deze methoden worden geëvalueerd op een real-life dataset van 71 huishoudens, die historische consumptie en meteo-data van één jaar bevat. De voorspellingsme- thode wordt geëvalueerd en vergeleken met lineaire regressie, support vector regressie en een baseline methode die de waarde van een week geleden teruggeeft als voorspel- ling.
De clustermethode wordt vergeleken met k-medoids met dynamic time warping en hiërarchisch agglomeratief clusteren met dynamic time warping. Er wordt enerzijds aangetoond dat GPRC een betere schaalbaarheid heeft en anderzijds dat de resultaten ervan nuttig zijn in het beslissingsproces van een bedrijf uit de energiesector.

Artificiële intelligentie transformeert de energiesector!

Artificiële intelligentie transformeert de energiesector!

 

Vandaag de dag is elektriciteit een basisbehoefte. Doordat de vraag elke jaar stijgt moet ook de opwekking ervan elk jaar opgedreven worden. Het is bewezen dat het klimaat van onze planeet echter wordt bedreigd door dit enorme energieverbruik van de mensheid. Gelukkig worden we steeds meer aangemoedigd om duurzame energieopwekking toe te passen.           

Volgens het internationaal energieagentschap werd er in 2013 wereldwijd ongeveer 22% van de elektrische energie geproduceerd door hernieuwbare energiebronnen. Dit stijgend cijfer zou tegen 2020 26% zijn, wat overeenkomt met het huidige energieverbruik van China, India en Brazilië tezamen. Het lijkt dus dat we de goede richting uitgaan.                                                                                                           

Het grote nadeel van deze methoden is echter dat de productie zeer sterk kan fluctueren. Het huidige energienet is hiervoor niet ontworpen en het is dus een uitdaging deze productiemethoden hierin te integreren. Om deze fluctuaties in het energienet te kunnen beperken moeten energiebedrijven een zo goed mogelijk zicht hebben op de vraagzijde van de energie. Op deze manier kunnen we de mogelijke stijging van energieprijzen voor huishoudens tegengegaan.

 

Analyse

 

Ondanks dat Artificiële intelligentie vaak door de media wordt bestempeld als een bedreiging voor de mensheid, is het één van de meest hoopvolle middelen die we hebben om deze energiecrisis aan te pakken. Artificiële intelligentie, en meer specifiek het onderdeel machine learning, is een vakgebied binnen computerwetenschappen dat zich bezighoudt met data te analyseren, er intelligente conclusies uit te trekken en hieruit te leren. Dit machinaal leren heb ik gebruikt om een analyse te maken van het elektrisch energieverbruik van 71 huishoudens. Het onderzoek gebeurde in samenwerking met het onderzoekscentrum Sirris en het bedrijf 3E, dat de data heeft verzameld.

 

De analyse van de huishoudens bestaat uit het groeperen van gelijkaardige huishoudens (clusteren) en het voorspellen van hun toekomstig energieverbruik (predictie). Hiervoor heb ik gebruik gemaakt van een techniek (algoritme) dat Gaussiaanse proces regressie heet. Dit is een techniek die toelaat om op een automatische manier een set van kenmerkende functies te achterhalen. Deze functies zullen dan  een compacte beschrijving vormen van het energieverbruik van het gezin. Anders gezegd, gaan we dus veronderstellen dat we het energieverbruik van een gezin kunnen benaderen door een slimme veronderstelling uit de statistiek toe te passen.

Voorspelling

Voor de voorspelling van het energieverbruik registreerden we gedurende een jaar elk uur de temperatuur, de hoeveelheid zon en het energieverbruik. Deze data gecombineerd met de Gaussiaanse proces regressie methode stelt de computer in staat een model te leren dat trends en verbanden in de data gaat ontdekken. Gebruikmakend van het geleerde model kunnen we een voorspelling maken voor de energie van de komende dagen per uur. In tegenstelling tot andere populaire voorspellingsmethoden uit A.I. en statistiek, heeft deze methode het voordeel dat we niet expliciet moeten onderzoeken of het verbruik bijvoorbeeld een wekelijks patroon volgt. Deze trends worden automatisch door de computer geleerd (resultaat zie Figuur 1).

 

Image removed.

Figuur 1: Relatieve gemiddelde fout van de voorspelling voor 13 huishoudens. De groene staven stellen de fout van de gebruikte methode voor. Zoals men kan zien, geeft deze methode meestal de meest nauwkeurige voorspelling. De vergelijking gebeurde met andere populaire methoden uit A.I. en statistiek.

 

Clustering

Het meest innoverende deel van mijn werk zit echter in het clustergedeelte. Hierbij gaan we op zoek naar groepen van huishoudens die gelijkaardig zijn. Dit geeft een beeld over de betrouwbaarheid van de voorspelling en stelt energiebedrijven in staat onregelmatigheden in het verbruik op te sporen, prijsoptimalisaties uit te voeren en energiepakketten voor te stellen aan hun klanten.

Via Gaussiaanse proces regressie kunnen we echter maar één huishouden tegelijkertijd beschrijven. Daarom heb ik in dit werk een uitbreiding gecreëerd zodat de computer een model kan leren voor een groep van huishoudens in één keer. Dit model kan dan gebruikt worden om de optimale groepering van de huishoudens te bepalen.

Het grote voordeel van deze methode is dat er geen domeinkennis nodig is om de groeperingen te vormen, zodat de energiemaatschappij deze methode kan gebruiken, zonder zelf nog dure pre-analyses uit te voeren. Via de analysetool kan men op een interactieve manier snel een beeld krijgen van de klanten (Figuur 2).

 

Image removed.

 

Figuur 2: Analysetool die energiemaatschappijen kunnen gebruiken om inzicht te krijgen in het energieverbruik van hun klanten.

 

Deze groeperingstechniek is uiterst universeel en kan een model leren voor alle tijdsgebonden informatie (o.a. aandelenkoersen, temperatuur, ...). Daarnaast is de uitvoeringstijd van het groeperen lineair evenredig met het aantal huishoudens, waar voorgaande populaire technieken een langere (kwadratische) uitvoeringstijd hebben. Hierdoor kan in een relatief korte tijd een groot aantal huishoudens gegroepeerd worden. Deze resultaten zijn voorgesteld op de IEEE Intelligent Systems conferentie[1] en werden gepubliceerd[2]. Daarnaast is er het voor de expert lezers ook beschikbaar als een open-source project, als deel van de pyGPs toolbox[3]. Image removed.

 

Figuur 3: Uitvoeringstijd in seconden in functie van het aantal huishoudens. Blauw is de groeperingstechniek die besproken is in dit werk. Vanaf 50 huishoudens is deze techniek efficiënter.

Toekomst

 

Het verzamelen van de data is op dit moment de belangrijkste factor die het gebruik van deze analysetechnieken tegenhoudt. Daarom wordt er momenteel geëxperimenteerd met slimme elektriciteitsmeters die men kan plaatsen bij ieder huishouden. Deze meters creëren een constante communicatie tussen het huishouden en de elektriciteitsmaatschappij (smart grid).

Hierdoor zal de kracht van deze analysetechnieken pas echt duidelijk worden. Ongetwijfeld zal dit een enorme economische impact hebben op de hele energie-industrie.

Het is een vaststaand feit dat de toekomst doordrongen zal zijn met Artificiële intelligentie.

Ik nodig de lezer dan ook uit om de stap voor stap uitwerking van deze methodes te lezen in mijn thesis.

Het is belangrijk dat de mensen een realistisch beeld krijgen van A.I. en de notie van bedreiging vervangen door het beseffen dat dit een tool is voor de mensheid. Ze kan ondersteuning bieden en aanbevelingen geven om onze meet complexe problemen op te lossen. Zolang we deze aanbevelingen

combineren met ons gezond verstand, ben ik zeer optimistisch naar de toekomst toe. Ik kijk alvast uit naar de evolutie in de energiesector.

Ir. Leysen Christiaan

=

 

 

 

[1] https://www.ieee-is.org/intelligent-systems-2016/conference-topics/

[2]  https://lirias.kuleuven.be/handle/123456789/550688

[3] https://github.com/marionmari/pyGPs

 

 

Bibliografie

Bibliografie

  1. [1]  O. D. Somer and T. Kutz, “Machine learning techniques for forecasting of building energy consumption,” Ph.D. dissertation, KU Leuven, 2015.

  2. [2]  R. W. T. Borg, “Electricity load modelling using computational intelligence.” Ph.D. dissertation, TU Delft, 2005.

  3. [3]  K. S. Weranga K. S. K and C. D. P., Smart Metering Design and Applications, 2014. [Online]. Available: http://link.springer.com/10.1007/978-981-4451-82-6

  4. [4]  K. Li and H. Su, “Forecasting building energy consumption with hybrid genetic algorithm-hierarchical adaptive network-based fuzzy inference system,” Energy and Buildings, vol. 42, no. 11, pp. 2070 – 2076, 2010.

  5. [5]  R. Hyndman and G. Athanasopoulos, Forecasting: principles and practice:. OTexts, 2014.

  6. [6]  H. Drucker, C. J. Burges, L. Kaufman, C. J. C, B. L. Kaufman, A. Smola, and V. Vapnik, “Support vector regression machines,” 1996.

  7. [7]  (2016) Auto-regressief model. [Online]. Available: https://en.wikipedia.org/ wiki/Autoregressive\_model

  8. [8]  C. E. Rasmussen and C. K. I. Williams, “Gaussian processes for machine learning,” 2006.

  9. [9]  M. Samarasinghe and W. Al-Hawani, “Short-term forecasting of electricity consumption using Gaussian processes,” Master’s thesis, 2012.

[10] D. J. C. MacKay, Information Theory, Inference & Learning Algorithms. New York, NY, USA: Cambridge University Press, 2002.

[11] N. P. Hadi Asheri, Hamid Reza Rabiee and M. H. Rohban, “A gaussian process regression framework for spatial error concealment with adaptive kernels,” in The 20th International Conference on Pattern Recognition. Istanbul, Turkey:

IEEE, 2010.

[12] C. S. Myers, “A comparative study of several dynamic time warping algorithms for speech recognition,” Ph.D. dissertation, MIT, 1980.

93

Bibliografie

Image removed.

  1. [13]  M. Müller, Information retrieval for music and motion. Springer, 2007, vol. 2.

  2. [14]  Q. Chen, G. Hu, F. Gu, and P. Xiang, “Learning optimal warping window size of dtw for time series classification,” in Information Science, Signal Processing and their Applications (ISSPA), 2012 11th International Conference on, 2012, pp. 1272–1277.

  3. [15]  C. D. Manning, P. Raghavan, and H. Schütze, Introduction to Information Retrieval. New York, NY, USA: Cambridge University Press, 2008.

  4. [16]  L. Kaufman and P. J. Rousseeuw, Finding groups in data : an introduction to cluster analysis, ser. Wiley series in probability and mathematical statistics. New York: Wiley, 1990.

  5. [17]  G. W. Claude Sammut, Encyclopedia of Machine Learning. Springer- Verlag,N.Y., 2007.

  6. [18]  C. D. Manning, P. Raghavan, H. Schütze et al., Introduction to information retrieval. Cambridge university press Cambridge, 2008, vol. 1.

  7. [19]  B. Everitt, S. Landau, and M. Leese, “Cluster analysis.” Arnold, London, 2001.

  8. [20]  S. K. Arunesh Kumar Singh, Ibraheem and M. Muazzam, “An overview of electricity demand forecasting techniques,” in Network and Complex Systems, vol. 3, Nov 2013, pp. 38–48.

  9. [21]  C. W. Bin Yan and W. Xie, “Prediction of buildings energy consumption,” Neural Netw., vol. 4, no. 2, Mar. 2013. [Online]. Available: http://cs109-energy.github.io

  10. [22]  K. Kandananond, “Forecasting electricity demand in thailand with an artificial neural network approach,” Energies, vol. 4, no. 8, pp. 1246–1257, 2011.

  11. [23]  W.-C. Hong, “Electric load forecasting by support vector model,” Applied Mathematical Modelling, vol. 33, no. 5, pp. 2444 – 2454, 2009.

  12. [24]  J. Zeng and W. Qiao, “Short-term solar power prediction using an rbf neural network,” in 2011 IEEE Power and Energy Society General Meeting, July 2011, pp. 1–8.

  13. [25]  V. N. Vapnik, The Nature of Statistical Learning Theory. New York, USA: Springer-Verlag, Inc., 1995.

  14. [26]  K. Kandananond, “Forecasting electricity demand in thailand with an artificial neural network approach,” Energies, vol. 4, no. 8, p. 1246, 2011.

  15. [27]  P.-F. Pai and W.-C. Hong, “Forecasting regional electricity load based on recurrent support vector machines with genetic algorithms,” Electric Power Systems Research, vol. 74, no. 3, pp. 417 – 425, 2005.

94

Bibliografie

Image removed.

  1. [28]  Y. Yan, P. Guo, and L. Liu, “A novel hybridization of artificial neural networks and arima models for forecasting resource consumption in an iis web server,” in Software Reliability Engineering Workshops (ISSREW), 2014 IEEE International Symposium on, Nov 2014, pp. 437–442.

  2. [29]  L. Breiman, “Random forests,” Mach. Learn., vol. 45, no. 1, pp. 5–32, Oct. 2001.

  3. [30]  G. E. Box and G. M. Jenkins, “Time series analysis forecasting and control,”

    San Francisco, 1970. [Online]. Available: http://opac.inria.fr/record=b1108766

  4. [31]  N. K. Pasapitch Chujai and K. Kerdprasop, “Time series analysis of household electric consumption with arima and arma models,” Lecture Notes in Engineering and Computer Science, 2013.

[32] M. Blum and M. Riedmiller, “Electricity demand forecasting using gaussian processes,” in The AAAI-13 Workshop on Trading Agent Design and Analysis, 2013.

[33] H. Y. Noh and R. Rajagopal, “Data-driven forecasting algorithms for building energy consumption,” in Conference on Sensors and Smart Structures Tech- nologies for Civil, Mechanical, and Aerospace Systems, San Diego, CA, USA, 2013.

[34] H. Mori and M. Ohmi, “Probabilistic short-term load forecasting with gaussian processes,” in Proceedings of the 13th International Conference on, Intelligent Systems Application to Power Systems, IEEE, Nov 2005.

[35] T. Koskela, M. Lehtokangas, J. Saarinen, and K. Kaski, “Time series prediction with multilayer perceptron, fir and elman neural networks,” in In Proceedings of the World Congress on Neural Networks. Press, 1996, pp. 491–496.

[36] t. . A. Karin Kandananond, 2012.

[37] M. A. Pimentel, D. A. Clifton, and L. Tarassenko, “Gaussian process clustering for the functional characterisation of vital-sign trajectories,” in Machine Learning for Signal Processing, 2013 IEEE International Workshop on, 2013, pp. 1–6.

[38] H.-C. Kim and J. Lee, “Clustering based on Gaussian processes,” Neural com- putation, vol. 19, no. 11, pp. 3088–3107, 2007.

[39] M. Kumar, N. R. Patel, and J. Woo, “Clustering seasonality patterns in the presence of errors,” in Proceedings of the Eighth ACM International Conference on Knowledge Discovery and Data Mining, NY, USA, 2002, pp. 557–563.

[40] D. Duvenaud, “Automatic model construction with Gaussian processes,” Ph.D. dissertation, Computational and biological learning laboratory, University of Cambridge, 2014.

[41] T. Warren Liao, “Clustering of time series data - a survey,” Pattern Recogn., vol. 38, no. 11, pp. 1857–1874, Nov. 2005.

95

Bibliografie

Image removed.

[42] M. Espinoza, C. Joye, R. Belmans, and B. D. Moor, “Short-term load forecasting, profile identification, and customer segmentation: a methodology based on periodic time series,” Power Systems, IEEE Transactions on, vol. 20, no. 3, pp. 1622–1630, 2005.

[43] S. Rani and G. Sikka, “Article: Recent techniques of clustering of time series data: A survey,” International Journal of Computer Applications, vol. 52, no. 15, pp. 1–9, August 2012.

[44] R. Bellman, “Adaptive control processes: A guided tour. (A RAND Corporation Research Study).” Princeton, N. J.: Princeton University Press, XVI, 255 p.

(1961)., 1961.

[45] V. Niennattrakul and C. A. Ratanamahatana, “On clustering multimedia time series data using k-means and dynamic time warping,” in 2007 International

Conference on Multimedia and Ubiquitous Engineering, April 2007, pp. 733–738.

  1. [46]  J. Paparrizos and L. Gravano, “k-Shape: Ecient and Accurate Clustering of Time Series,” in Proceedings of the 2015 ACM SIGMOD, NY, USA, 2015, pp. 1855–1870.

  2. [47]  C.-K. Chu and J. S. Marron, “Comparison of two bandwidth selectors with dependent errors,” The Annals of Statistics, vol. 19, no. 4, pp. pp. 1906–1918, 1991.

  3. [48]  P. Burman, E. Chow, and D. Nolan, “A cross-validatory method for dependent data,” Biometrika, vol. 81, no. 2, pp. pp. 351–358, 1994.

  4. [49]  “FLEXIPAC: Valorisation de la flexibilité des pompes à chaleurs,” Research project financed by the Walloon Region, Belgium, 2013-2015. [Online]. Available: http://www.flexipac.ulg.ac.be

  5. [50]  C. M. Bishop, Pattern Recognition and Machine Learning (Information Science and Statistics). Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006.

  6. [51]  G. C. Cawley and N. L. C. Talbot, “Preventing over-fitting during model selection via bayesian regularisation of the hyper-parameters,” J. Mach. Learn. Res., vol. 8, pp. 841–861, 2007.

  7. [52]  G. C. Cawley and N. L. Talbot, “On over-fitting in model selection and subse- quent selection bias in performance evaluation,” J. Mach. Learn. Res., vol. 11, pp. 2079–2107, 2010.

  8. [53]  M. Neumann, S. Huang, D. E. Marthaler, and K. Kersting, “pyGPs–a python library for Gaussian process regression and classification,” Journal of Machine Learning Research, vol. 16, pp. 2611–2616, 2015.

  9. [54]  E. Jones, T. Oliphant, P. Peterson et al., “SciPy: Open source scientific tools for Python,” 2001. [Online]. Available: http://www.scipy.org/

96

[55] J. Huerta-Cepas, F. Serra, and P. Bork, “Ete 3: Reconstruction, analysis, and visualization of phylogenomic data,” Molecular biology and evolution, p. msw046, 2016.

[56] D. R. Heckendorn. (2012) Newick tree formats. [Online]. Available: http://marvin.cs.uidaho.edu/Teaching/CS515/newickFormat.html

[57] C. Leysen. Implementatie: Energieverbruik voorspellen en clusteren met gaussiaanse processen. [Online]. Available: https://www.dropbox.com/sh/ mn0bfn9mjsp24au/AAC_D9s8SvJkZooNrq3Mr8Iga?dl=0 

Universiteit of Hogeschool
Master in de ingenieurswetenschappen: computerwetenschappen: Artificiële intelligentie
Publicatiejaar
2016
Promotor(en)
Prof. dr. Luc De Raedt en Dr. Tom Tourwé
Kernwoorden
Share this on: