Building a real estate spatial price prediction model for a web portal.

Kasper Van Lombeek
Kan een algoritme elk huis in Vlaanderen schatten?Vastgoed wordt in België voornamelijk geschat op basis van intuïtie en ervaring. Vaak lijken deze schattingen giswerk. In tegenstelling tot andere vakgebieden, wordt statistiek hierbij nog maar zelden gebruikt. Tegenwoordig is er echter data in overvloed, en zijn analytische algoritmes efficiënter dan ooit.

Building a real estate spatial price prediction model for a web portal.

Kan een algoritme elk huis in Vlaanderen schatten?

Vastgoed wordt in België voornamelijk geschat op basis van intuïtie en ervaring. Vaak lijken deze schattingen giswerk. In tegenstelling tot andere vakgebieden, wordt statistiek hierbij nog maar zelden gebruikt. Tegenwoordig is er echter data in overvloed, en zijn analytische algoritmes efficiënter dan ooit. Kunnen we met een combinatie van beiden een goede automatische schatter bouwen en zo 2.3 miljoen gebouwen in Vlaanderen schatten?

Klassiek statistisch probleem

Met ons buikgevoel weten we allemaal dat een huis met drie slaapkamers door de band genomen meer waard is dan een huis met twee slaapkamers. Er zijn echter tal van eigenschappen dewelke mee de waarde van vastgoed bepalen. Wat doen we bijvoorbeeld met de bewoonbare oppervlakte, oriëntatie en energieprestatie? En wat gedaan met de ligging? Is het huis rustig gelegen? Bevindt het zich in een stad of op het platteland? Is het gemakkelijk bereikbaar?

Hoe meer eigenschappen we in rekening brengen, des te complexer het wordt, en hoe minder we kunnen vertrouwen op ons buikgevoel. Geen twee huizen zijn immers hetzelfde: ze bestaan allemaal uit andere combinaties van eigenschappen. Hoe vergelijken we ze dan?

Combinatie van online zoekertjes en het Vlaams kadaster

Om de effecten van deze eigenschappen op de prijs van vastgoed te becijferen, moeten we eerst een dataset opbouwen. Op het Internet vindt men duizenden vastgoed zoekertjes, deze zijn vrij gemakkelijk in een tabel te gieten. Deze zoekertjes bevatten helaas ook veel ruis. De gevraagde prijs is niet altijd representatief voor de werkelijke verkoopsprijs, en soms zijn de eigenschappen verkeerd ingevuld.

Daarom combineerde ik de zoekertjes met het kadaster. Hieruit kunnen we voor alle gebouwen in Vlaanderen zeer nuttige informatie berekenen. De grondoppervlakte van een gebouw afleiden ligt voor de hand, maar met goniometrische formules kunnen we ook de afstand tot de straat, de bebouwingsdichtheid, de oriëntatie en de gevelbreedte afleiden. Deze eigenschappen zijn veel objectiever dan de eigenschappen uit de zoekertjes, daar ze door een machine zijn berekend. Ik berekende ze dan ook voor elk van de 2.3 miljoen gebouwen in Vlaanderen.

Ruimtelijke statistiek van de bio-ingenieurs

Het effect van de eigenschappen van een vastgoed op diens waarde is dan te berekenen met statistische methoden zoals regressie. Maar hoe berekenen we het effect van eigenschappen die we niet kennen, zoals de ligging? Op sommige waarden kan men immers geen getal plakken, zoals de “hipheid” van een buurt. Hoe komen we dan te weten wat het effect van een buurt is op de prijs?

Vaak probeert men toch de waarde van de locatie te bepalen met parameters, zoals afstand tot Brussel of postcode. Men stelt dan de vraag: “zijn huizen in deze postcode gemiddeld meer waard dan in een andere postcode”? Deze vraagstelling vond ik niet zinnig, want huizen net over de rand van een postcode verspringen niet opeens van waarde. De afstand tot Brussel is ook minder zinvol dan ze op het eerste gezicht lijkt: 10km ten Noorden van Brussel is het immers helemaal anders vertoeven dan 10km ten Zuiden van Brussel.

De bio-ingenieurs weten hier raad mee. Zij modeleren bijvoorbeeld waar het meeste olie zit op basis van enkele puntmetingen. Als we elk huis te koop beschouwen als een “meting” naar de waarde van de buurt, kunnen we hun technieken gebruiken om de waarde van een buurt te becijferen. Een combinatie van niet-lineaire regressie technieken met deze ruimtelijke statistiek vormde de basis voor een eerste model. Bijgevoegde afbeelding vertoont het resultaat van dit eerste model: een kaart met de waarde van de locatie rondom Gent.

Machine learning algoritmes

De laatste jaren zijn de data-analyse algoritmes enorm ontwikkeld en is het niet meer statistiek of econometrie, maar termen zoals  “machine-learning” en “data-science” die de aandacht opeisen. Men probeert niet langer op voorhand gestelde hypotheses te toetsen, maar bouwt algoritmes enkel gefocust op predictie. Google is bijvoorbeeld in staat om met neurale netwerken (dit zijn technieken die de werking van een organisch brein imiteren) voorwerpen op foto’s te herkennen zonder enige menselijke input. Kunnen we met dergelijke algoritmes ook de prijs van een huis bepalen?

Ook dit is goed mogelijk. Met het “gradient boosting” algoritme kunnen we een model samenstellen, bestaande uit duizenden beslissingsbomen. Hiermee schatten we de huizen met een aanzienlijke precisie. De “machine learning” algoritmes doen het dus even goed dan de klassiekere modellen.

Gebruik van de automatische schatter

Hoe moeten we nu deze schattingen interpreteren en gebruiken? De modellen schatten niet de waarde van een specifiek huis, maar schatten de gemiddelde waarde van vele huizen met dezelfde eigenschappen. Nemen we bijvoorbeeld een huis in het centrum van Geraardsbergen met drie slaapkamers en een grote tuin, dan schat het algoritme een waarde van €250 000. Dit wil zeggen dat als er honderd van dergelijke huizen worden verkocht, de gemiddelde prijs €250.000 zal zijn. Met de standaardafwijking kunnen we ook een prijsvork opbouwen, van de honderd voorbeeld huizen worden er 50 tussen de €225.000 en de €275.000 verkocht, 25 goedkoper dan deze vork en 25 duurder dan deze vork.

Maar we spreken niet over honderd huizen, maar over één enkel huis. Is dit huis dan ook €250.000 waard? Om dit te weten te komen moet je de foto’s bekijken of het huis bezoeken. Het algortime hield bijvoorbeeld nog geen rekening met de charme van het huis of de afwerkingsgraad, dit is belangrijke menselijke input waarmee je de schatting kunt verfijnen.

Conclusie: Thinking, fast and slow

De automatische schatter geeft je een bereik waarin de prijs van het huis zal liggen. Menselijke expertise is nog steeds belangrijk dit bereik te verfijnen en de prijs te bepalen.

Deze methodiek is een sluitend voorbeeld van de werkwijze beschreven in het boek Thinking, Fast and Slow van Daniel Kahneman. Met behulp van statistiek en logisch redeneren kan men een betere schatting maken dan enkel op basis van intuïtie. Maar het is vooral de combinatie van beiden dat de komende jaren voor de beste resultaten zal zorgen.

Bibliografie

C Brunsdon. Geographically weighted regression. Journal of the Royal . . . , 1998.

Trevor Hastie and R Tibshirani. The elements of statistical learning: data mining, inference

and prediction. 2005.

Roel Helgers, Eric Buyst, and Frank Verboven. De relatie tussen woning- karakteristieken

en woningprijzen: een nieuw licht op de recente prijsevolutie in Vlaanderen. (november

2011):472{479, 2013.

G James, D Witten, T Hastie, and R Tibshirani. An introduction to statistical learning,

volume 102. 2013. ISBN 9781461471370.

Steven D. Levitt and Stephen J. Dubner. Freakonomics: A Rogue Economist Explores the

Hidden Side of Everything.

R Kelley Pace. Spatial Statistics and Real Estate. 17:5{13, 1998.

Marno Verbeek. A Guide to Modern Econometrics. 2004. ISBN 0470857730.

Bo Wu, Rongrong Li, and Bo Huang. A geographically and temporally weighted au-

toregressive model with application to housing prices. International Journal of Geo-

graphical Information Science, 28(5):1186{1204, January 2014. ISSN 1365-8816. doi:

10.1080/13658816.2013.878463.

62

Universiteit of Hogeschool
Master in statistical data analyses
Publicatiejaar
2015
Kernwoorden
Share this on: