Multiple imputation for delayed and missing event type data in a competing risks survival setting: Time to Ph.D.-attainment

Machteld
Varewyck

Hoeveel kost het behalen van een doctoraatsdiploma aan de maatschappij?

Inleiding

Het aantal studenten dat een doctoraatsopleiding start, neemt jaarlijks toe. Ook de overheid investeert jaar na jaar aanzienlijke bedragen in onderzoek en ontwikkeling. Dan rijst al snel de vraag naar de efficiëntie van die investeringen. Hoe lang heeft een student sponsoring nodig om een doctoraatsdiploma te behalen? Welke groepen van studenten doen het gemiddeld beter? Zijn er opleidingen die tot een grotere kans op succes leiden?

Gebaseerd op de data beschikbaar gesteld door het interuniversitair consortium ECOOM, onderzoeken we het rendement van de gesponsorde tijd voor een doctoraatsopleiding bij alle studenten die starten tussen 1 oktober 1990 en 30 september 2009 aan één van de vijf Vlaamse universiteiten: K.U.Leuven, UA, UGent, UHasselt en VUB. We houden bij ons onderzoek zowel rekening met kenmerken van de doctoraatsstudent als zijn/haar opleiding. We focussen daarbij op de gesponsorde tijdsduur (i.p.v. kalendertijd) tot het behalen ofwel stopzetten van het doctoraat.

Probleemstelling

Dit onderzoek wordt bemoeilijkt doordat het stopzetten van de doctoraatsopleiding niet expliciet wordt gerapporteerd in de database en dus moet afgeleid worden uit de observatie van een lange gap (niet-gesponsorde periode) in de aanstelling van de doctoraatsstudent. Wanneer geen doctoraatsdiploma wordt behaald binnen de 4 jaar na de laatste sponsoring, wordt dit door ons gezien als een faling van de initieel gesponsorde tijdsinvestering en we definiëren de doctoraatsstudent aan het begin van deze niet-gesponsorde gap als een stopzetter (zie figuur 1).

Was van elke gap de uitkomst gekend, dan konden we de gesponsorde tijdsduur analyseren met oorzaakspecifieke Cox PH modellen waarbij de uitkomsten ‘doctoraatsdiploma’ en ‘stopzetting’ concurrerende risico’s zijn. De ene uitkomst verhindert immers de andere om plaats te vinden. Integratie van de snelheid waarmee elk type uitkomst optreedt leidt  vervolgens tot de kans op het behalen van een doctoraatsdiploma of het stopzetten van de opleiding.

Helaas, bij het bevriezen van de data voor analyse op 30 september 2009, bevinden zich meerdere doctoraatsstudenten in een relatief lange gap, die uiteindelijk wel of  niet de 4 jaar grens zal overschrijden. Een onvertekende analyse moet dit soort gecensureerde en vertraagde uitkomst observaties correct verwerken. De beperking tot studenten die hun gaps startend na 30 september 2005 ook afronden voor de einddatum van de studie levert vertekende resulaten op.

Methode

Figuur 1 (zie bijlage) illustreert hoe informatie ontbreekt voor personen met een gap waarvan de observatie voor de 4 jaar limiet wordt stopgezet. We zullen voor hen eerst voorspellen of die gap uiteindelijk langer dan 4 jaar duurt. Vervolgens zullen we meervoudige imputatie toepassen om zowel de vertekening op te heffen als de onzekerheid op de uitkomst eerlijk weer te geven.  Op die manier bekomen we een reeks aan vervolledigde databases waarop we telkens de standaard analysetechnieken kunnen toepassen. Hun resultaten worden vervolgens op een correcte manier gecombineerd en de onzekerheid op schatters van succeskansen gerapporteerd via betrouwbaarheidsintervallen.

Resultaten

In figuur 2 (zie bijlage) wordt de geschatte kans op het behalen van een doctoraatsdiploma binnen opeenvolgende periodes van sponsoring weergegeven voor verschillende dominante statuten. Concreet tonen we de kans voor de referentiegroep van Belgische mannen in de wetenschappen jonger dan 25 jaar bij de start van de doctoraatsopleiding in de periode 1990-1997 aan één van de vijf Vlaamse universiteiten. Hier varieert alleen het dominant statuut en geven  betrouwbaar- heidsintervallen de grenzen aan waarbinnen de echte kans op het behalen van een doctoraatsdiploma met 95% kans vervat is. Onder de grafiek staat het aantal personen dat nog in de running is, d.w.z. nog zonder diploma of stopzetting en nog onder observatie binnen de studie. We zien duidelijk hoe weinig studenten hun doctoraatsdiploma behalen binnen de 4 jaar sponsoring, ondanks een standaardtermijn van 4 jaar voor veel doctoraatsbeurzen. Bovendien neemt de kans op het behalen van een doctoraatsdiploma nog nauwelijks toe na 8 jaar sponsoring, behalve voor assistenten. Veel doctoraatsstudenten vullen dus de 4 jaar sponsoring aan met een extra termijn om alsnog het doctoraatsdiploma te behalen.

In figuur 3 (zie bijlage) wordt opnieuw de kans op het behalen van een doctoraatsdiploma binnen opeenvolgende sponsoringstijden weergegeven voor de referentiegroep,  waarbij nu het dominante wetenschapsveld varieert. Het zal niemand verwonderen dat de wetenschappen de grootste succeskans blijken te hebben. Analoog kunnen we ook voor andere variabelen de geschatte kans tekenen.

In figuur 4 (zie bijlage) wordt de geschatte kans op het stopzetten van een doctoraatsopleiding binnen toenemende jaren van sponsoring weergegeven voor verschillende dominante statuten. Zoals verwacht vinden we de kleinste geschatte kans voor de competitieve beurzen (groen en paars). De grafiek vertoont een duidelijke knik na 1, 2 en 4 jaar sponsoring omdat een groot aantal beurzen dan tussentijds geëvalueerd worden en vervolgens al dan niet verlengd worden voor een bijkomende termijn van 1 of 2 jaar. Het ideale verloop van deze grafiek is sterk stijgend in het begin en daarna nauwelijks nog toenemend, omdat elk jaar extra sponsoring voor stopzetters puur verlies is.

Conclusie

Eerst en vooral valt op  welk klein percentage studenten hun doctoraatsdiploma behaalt binnen de standaard termijn van 4 jaar sponsoring. Vervolgens worden de grootste verschillen in de geschatte kans geobserveerd over de dominant statuten, hoewel alle beschouwde variabelen in zekere mate samenhangen met de geschatte kans op het behalen en stopzetten van een doctoraat. Ten slotte willen we nog onderstrepen dat de controle van kwaliteit een steeds belangrijkere plaats inneemt in onze samenleving (onderwijs, gezondheidszorg…), waarbij vaak gesofisticeerde statistische procedures nodig zijn om correcte analyses te bekomen. De ontwikkeling van deze procedures is een werk van lange adem, waar veel doctoraatsstudenten een belangrijke bijdrage aan leveren en op die manier is de cirkel weer rond.

Bibliografie

[1] Andersen, P. K., Gill, R. D. (1982), “Cox's Regression Model for Counting Processes: A
Large Sample Study," The Annals of Statistics, Vol. 10, No. 4, 1100-1120.
[2] Baert, K., Goetghebeur, E. (2010), Time to Ph.D.-completion: Technical Document, unpublished report, Consortium Stat-Gent, Ghent University.
[3] Barnard, J., Meng, X. L. (1999), “Applications of Multiple Imputation in Medical Studies:
from AIDS to NHANES," Statistical Methods in Medical Research, 8, 17-36.
[4] Bie, O., Borgan, O., Liestol, K. (1987), “Confidence Intervals and Confidence Bands for
the Cumulative Hazard Rate Function and Their Small Sample Properties," Scandinavian
Journal of Statistics, Vol. 14, No. 3, 221-233.
[5] Cheng, S. C., Fine, J. P., Wei, L. J. (1998), “Prediction of Cumulative Incidence Function
Under the Proportional Hazards Model," Biometrics, Vol. 54, No. 1, 219-228.
[6] Fine, J. P., Gray, R. J. (1999), “A Proportional Hazards Model for the Subdistribution
of a Competing Risk," Journal of the American Statistical Association, Vol. 94, No. 446,
496-509.
[7] Goetghebeur, E. (2010), Survival Analysis, unpublished course, Ghent University.
[8] Link, C. L. (1984), “Confidence Intervals for the Survival Function Using Cox's
Proportional-Hazard Model with Covariates," Biometrics, Vol. 40, No. 3, 601-609.
[9] Karatzas, I., Shreve, S. E. (1998), Second Edition, Brownian Motion and Stochastic Cal-
culus, Springer.
[10] Klein, P. J., and Moeschberger, M. L. (1997), Survival Analysis: Techniques for Censored and Truncated Data, New York: Springer-Verlag.
[11] Little, R. J. A., and Rubin, D. B. (2002), Second Edition, Statistical Analysis with
Missing Data, New York: John Wiley.
[12] Othus, M., Li, Y., Tiwari, R.C. (2009), “A Class of Semiparametric Mixture Cure Survival
Models with Dependent Censoring," Journal of the American Statistical Association,
Vol. 104, No. 487, 1241-1250.
[13] Rubin, D. B. (1996), “Multiple Imputation After 18+ Years," Journal of the American
Statistical Association, Vol. 91, No. 434, 473-489.
[14] Schafer, J. L. (1997), Analysis of Incomplete Multivariate Data, Chapman & Hall, London.
[15] Schafer, J. L. (1999), “Multiple Imputation: a Primer", Statistical Methods in Medical
Research, 8, 3-15.
[16] Sy, J. P., Taylor, J. M. G. (2000), “Estimation in a Cox Proportional Hazards Cure
Model," Biometrics, 56, 227-236.
[17] Tsiatis, A. A. (1981), “A Large Sample Study of Cox's Regression Model," The Annals
of Statistics, Vol. 9, No. 1, 93-108.
[18] Tu, X. M., Meng, X. L., Pagano, M. (1993), “The AIDS Epidemic: Estimating Survival
after AIDS Diagnosis from Surveillance Data," Journal of the American Statistical
Association, Vol. 88, No. 421, 26-36.
[19] Visscher, A., Varewyck, M., Baert, K., Goetghebeur, E. (2010), Time to Ph.D. Degree
or Withdrawal: A Competing Risks Analysis, unpublished report, Consortium Stat-Gent,
Ghent University.
 

Download scriptie (2.19 MB)
Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2011