[ Home | Vorige | Volgende ]

De data van Lotte zijn:

proefpersoon = c("A", "B", "C", "D")
NGT1 = c(53, 67, 42, 54)
NGT2 = c(30, 31, 27, 25)
tabel = data.frame (proefpersoon, NGT1, NGT2)
tabel
##   proefpersoon NGT1 NGT2
## 1            A   53   30
## 2            B   67   31
## 3            C   42   27
## 4            D   54   25

De getallen stellen het aantal fouten voor dat proefpersonen maken in NGT na de cursus NGT1 gevolgd te hebben (kolom “NGT1”) en na ook nog NGT2 gevolgd te hebben (kolom “NGT2”). Alle vier de proefpersonen maken minder fouten na NGT2, dus het lijkt erop dat het volgen van NGT2 een positieve invloed heeft. Om de generaliseerbaarheid te toetsen, doen we een t-toets op de vooruitgang:

vooruitgang = tabel$NGT1 - tabel$NGT2
vooruitgang
## [1] 23 36 15 29
t.test (vooruitgang)
## 
##  One Sample t-test
## 
## data:  vooruitgang
## t = 5.7729, df = 3, p-value = 0.01033
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  11.55478 39.94522
## sample estimates:
## mean of x 
##     25.75

De betekenis van alle getallen, en de manier om ze “met de hand” te berekenen, is als volgt. De vooruitgang van de populatie van mogelijke deelnemers aan de cursussen NGT wordt geschat uit de gemiddelde geobserveerde vooruitgang van de vier proefpersonen:

m = mean (vooruitgang)
m
## [1] 25.75

Een schatting van de standaarddeviatie van de vooruitgang is

s = sd (vooruitgang)
s
## [1] 8.920949

De nulhypothese is echter dat het volgen van NGT2 geen invloed heeft op het aantal fouten. Het veronderstelde gemiddelde effect van NGT2 onder de nulhypothese is daarom 0. De vraag is nu: is het geobserveerde gemiddelde effect van NGT2 van 25.75 significant verschillend van deze 0? De t-toets zegt ja, want de p-waarde van 0.01 ligt onder de gebruikelijke grens van 0.05: het is een significante p-waarde. Deze p-waarde van 0.01033 betekent dat als de nulhypothese (geen invloed van NGT2) waar was, de kans om (gegeven de geschatte standaarddeviatie en het aantal deelnemers) minstens zo’n hoge afwijking van de 0 te vinden als dat we gevonden hebben, 0.01033 zou zijn.

We kunnen deze kans precies berekenen uit het geschatte gemiddelde m, de geschatte standaarddeviatie s, en het aantal deelnemers, als volgt.

Uit de geschatte standaarddeviatie en het aantal deelnemers kunnen we een “standaardfout” se schatten door de standaarddeviatie te delen door de wortel van het aantal deelnemers:

se = s / sqrt (length (vooruitgang))
se
## [1] 4.460475

Dat is precies de helft van de geschatte standaarddeviatie (logisch, want de wortel uit 4 is 2).

Wat is nu deze standaardfout? Het is een schatting van de nauwkeurigheid waarmee het geobserveerde effect het ware effect schat. Dus het ware effect zal waarschijnlijk zo’n 4.46 afliggen van het geobserveerde effect van 25.75. Als vuistregel kun je stellen dat het ware effect zal liggen tussen 25.75 plus of min tweemaal de standaardfout, dus tussen +25.75–2*4.46 = +16.83 en +25.75+2*4.46 = +34.67 (hier klopt het niet goed, omdat er zo weinig deelnemers zijn; zie hieronder).

(De ware standaardfout is een eigenschap van een steekproefverdeling, namelijk de standaarddeviatie van steekproefgemiddeldes. Als de gemiddelde schoenmaat in de populatie 40 is, en de ware standaarddeviatie in de populatie is 2, dan zal de geobserveerde standaarddeviatie tussen een heleboel steekproeven van 1 deelnemer, ongeveer 2 zijn. Als je steekproeven van 100 deelnemers neemt, zullen de gemiddeldes van die steekproeven vlak bij elkaar liggen: de geobserveerde standaarddeviatie van die gemiddeldes is ongeveer 0.2, ofwel 2 gedeeld door de wortel van 100.)

Hoeveel standaardfouten ligt het geobserveerde effect boven de 0?

t = m / se
t
## [1] 5.772928

Dat is de t-waarde. Als je een heleboel steekproeven doet, en de nulhypothese is waar, volgen de gevonden t-waarden een verdeling die lijkt op de normale verdeling, en je kunt dan ook zeggen dat als t boven de 2 ligt (of onder de –2), de nulhypothese verworpen kan worden (ofwel het effect is significant). De nu gevonden t-waarde ligt dik boven de 2, dus de nulhypothese kan waarschijnlijk worden verworpen, maar we rekenen het even precies uit, want het aantal deelnemers is hier wel erg laag, en dan gaat de t-verdeling niet zo vlot naar 0 als de normale verdeling.

De kans dat als de nulhypothese waar is, een gevonden t-waarde minstens 5.772928 is, is bij 4 deelnemers

pt (5.772928, df = 3, lower.tail=FALSE)
## [1] 0.005166794

Dat is nog niet genoeg, want je wilt dat de p-waarde de kans uitdrukt om onder de nulhypothese een minstens een zo grote afwijking van 0 te vinden als dat je gevonden hebt. Je moet dus de kans om een kleinere t-waarde dan –5.772928 te vinden erbij tellen, en die is net zo groot:

pt (-5.772928, df = 3, lower.tail=TRUE)
## [1] 0.005166794

Een algemene formule om uit een t-waarde een p-waarde te vinden is dus

t = 5.772928
2 * pt (abs(t), df = 3, lower.tail=FALSE)
## [1] 0.01033359

en dat is dezelfde p-waarde die boven al in de t-toets gevonden werd.

Het 95%-betrouwbaarheidsinterval is de verzameling van ware gemiddelden waarmee de observaties niet te onwaarschijnlijk worden. Dit betrouwbaarheidsinterval wordt als volgt gevonden:

m + qt (0.025, df=3) * se
## [1] 11.55478
m + qt (0.975, df=3) * se
## [1] 39.94522

Dat zijn dezelfde getallen als boven in de t-toets. Het 2.5%-quantiel en het 97.5%-quantiel van de t-verdeling liggen meestal op ongeveer –2 en +2, maar hier, vanwege het lage aantal proefpersonen, liggen ze op ongeveer –3 en +3:

qt (0.025, df=3); qt (0.975, df=3)
## [1] -3.182446
## [1] 3.182446

Samenvattend: de p-waarde ligt onder de 0.05 en het 95%-betrouwbaarheidsinterval bevat niet 0. Deze twee statements zijn equivalent (voor Gaussische modellen zoals hier). Beide statements betekenen ze dat de nulhypothese verworpen kan worden, en dat het positieve effect van NGT2 gegeneraliseerd kan worden naar de hele populatie van NGT-studenten. De conclusie kan dus worden “gemiddeld vermindert het volgen van NGT2 het aantal gemaakte fouten dat een NGT-student maakt.”

[ Home | Vorige | Volgende ]