[ Home | Vorige | Volgende ]

We willen kijken hoe goed Engelse en Deense leerders van het Nederlands zijn in de woordvolgorde van Nederlandse bijzinnen. Het hoofdzin “jij leest een boek” heeft dezelfde volgorde van zinsdelen in het Nederlands, Engels en Deens, maar in de bijzin “dat jij een boek leest” is de volgorde anders, terwijl de Engelsen en Denen eventuele, conform hun eigen taal, “dat jij leest een boek” zouden kunnen zeggen. Een onderzoeker veronderstelt evenwel dat Denen meer succes dan Engelsen zouden kunnen hebben met de Nederlandse bijzinvolgorde, omdat Denen, in tegenstelling tot Engelsen, wel degelijk gewend tussen woordvolgordeverschillen in (andere) zinnen: een Deen heeft de volgorde “jij leest niet een boek” in een hoofdzin, maar “dat jij niet leest een boek” in een bijzin. Om het eventuele verschil tussen Engelsen en Denen te vinden, nodigt de onderzoeker 10 sprekers uit elke groep uit en laat ze een bijzin uitspreken. De volgende tabel toont welke deelnemers de correcte Nederlandse volgorde hadden (0 = fout, 1 = goed):

moedertaal = c(rep ("Engels", 10), rep ("Deens", 10))
correct = c(0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
            1, 1, 0, 0, 1, 1, 0, 1, 0, 1)
tabel = data.frame (moedertaal, correct)
tabel
##    moedertaal correct
## 1      Engels       0
## 2      Engels       0
## 3      Engels       1
## 4      Engels       0
## 5      Engels       0
## 6      Engels       0
## 7      Engels       0
## 8      Engels       1
## 9      Engels       0
## 10     Engels       0
## 11      Deens       1
## 12      Deens       1
## 13      Deens       0
## 14      Deens       0
## 15      Deens       1
## 16      Deens       1
## 17      Deens       0
## 18      Deens       1
## 19      Deens       0
## 20      Deens       1

Als we willen weten of de Denen beter zijn dan de Engelsen, zijn we gewend een t-toets te doen:

options (digits = 7)
t.test (formula = correct ~ moedertaal, data = tabel, var.equal=T)
## 
##  Two Sample t-test
## 
## data:  correct by moedertaal
## t = 1.8974, df = 18, p-value = 0.07394
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.04291326  0.84291326
## sample estimates:
##  mean in group Deens mean in group Engels 
##                  0.6                  0.2

Ofwel een lineaire regressie:

summary (lm (formula = correct ~ moedertaal, data = tabel))
## 
## Call:
## lm(formula = correct ~ moedertaal, data = tabel)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##   -0.6   -0.2   -0.2    0.4    0.8 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        0.6000     0.1491   4.025 0.000794 ***
## moedertaalEngels  -0.4000     0.2108  -1.897 0.073940 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4714 on 18 degrees of freedom
## Multiple R-squared:  0.1667, Adjusted R-squared:  0.1204 
## F-statistic:   3.6 on 1 and 18 DF,  p-value: 0.07394

In beide gevallen dus een p-waarde van 0.074. Maar het kan beter, want de afhankelijke variabele is niet normaal maar binomiaal verdeeld.

De methode heet logistische regressie. Wat gefit wordt is de logaritme van de odds ratio: \[ \ln \frac{P(goed)}{P(fout)}≈b_0+b_1 x_i \] waar \(x_i\) 0 is voor Denen en 1 voor Engelsen (alfabetische volgorde).

Van de Denen hebben er 6 het goed en 4 het fout, dus een odds van 6/4 = 1.5, en van de Engelsen hebben er 2 het goed en 8 het fout, dus een odds van 2/8 = 0.25. De odds ratio tussen Denen en Engelsen is dus 1.5/0.25 = 6 (en tussen Engelsen en Denen is die het omgekeerde: 0.25/1.5 = 0.16667). De nulhypothese is dat Denen en Engelsen niet verschillen, dus dat hun werkelijke odds ratio 1 is. De vraag is nu: verschilt deze 6 significant van 1?

Het R-commando is niet lm maar glm, voor “generalized linear model”, en we moeten ook nog expliciet zeggen dat de data binomiaal zijn:

summary (glm (formula = correct ~ moedertaal,
    data = tabel, family = "binomial"))
## 
## Call:
## glm(formula = correct ~ moedertaal, family = "binomial", data = tabel)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.3537  -0.6681  -0.6681   1.0108   1.7941  
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)  
## (Intercept)        0.4055     0.6455   0.628   0.5299  
## moedertaalEngels  -1.7918     1.0206  -1.756   0.0792 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 26.920  on 19  degrees of freedom
## Residual deviance: 23.468  on 18  degrees of freedom
## AIC: 27.468
## 
## Number of Fisher Scoring iterations: 4

De p-waarde ligt dichtbij die van de lineaire regressiemethode. Dat komt doordat de proporties (60% en 20%) niet zo heel dicht bij de 0 of de 1 liggen. Omdat p = 0.079 > 0.05 kunnen we op grond van deze data niet concluderen dat Denen het beter doen dan Engelsen. Het lijkt wel die kant op te gaan, dus het lijkt raadzaam het experiment nog eens over te doen met bijvoorbeeld 30 (nieuwe) sprekers per groep, of meer precisie te creëren door elke proefpersoon meer dan één zin te laten zeggen.

Overigens hadden we bovenstaande vraag ook via een \(\chi^2\)-toets kunnen stellen:

chisq.test (cbind (c(6, 4), c(2, 8)))
## Warning in chisq.test(cbind(c(6, 4), c(2, 8))): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  cbind(c(6, 4), c(2, 8))
## X-squared = 1.875, df = 1, p-value = 0.1709
fisher.test (cbind (c(6, 4), c(2, 8)))
## 
##  Fisher's Exact Test for Count Data
## 
## data:  cbind(c(6, 4), c(2, 8))
## p-value = 0.1698
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   0.6026805 79.8309210
## sample estimates:
## odds ratio 
##   5.430473

Puntschatting van de effectgrootte. We willen nu een schatting maken van de effectgrootte: hoeveel beter zijn Denen dan Engelsen? Het getal -1.792 (de puntschatting van de coëfficiënt van de factor moedertaal in het model) betekent dat het model schat dat Engelsen exp(-1.792) = 0.1666 keer zo goed zijn als Denen, oftewel Denen exp(1.792) = 6 keer zo goed als Engelsen. Niet toevallig is dit precies de odds ratio tussen Denen en Engelsen die we boven met de hand uitrekenden.

Betrouwbaarheidsinterval van de effectgrootte. De schatting van 6.0 is maar één getal; de ware odds ratio tussen Denen en Engelsen kan hoger of lager zijn. Om te kijken met welke ware odds ratios de geobserveerde data compatibel zijn, berekenen we het betrouwbaarheidsinterval van de coëfficiënt van de factor moedertaal:

model = glm (formula = correct ~ moedertaal, data = tabel, family = "binomial")
confint (model)
## Waiting for profiling to be done...
##                       2.5 %     97.5 %
## (Intercept)      -0.8475084 1.76940950
## moedertaalEngels -4.0310787 0.09460363

Het 95%-betrouwbaarheidsinterval van de coëfficiënt van moedertaal loopt dus van -4.0310787 tot 0.09460363, dus het 95%-betrouwbaarheidsinterval van de odds ratio tussen Denen en Engelsen loopt van exp(-0.09460363) = 0.910 tot exp(4.0310787) = 56.3. In dit interval ligt de 1 besloten, maar dat wisten we al, want de schatting van 6.0 lag niet significant boven de 1 (p > 0.05).

[ Home | Vorige | Volgende ]