9 Inferenz für nominale Daten

In diesem Kapitel lernen wir, wie Häufigkeiten von qualitativ-nominalen Variablen statistisch verglichen werden. Für die Analyse qualitativer Daten existieren zahlreiche statistische Werkzeuge, von denen hier nur eine kleine Auswahl behandelt wird.

9.1 Lernziele

  1. Verwende einen \(\chi^2\)-Test, wenn die Unabhängigkeit von zwei nominalen Variablen geprüft werden soll:
  • \(H_0\): Die zwei Variablen sind unabhängig.
  • \(H_A\): Die zwei Variablen sind abhängig.
  1. Berechne die erwarteten Werte in Kreuztabellen als

\[E = \frac{Zeilensumme \times Spaltensumme}{Total}\]

  1. Berechne die Anzahl Freiheitsgrade der \(\chi^2\)-Verteilung als \(df = (Z-1)\times(S-1)\), wobei Z die Anzahl Zeilen und S die Anzahl Spalten darstellt.

9.2 Der \(\chi^2\)-Test

Der \(\chi^2\)-Test ist einer der ältesten Hypothesentests. Er wurde um 1900 von Karl Pearson entwickelt und später von Sir Ronald Fisher verfeinert. Der \(\chi^2\)-Test prüft, ob eine beobachtete Häufigkeitsverteilung einer nominalen Variable einer erwarteten Verteilung entspricht.

Beispiel: Hatten die Eltern von Kindern mit Allergien selber häufiger Allergien als die Eltern von Kindern ohne Allergien? Für diese Fragestellung wurde eine Zufallsstichprobe von 38 Kindern und deren Eltern zu ihrem Allergiestatus befragt. Codiert wurden die Daten mit 0 = keine Allergie und 1 = Allergie. (Holbreich et al. 2012)

9.2.1 Hypothesen und Signifikanzniveau

\(H_0\): Es besteht keine Beziehung zwischen einer Allergie bei Kindern und deren Eltern. Die relative Häufigkeit der Kinder, bei denen mindestens ein Elternteil eine Allergie hat(te), ist in den Populationen der Allergiker und der Nichtallergiker gleich. Wir nehmen also an: Die Wahrscheinlichkeit, dass mindestens ein Elternteil eine Allergie hatte, hat keinen Zusammenhang damit, ob das befragte Kind selber eine Allergie hat oder nicht.

\(H_A\): Es besteht eine Beziehung zwischen einer Allergie bei Kinderen und deren Eltern. Die relative Häufigkeit der Kinder, bei denen mindestens ein Elternteil eine Allergie hatte, unterscheidet sich zwischen den Populationen der Allergiker und der Nichtallergiker. Wir nehmen also an: Die Wahrscheinlichkeit, dass mindestens ein Elternteil eine Allergie hat(te), hängt davon ab, ob die befragte Person selber eine Allergie hat oder nicht.

Als Entscheidungsgrenze legen wir auch in diesem Fall ein Signifikanzniveau von \(\alpha = 0.05\) fest.

Für die Darstellung der Ergebnisse eignet sich eine Vierfeldertafel (Kreuztabelle, Kontingenztabelle):

## 
##  CONTINGENCY TABLES
## 
##  Contingency Tables                                             
##  -------------------------------------------------------------- 
##    kind                   0            1            Total       
##  -------------------------------------------------------------- 
##    0        Observed             17            5           22   
##             % of total     44.73684     13.15789     57.89474   
##                                                                 
##    1        Observed              7            9           16   
##             % of total     18.42105     23.68421     42.10526   
##                                                                 
##    Total    Observed             24           14           38   
##             % of total     63.15789     36.84211    100.00000   
##  -------------------------------------------------------------- 
## 
## 
##  <U+03C7>² Tests       
##  -------------- 
##         Value   
##  -------------- 
##    N       38   
##  --------------
  • 17 (44.7%) Eltern, deren Kinder keine Allergie haben, sind keine Allergiker:innen.
  • 7 (18.4%) Eltern, deren Kinder eine Allergie haben, sind keine Allergiker:innen.
  • 5 (13.2%) Eltern, deren Kinder keine Allergie haben, sind Allergiker:innen.
  • 14 (36.8%) Eltern, deren Kinder eine Allergie haben, sind Allergiker:innen.

Die Fälle, in denen Kinder und deren Eltern den gleichen Allergiestatus (beide Allergie oder beide keine Allergie) haben, machen zusammen über 78% der Fälle aus. Dies könnte ein Hinweis sein, dass eine Beziehung zwischen dem Allergiestatus von Kindern und deren Eltern besteht.

Als nächstes möchten wir erfahren, ob die beobachteten Daten den Erwartungen unter der Nullhypothese entsprechen. Dazu müssen wir die erwarteten Werte berechnen.

9.2.2 Berechnen der erwarteten Werte unter der Nullhypothese

Die Berechnung erfolgt am einfachsten, indem man die Zeilen- und Spaltensummen multipliziert und durch das Gesamttotal dividiert.

Schema:

Spalte A Spalte B
Zeile A \(\frac{Zeilensumme A \times Spaltensumme A}{Total}\) \(\frac{Zeilensumme A \times Spaltensumme B}{Total}\) Zeilensumme A
Zeile B \(\frac{Zeilensumme B \times Spaltensumme A}{Total}\) \(\frac{Zeilensumme B \times Spaltensumme B}{Total}\) Zeilensumme B
Spaltensumme A Spaltensumme B Total

Übungshalber kann man das von Hand machen, einfacher geht es aber mit R/jamovi

## 
##  CONTINGENCY TABLES
## 
##  Contingency Tables                                         
##  ---------------------------------------------------------- 
##    kind                 0           1            Total      
##  ---------------------------------------------------------- 
##    0        Observed          17            5          22   
##             Expected    13.89474     8.105263    22.00000   
##                                                             
##    1        Observed           7            9          16   
##             Expected    10.10526     5.894737    16.00000   
##                                                             
##    Total    Observed          24           14          38   
##             Expected    24.00000    14.000000    38.00000   
##  ---------------------------------------------------------- 
## 
## 
##  <U+03C7>² Tests       
##  -------------- 
##         Value   
##  -------------- 
##    N       38   
##  --------------

Der Vergleich der erwarteten mit den beobachteten Werten unterstützt unsere bereits gemachte Vermutung: Die beobachteten Fälle, bei denen die Eltern den gleichen Allergiestatus haben wie die Kinder sind deutlich grösser, als wir sie unter der Nullhypothese erwarten würden.

9.2.3 Voraussetzungen

Um einen \(\chi^2\)-Test durchzuführen müssen folgende Voraussetzungen erfüllt sein:

  • Die erwarteten Häufigkeiten in jeder Zelle der Tabelle müssen grösser als 5 sein. Ist diese Bedingung nicht erfüllt, kann der Fisher’s exakter Test verwendet werden.
  • Der Test darf nur auf absolute Häufigkeiten und niemals auf relative Häufigkeiten angewendet werden.
  • Die Daten stammen aus einer Zufallsstichprobe.

Um eine Entscheidung zu treffen, ob die Beziehung statistisch signifikant ist müssen wir die Testgrösse \(\chi^2\) berechnen. Die Formel dazu ist:

\[\chi^2 = \sum_{i=1}^n \frac{(O_i - E_i)^2}{E_i}\]

Das sieht für manche beängstigend aus, aber wir machen das hier nur, um das Prinzip zu zeigen: \(O\) steht für beobachtete Werte, \(E\) für erwartete Werte. Jetzt setzen wir unsere Werte aus der Tabelle oben in die Formel ein:

\[\chi^2 = \frac{(17-13.9)^2}{13.9} + \frac{(5-8.1)^2}{8.1} + \frac{(7-10.1)^2}{10.1} + \frac{(9-5.9)^2}{5.9} \approx 4.46\]

Unsere Testgrösse ist \(\chi^2 = 4.46\). Wie für die bereits bekannten Testgrössen \(z\) und \(t\) existiert auch für \(\chi^2\) eine spezifische Wahrscheinlichkeitsverteilung, eben die \(\chi^2\)-Verteilung. Es würde zu weit führen, im Detail auf diese Verteilung einzugehen, deren Form wie wie bei der t-Verteilung nur durch die Anzahl Freiheitsgrade df definiert ist. Anhand von Tabellen oder mit R/jamoviist es möglich, die Wahrscheinlichkeit für unseren \(\chi^2\)-Wert zu berechnen. In R/jamovi erfolgt diese Berechnung mit der Funktion pchisq(). Die Freiheitsgrade in einer \(n \times m\)-Tabelle werden berechnet als \(df = (n - 1)\times(m-1)\), im vorliegenden Fall also: \(df = (2-1)\times(2-1) = 1\).

Chi-Quadrat-Verteilung für df = 1

Abbildung 9.1: Chi-Quadrat-Verteilung für df = 1

Ohne komplizierte Berechnungen kann der Test in jamovidurchgeführt werden und ergibt:

## 
##  CONTINGENCY TABLES
## 
##  Contingency Tables                                         
##  ---------------------------------------------------------- 
##    kind                 0           1            Total      
##  ---------------------------------------------------------- 
##    0        Observed          17            5          22   
##             Expected    13.89474     8.105263    22.00000   
##                                                             
##    1        Observed           7            9          16   
##             Expected    10.10526     5.894737    16.00000   
##                                                             
##    Total    Observed          24           14          38   
##             Expected    24.00000    14.000000    38.00000   
##  ---------------------------------------------------------- 
## 
## 
##  <U+03C7>² Tests                              
##  ------------------------------------- 
##          Value       df    p           
##  ------------------------------------- 
##    <U+03C7>²    4.473688     1    0.0344206   
##    N           38                      
##  -------------------------------------

9.2.4 Interpretation des \(\chi^2\)-Tests

Die Wahrscheinlichkeit für \(\chi^2 = 4.47\) und \(df = 1\) ist \(p = 0.034\). Da der p-Wert kleiner als das Signifikanzniveau \(\alpha = 0.05\) ist, verwerfen wir die Nullhypothese zu Gunsten der Alternativhypothese.

Schlussfolgerung:

Untersucht wurde die Frage, ob eine Beziehung zwischen dem Allergiestatus von Kindern und dem Allergiestatus ihrer Eltern besteht. Anhand einer Zufallsstichprobe von 38 Kindern und deren Eltern konnte ein signifikanter Zusammenhang festgestellt werden: Kinder von Eltern ohne Allergien leiden eher seltener als erwartet an Allergien und Kinder von Eltern mit Allergien leiden eher häufiger als erwartet an Allergien, \(\chi^2(1)\) = 4.47, p = 0.034.

Hinweis: Bei einer Vierfeldertafel (2 Zeilen und 2 Kolonnen) ist der Zusammenhang zwischen der Zeilen- und der Kolonnenvariable statistisch signifikant auf dem Niveau von 5%, wenn der \(\chi^2\)-Wert grösser als 3.84 ist. Früher musste der exakte p-Wert in Tabellen der \(\chi^2\)-Verteilung nachgeschaut werden, heute macht das der PC.

9.3 Referenzen

Çetinkaya-Rundel, Mine, David Diez, Andrew Bray, Albert Y. Kim, Ben Baumer, Chester Ismay, Nick Paterno, and Christopher Barr. 2022. Openintro: Data Sets and Supplemental Functions from OpenIntro Textbooks and Labs. https://CRAN.R-project.org/package=openintro.
Dietz, David M, Christpher D Barr, and Mine Cetinkaya-Rundel. 2017. OpenIntro Statistics 3rd Edition. openintro.org. https://openintro.org.
Holbreich, Mark, Jon Genuneit, Juliane Weber, Charlotte Braun-Fahrländer, Marco Waser, and Erika Mutius. 2012. “Amish Children Living in Northern Indiana Have a Very Low Prevalence of Allergic Sensitization.” The Journal of Allergy and Clinical Immunology 129 (April): 1671–73. https://doi.org/10.1016/j.jaci.2012.03.016.
Navarro, Danielle J., and David R. Foxcroft. 2019. Learning Statistics with Jamovi: A Tutorial for Psychology Students and Other Beginners. https://doi.org/10.24384/hgc3-7p15.
Ostelo, R. W., and H. C. de Vet. 2005. “Clinically Important Outcomes in Low Back Pain.” Best Practice & Research. Clinical Rheumatology 19: 593–607. https://doi.org/10.1016/j.berh.2005.03.003.
R Core Team. 2022. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
Reeves, S., and I. Bernstein. 2006. “Effects of Maternal Tobacco-Smoke Exposure on Fetal Growth and Neonatal Size.” Expert Review of Obstetrics & Gynecology 6 (3): 719–30. https://doi.org/10.1586/17474108.3.6.719.
The Jamovi Project. 2021. jamovi. https://www.jamovi.org/.
Wickham, Hadley. 2014. “Tidy Data.” Journal of Statistical Software 59 (10): 1–23. https://doi.org/10.18637/jss.v059.i10.
Xie, Yihui. 2022. Bookdown: Authoring Books and Technical Documents with r Markdown. https://CRAN.R-project.org/package=bookdown.

References

Holbreich, Mark, Jon Genuneit, Juliane Weber, Charlotte Braun-Fahrländer, Marco Waser, and Erika Mutius. 2012. “Amish Children Living in Northern Indiana Have a Very Low Prevalence of Allergic Sensitization.” The Journal of Allergy and Clinical Immunology 129 (April): 1671–73. https://doi.org/10.1016/j.jaci.2012.03.016.