Übungsblatt 08

Intervallschätzung

  1. Erläutern Sie anhand der folgenden Graphik aus der Vorlesung, was ein hohes Konfidenzniveau bedeutet.

    KIs aus 80 unabhängig voneinader gezogenen Stichproben

    Falls man unendlich oft eine einfache Zufallsstichprobe der Größe n ziehen würde und in jeder dieser Stichproben jeweils das realisierte konkrete Konfidenzintervall berechnen würde, würden \((1 - \alpha) \cdot 100\%\) dieser Intervalle den wahren Wert des Parameters enthalten, falls \(1 - \alpha\) das Konfidenzniveau des zufälligen Konfidenzintervalls ist. Ist das Konfidenzniveau hoch, enthalten also viele der Intervalle den wahren Wert des Parameters. Dies ist in der Graphik für 80 Stichproben dargestellt: Nur zwei Intervalle (Nr. 15 & 19) enthalten den wahren Wert des Parameters nicht. In der Realität liegt uns nur eine einzige Stichprobe und daher nur ein einziges konkretes Konfidenzintervall vor. Ob dieses Intervall den wahren Wert tatsächlich enthält, können wir auch bei einem sehr hohen Konfidenzniveau nie wissen. Wir wissen bei einem hohen Konfidenzniveau aber, dass wir großes Pech gehabt haben müssten, falls unser konkretes Konfidenzintervall den wahren Parameter nicht enthält.

  2. Was versteht man unter einem approximativen Konfidenzniveau?

    Ein Konfidenzintervall weist ein approximatives Konfidenzniveau von \(1 - \alpha\) auf, falls sein tatsächliches Konfidenzniveau nicht genau \(1 - \alpha\) entspricht, sondern nur sehr nahe an diesem Wert liegt.

  3. Geben Sie jeweils die Formel für die Länge des konkreten Konfidenzintervalls für \(\pi\) und des konkreten Konfidenzintervalls für \(\mu\) an. Benennen Sie alle Größen, die in diesen Formeln vorkommen und erläutern Sie deren Einfluss auf die Länge des jeweiligen Intervalls. Hinweis: Die Länge eines Intervalls entspricht der Differenz von Ober- und Untergrenze.

    Länge des konkreten Konfidenzintervalls für \(\pi\):

    \[I\left( x_{1},\ldots,x_{n} \right) = \lbrack u,\ o\rbrack = \left\lbrack \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}},\overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} \right\rbrack\]

    \[o = \overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}}\]

    \[u = \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}}\]

    \[o - u = \overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} - \left( \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} \right) = 2 \cdot z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}}\]

    Die Länge des konkreten Konfidenzintervalls für \(\pi\) ist somit:

    \[2 \cdot z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}}\]

    Größen, die die Länge beeinflussen:

    • Das Quantil \(z_{1 - \frac{\alpha}{2}}\). Dieses hängt wiederum von \(\alpha\) und somit vom Konfidenzniveau \(1 - \alpha\) ab. Je höher das Konfidenzniveau, desto länger das Intervall.

    • Die Größe \(\overline{x}\left( 1 - \overline{x} \right)\). Je größer diese Größe, desto länger das Intervall.

    • Die Stichprobengröße n. Je größer diese, desto kürzer das Intervall.

    Länge des konkreten Konfidenzintervalls für \(\mu\):

    \[I\left( x_{1},\ldots,x_{n} \right) = \lbrack u,\ o\rbrack = \left\lbrack \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}},\overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} \right\rbrack\]

    \[o = \overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}}\]

    \[u = \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}}\]

    \[o - u = \overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} - \left( \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} \right) = 2 \cdot t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}}\]

    Die Länge des konkreten Konfidenzintervalls für \(\mu\) ist somit:

    \[2 \cdot t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}}\]

    Größen, die die Länge beeinflussen:

    • Das Quantil \(t_{1 - \frac{\alpha}{2}}\). Dieses hängt wiederum von \(\alpha\) und somit vom Konfidenzniveau \(1 - \alpha\) ab. Je höher das Konfidenzniveau, desto länger das Intervall.

    • Der Schätzwert \(s^{2}\) für den Parameter \(\sigma^{2}\). Je größer dieser Schätzwert, desto länger das Intervall.

    • Die Stichprobengröße n. Je größer diese, desto kürzer das Intervall.

  4. Sie interessieren sich für den Mittelwert des IQ in einer Population. Hierfür ziehen Sie eine einfache Zufallsstichprobe der Größe n = 5 und bestimmen bei allen gezogenen Personen den IQ mithilfe eines IQ-Tests:

    Person IQ
    1 95
    2 110
    3 120
    4 105
    5 100

    Berechnen Sie ein Konfidenzintervall für den Parameter \(\mu\) mit Konfidenzniveau 0.99 und interpretieren Sie dieses. Nutzen Sie hierfür die folgenden Tabellen:

    Werte der Verteilungsfunktion einer t-verteilten Zufallsvariable mit \(\nu = 3\) :

    t -10.21 -8.05 -6.99 -6.32 -5.84 -5.47 -5.18 -4.93 -4.72
    F(t) 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009

    Werte der Verteilungsfunktion einer t-verteilten Zufallsvariable mit \(\nu = 4\) :

    t -7.17 -5.95 -5.32 -4.91 -4.60 -4.37 -4.17 -4.01 -3.87
    F(t) 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009

    Werte der Verteilungsfunktion einer t-verteilten Zufallsvariable mit \(\nu = 5\) :

    t -5.89 -5.03 -4.57 -4.26 -4.03 -3.85 -3.70 -3.57 -3.46
    F(t) 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009

    Formel für das konkrete Konfidenzintervall für \(\mu\):

    \[I\left( x_{1},\ x_{2},\ \ldots,\ x_{n} \right) = \left\lbrack \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}},\overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} \right\rbrack\]

    Um dieses zu berechnen, benötigen wir \(n\), \(\overline{x}\), \(s^{2}\) und \(t_{1 - \frac{\alpha}{2}}\).

    \(n\) ist die Größe der Stichprobe, daher: \(n = 5\).

    \[\overline{x} = \frac{1}{n}\sum_{i = 1}^{n}x_{i} = \frac{95 + 110 + 120 + 105 + 100}{5} = 106\]

    \[s^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}\left( x_{i} - \overline{x} \right)^{2} = \frac{1}{4}\left( (95 - 106)^{2} + (110 - 106)^{2} + \ldots + (100 - 106)^{2} \right) = 92.5\]

    \(1 - \alpha = 0.99\)

    \(\alpha = 1 - 0.99 = 0.01\)

    \[\frac{\alpha}{2} = \frac{0.01}{2} = 0.005\]

    \[t_{1 - \frac{\alpha}{2}} = t_{1 - 0.005} = t_{0.995}\]

    \(t_{0.995}\) ist der Wert, für den \(F\left( t_{0.995} \right) = 0.995\) ist.

    Da \(\nu = n - 1 = 5 - 1 = 4\) ist, benötigen wir die zweite Tabelle.

    Leider können wir in dieser Tabelle \(t_{0.995}\) nicht ablesen, da dieser Wert in der Tabelle nicht angegeben ist.

    Wir wissen aber, dass aufgrund der Symmetrie der t-Verteilung

    \(t_{1 - \frac{\alpha}{2}} = - t_{\frac{\alpha}{2}}\)

    ist. In unserem Fall:

    \(t_{0.995} = - t_{0.005}\)

    \(t_{0.005}\) ist der Wert, für den \(F\left( t_{0.005} \right) = 0.005\) ist. Diesen Wert können wir in der zweiten Tabelle ablesen:

    \[t_{0.005} = - 4.60\]

    Somit ist

    \[t_{0.995} = - t_{0.005} = - ( - 4.60) = 4.60\]

    Einsetzen aller Werte in die Formel für das konkrete Konfidenzintervall:

    \[I\left( x_{1},\ x_{2},\ \ldots,\ x_{5} \right) = \left\lbrack \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}},\overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} \right\rbrack = \left\lbrack 106 - 4.60 \cdot \sqrt{\frac{92.5}{5}},106 + 4.60 \cdot \sqrt{\frac{92.5}{5}} \right\rbrack\]

    \[= \lbrack 86.21,\ 125.79\rbrack\]

    Die plausiblen Werte für den Parameter \(\mu\) und somit für den durchschnittlichen IQ in der Population liegen zwischen 86.21 und 125.79 IQ Punkten.

  5. Sie interessieren sich für die relative Häufigkeit von Angststörungen in einer Population. Hierfür ziehen Sie eine einfache Zufallsstichprobe der Größe n = 150. In dieser Stichprobe leiden 15 Personen an einer Angststörung. Berechnen Sie ein Konfidenzintervall für den Parameter \(\pi\) mit Konfidenzniveau 0.995 und interpretieren Sie dieses. Nutzen Sie hierfür die folgende Tabelle:

    Werte der Verteilungsfunktion einer standardnormalverteilten Zufallsvariable:

    z -3.09 -2.81 -2.58 2.33 2.58 2.81
    F(z) 0.001 0.0025 0.005 0.99 0.995 0.9975

    Formel für das konkrete Konfidenzintervall für \(\pi\):

    \[I\left( x_{1},\ x_{2},\ \ldots,\ x_{n} \right) = \left\lbrack \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}},\overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} \right\rbrack\]

    Um dieses zu berechnen, benötigen wir \(n\), \(\overline{x}\), und \(z_{1 - \frac{\alpha}{2}}\).

    \(n\) ist die Größe der Stichprobe, daher: \(n = 150\).

    \[\overline{x} = h(1) = \frac{15}{150} = 0.1\]

    \(1 - \alpha = 0.995\)

    \(\alpha = 1 - 0.995 = 0.005\)

    \[\frac{\alpha}{2} = \frac{0.005}{2} = 0.0025\]

    \[z_{1 - \frac{\alpha}{2}} = z_{1 - 0.0025} = z_{0.9975}\]

    \(z_{0.9975}\) ist der Wert, für den \(F\left( z_{0.9975} \right) = 0.9975\) ist, diesen Wert können wir in der Tabelle ablesen:

    \[z_{0.9975} = 2.81\]

    Einsetzen aller Werte in die Formel für das konkrete Konfidenzintervall:

    \[I\left( x_{1},\ x_{2},\ \ldots,\ x_{150} \right) = \left\lbrack \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}},\overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} \right\rbrack\]

    \[= \left\lbrack 0.1 - 2.81 \cdot \sqrt{\frac{0.1(1 - 0.1)}{150}},0.1 + 2.81 \cdot \sqrt{\frac{0.1(1 - 0.1)}{150}} \right\rbrack\]

    \[= \lbrack 0.03,\ 0.17\rbrack\]

    Die plausiblen Werte für den Parameter \(\pi\) und somit für die relative Häufigkeit von Angststörungen in der Population liegen zwischen 3% und 17%.

  1. Laden Sie den Datensatz herunter und lesen Sie ihn in R ein. Der Datensatz enthält die Körpergröße in cm und die Augenfarbe von n = 1000 Personen, die zufällig aus einer Population gezogen wurden (einfache Zufallsstichprobe). Sie können davon ausgehen, dass das Histogramm der Körpergröße in der Population durch die Wahrscheinlichkeitsdichtefunktion einer Normalverteilung approximiert werden kann.

    1. Berechnen Sie ein 0.95-Konfidenzintervall für die durchschnittliche Körpergröße in der Population. Interpretieren Sie dieses.

      Hinweis zum benötigten Code

      t.test(Variable, conf.level = gewünschtes Konfidenzniveau)

      library(DescTools) ## vorher installieren
      
      ## Daten einlesen. Nicht vergessen, davor das Arbeitsverzeichnis zu setzen!
      daten <- read.csv2('daten.csv')
      
      ## 0.95-KI Koerpergröße:
      t.test(daten$groesse, conf.level = 0.95)
      
          One Sample t-test
      
      data:  daten$groesse
      t = 538.18, df = 999, p-value < 2.2e-16
      alternative hypothesis: true mean is not equal to 0
      95 percent confidence interval:
       169.1151 170.3529
      sample estimates:
      mean of x 
        169.734 

      Als konkretes Konfidenzintervall für \(\mu\) ergibt sich:

      \[I\left( x_{1},\ x_{2},\ \ldots,\ x_{1000} \right) = \lbrack 169.12,\ 170.35\rbrack\] Die plausiblen Werte für den Parameter \(\mu\) und somit für die durchschnittliche Körpergröße in der Population liegen zwischen 169.12 und 170.35 cm.

    2. Berechnen Sie ein 0.95-Konfidenzintervall für die relative Häufigkeit der Augenfarbe Braun in der Population. Interpretieren Sie dieses.

      Hinweis zum benötigten Code

      library(DescTools) ## vorher installieren

      BinomCI(Absolute Häufigkeit der interessierenden Messwertausprägung, n, method = 'wald', conf.level = gewünschtes Konfidenzniveau)

      ## Aufgabe 6 b)
      
      ## 0.95-KI Augenfarbe Braun:
      table(daten$augenfarbe) ## absolute Häufigkeiten
      
       blau braun gruen 
        310   354   336 
      BinomCI(354, 1000, method = 'wald', conf.level = 0.95)
             est    lwr.ci    upr.ci
      [1,] 0.354 0.3243608 0.3836392

      Als konkretes Konfidenzintervall für \(\pi\) ergibt sich:

      \[I\left( x_{1},\ x_{2},\ \ldots,\ x_{1000} \right) = \lbrack 0.32,\ 0.38\rbrack\] Die plausiblen Werte für den Parameter \(\pi\) und somit für die relative Häufigkeit der Augenfarbe Braun in der Population liegen zwischen 32% und 38%.