[1] 0.055339
Übungsaufgaben
False Discovery Rate und Annahmen statistischer Verfahren
Die hier veröffentlichten Übungsaufgaben sind brandneu und deshalb noch nicht auf Herz und Nieren überprüft. Sollten Sie Fehler entdecken, geben Sie uns bitte unbedingt eine Rückmeldung an philipp.sckopke(at)psy.lmu.de, damit wir so bald wie möglich eine verbesserte Version online stellen können.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.005\) und eine Power von \(1 - \beta = 0.95\) aufweisen. Die Basisrate sei \(\rho = 0.8\).
Was bedeutet eine Basisrate von \(\rho = 0.8\) inhaltlich?
LösungDass 80% der überprüften Nullhypothesen und 20% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.005 \cdot 0.8}{0.005 \cdot 0.8 + 0.95 \cdot (1 - 0.8)} \approx 0.021\]
Im Durchschnitt wären 2.1% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.05\) und eine Power von \(1 - \beta = 0.3\) aufweisen. Die Basisrate sei \(\rho = 0.2\).
Was bedeutet eine Basisrate von \(\rho = 0.2\) inhaltlich?
LösungDass 20% der überprüften Nullhypothesen und 80% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.05 \cdot 0.2}{0.05 \cdot 0.2 + 0.3 \cdot (1 - 0.2)} \approx 0.04\]
Im Durchschnitt wären 4% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.5\) und eine Power von \(1 - \beta = 0.95\) aufweisen. Die Basisrate sei \(\rho = 0.5\).
Was bedeutet eine Basisrate von \(\rho = 0.5\) inhaltlich?
LösungDass 50% der überprüften Nullhypothesen und 50% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.5 \cdot 0.5}{0.5 \cdot 0.5 + 0.95 \cdot (1 - 0.5)} \approx 0.345\]
Im Durchschnitt wären 34.5% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.005\) und eine Power von \(1 - \beta = 0.7\) aufweisen. Die Basisrate sei \(\rho = 0.8\).
Was bedeutet eine Basisrate von \(\rho = 0.8\) inhaltlich?
LösungDass 80% der überprüften Nullhypothesen und 20% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.005 \cdot 0.8}{0.005 \cdot 0.8 + 0.7 \cdot (1 - 0.8)} \approx 0.028\]
Im Durchschnitt wären 2.8% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.5\) und eine Power von \(1 - \beta = 0.9\) aufweisen. Die Basisrate sei \(\rho = 0.7\).
Was bedeutet eine Basisrate von \(\rho = 0.7\) inhaltlich?
LösungDass 70% der überprüften Nullhypothesen und 30% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.5 \cdot 0.7}{0.5 \cdot 0.7 + 0.9 \cdot (1 - 0.7)} \approx 0.565\]
Im Durchschnitt wären 56.5% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.005\) und eine Power von \(1 - \beta = 0.55\) aufweisen. Die Basisrate sei \(\rho = 0.8\).
Was bedeutet eine Basisrate von \(\rho = 0.8\) inhaltlich?
LösungDass 80% der überprüften Nullhypothesen und 20% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.005 \cdot 0.8}{0.005 \cdot 0.8 + 0.55 \cdot (1 - 0.8)} \approx 0.035\]
Im Durchschnitt wären 3.5% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.005\) und eine Power von \(1 - \beta = 0.85\) aufweisen. Die Basisrate sei \(\rho = 0.6\).
Was bedeutet eine Basisrate von \(\rho = 0.6\) inhaltlich?
LösungDass 60% der überprüften Nullhypothesen und 40% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.005 \cdot 0.6}{0.005 \cdot 0.6 + 0.85 \cdot (1 - 0.6)} \approx 0.009\]
Im Durchschnitt wären 0.9% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Sie betrachten eine Reihe von unabhängigen statistischen Hypothesentests, die alle ein Signifikanzniveau von \(\alpha = 0.005\) und eine Power von \(1 - \beta = 0.6\) aufweisen. Die Basisrate sei \(\rho = 0.1\).
Was bedeutet eine Basisrate von \(\rho = 0.1\) inhaltlich?
LösungDass 10% der überprüften Nullhypothesen und 90% der überprüften Alternativhypothesen wahr sind.
Berechnen und interpretieren Sie die FDR.
Lösung\[FDR = \frac{\alpha \cdot \rho}{\alpha \cdot \rho + (1 - \beta) \cdot (1 - \rho)} = \frac{0.005 \cdot 0.1}{0.005 \cdot 0.1 + 0.6 \cdot (1 - 0.1)} \approx 0.001\]
Im Durchschnitt wären 0.1% der Entscheidungen für die Alternativhypothese tatsächlich Fehlentscheidungen.
Falls Sie in den folgenden Aufgaben ein Konfidenzintervall berechnen, wählen Sie ein Konfidenzniveau von 0.95. Falls Sie einen Hypothesentest durchführen, wählen Sie ein Signifikanzniveau von 0.005. Sie können davon ausgehen, dass die weiteren Annahmen der inferenzstatistischen Verfahren (z.B. Approximation der Histogramme stetiger Variablen in der Population durch die Dichtefunktion einer Normalverteilung, und Varianzgleichheit im Falle zweier unabhängiger Populationen) gegeben sind.
Sie interessieren sich dafür, ob sich zwei Populationen in ihrem durchschnittlichen IQ unterscheiden. Sie ziehen jeweils eine einfache Zufallsstichprobe aus den beiden Populationen.
Sie erhalten aus den beiden Stichproben die folgenden Daten:
\(n_1 = 13\)
\(n_2 = 14\)\(\overline{x}_1 = 52.08\)
\(\overline{x}_2 = 44.93\)\(s^2_{emp_1} = 59.46\) \(s^2_{emp_2} = 97.21\)
\(s^2_1 = 64.41\) \(s^2_2 = 104.69\)
Führen Sie das für die Beantwortung dieser Frage notwendige inferenzstatistische Verfahren in R durch. Interpretieren Sie das Ergebnis.
LösungDa wir uns für die Hypothesen \[ \begin{align*} H_0: \mu_{IQ\_Gruppe1}-\mu_{IQ\_Gruppe2}=0 \\ H_1: \mu_{IQ\_Gruppe1}-\mu_{IQ\_Gruppe2}\neq 0 \end{align*} \]
interessieren und zwei unabhängige Stichproben gezogen haben, wählen wir einen ungerichteten Zweistichproben t-Test für unabhängige Stichproben mit der Teststatistik \(T = \frac{(\overline{X}_1 - \overline{X}_2) - \mu_0}{\sqrt{\frac{S^2_{pool}}{n_1} + \frac{S^2_{pool}}{n_2}}}\).
Gepoolte Varianzschätzung:
\(s^2_{pool} = \frac{(n_1 - 1) \cdot s^2_1 + (n_2 - 1) \cdot s^2_2}{n_1 + n_2 - 2}= \frac{(13 - 1) \cdot 64.41 + (14 - 1) \cdot 104.69}{13 + 14 - 2}= 85.36\)
Teststatistik:
\(t = \frac{(\overline{x}_1 - \overline{x}_2) - \mu_0}{\sqrt{\frac{s^2_{pool}}{n_1} + \frac{s^2_{pool}}{n_2}}} = \frac{(52.08 - 44.93) - \mu_0}{\sqrt{\frac{85.36}{13} + \frac{85.36}{14}}} = 2.01\)
\(p\)-Wert bei ungerichteter Hypothese:
\(P(T \leq -|t| \text{ oder } T \geq |t|) = 2 \cdot P(T \leq - |t|) = 2 \cdot F(-|t|) = 2 \cdot F(-|2.01|)\)
2 * pt(-2.01, df = 25)
Der p-Wert ist mit \(p =\) 0.055339 größer als das Signifikanzniveau \(\alpha=0.005\). Wir entscheiden uns daher für die \(H_{0}\) und somit dafür, dass sich die beiden Populationen in ihrem durchschnittlichen IQ nicht unterscheiden.
Sie interessieren sich dafür, wie groß der Anteil von Personen, die regelmäßig Sport treiben an den unter Depression leidenden Personen ist. Sie ziehen eine einfache Zufallsstichprobe der Größe \(n = 400\) aus der Population der Depressiven. In Ihrer Stichprobe befinden sich 78 Personen, die regelmäßig Sport treiben. Beantworten Sie diese Forschungsfrage anhand des passenden statistischen Verfahrens.
LösungFormel für das konkrete Konfidenzintervall für \(\pi\):
\[I\left( x_{1},\ x_{2},\ \ldots,\ x_{n} \right) = \left\lbrack \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}},\overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} \right\rbrack\]
Um dieses zu berechnen, benötigen wir \(n\), \(\overline{x}\), und \(z_{1 - \frac{\alpha}{2}}\).
\(n\) ist die Größe der Stichprobe, daher: \(n = 400\).
\[\begin{align*} \overline{x} &= h(1) = \frac{78}{400} = 0.195 \\ \\ 1 - \alpha &= 0.95 \\ \alpha &= 1 - 0.95 = 0.05 \\ \frac{\alpha}{2} &= \frac{0.05}{2} = 0.025 \\ z_{1 - \frac{\alpha}{2}} &= z_{1 - 0.025} = z_{0.975} \\ \end{align*}\]
\(z_{0.975}\) ist der Wert, für den \(F\left( z_{0.975} \right) = 0.975\) ist.
Da z approximativ einer Standardnormalverteilung folgt, benötigen wir den Output der Funktion
qnorm(0.975)
[1] 1.959964
Das richtige Quantil ist somit 1.959964. Wir runden auf zwei Nachkommastellen und erhalten den Wert 1.96.
Einsetzen aller Werte in die Formel für das konkrete Konfidenzintervall:
\[\begin{align*} I\left( x_{1},\ x_{2},\ \ldots,\ x_{400} \right) &= \left\lbrack \overline{x} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}},\overline{x} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{x}\left( 1 - \overline{x} \right)}{n}} \right\rbrack \\ &= \left\lbrack 0.195 - 1.96 \cdot \sqrt{\frac{0.195(1 - 0.195)}{400}},0.195 + 1.96 \cdot \sqrt{\frac{0.195(1 - 0.195)}{400}} \right\rbrack \\ &= \lbrack 0.156,\ 0.234\rbrack \end{align*}\]
Als konkretes Konfidenzintervall für \(\pi\) ergibt sich:
\[I\left( x_{1},\ x_{2},\ \ldots,\ x_{400} \right) = \lbrack 0.156,\ 0.234\rbrack\] Die plausiblen Werte für den Parameter \(\pi\) und somit für die relative Häufigkeit der Personen, die regelmäßig Sport treiben an den unter Depression leidenden Personen liegen zwischen 15,6% und 23,4%.
Nachrechnen in R:
library(DescTools) # vorher installieren BinomCI(78, n = 400, method = 'wald', conf.level = 0.95)
est lwr.ci upr.ci [1,] 0.195 0.156173 0.233827
Sie interessieren sich dafür, wie stark die mittlere (stetige) Konzentrationsleistung von Personen morgens von der mittleren Konzentrationsleistung abends abweicht.
Sie ziehen eine einfache Zufallsstichprobe (\(n=120\)) von Personen, deren Konzentrationsleistung jeweils einmal morgens und einmal abends gemessen wird und erhalten aus dieser Stichprobe folgende Werte:
\(\overline{x}_m = 56.13\)
\(\overline{x}_a = 49.36\)
\(s^2_{diff} = 180.31\)
Führen Sie das entsprechende inferenzstatistische Verfahren durch.
Interpretieren Sie das Ergebnis.LösungAufgrund der Messwiederholung liegen abhängige Stichproben vor. Wir müssen also das konkrete Konfidenzintervall für \(\mu_{KI\_morgens} - \mu_{KI\_abends}\) bei abhängigen Stichproben berechnen.
Allgemeine Formel des Konfidenzintervalls:
\(I(X_1, ..., X_n) = \left[ (\overline{X}_1 - \overline{X}_2) \pm t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{S^2_{diff}}{n}} \right]\)
Dabei ist
\(t_{1 - \frac{\alpha}{2}} = t_{0.975} = 1.98\), weil
\(\alpha = 1 - 0.95 = 0.05\), und
qt(0.975, df = 119)
[1] 1.9801
Berechnung des konkreten Intervalls:
\[\begin{align*} I(x_1, ..., x_{120}) &= \left[ (\overline{x}_m - \overline{x}_a) \pm t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^2_{diff}}{n}} \right] \\ &= \left[ (56.13 - 49.36) \pm 1.98 \cdot \sqrt{\frac{180.31}{120}} \right] \\ &= \left[4.348, 9.202 \right] \end{align*}\]
Die plausiblen Werte für den Parameterunterschied \(\mu_{KI\_morgens} - \mu_{KI\_abends}\) und somit für die Differenz der mittlere Konzentrationsleistung von Personen morgens und abends liegen zwischen 4.348 und 9.202.
Sie interessieren sich dafür, ob der Anteil von Personen, die regelmäßig Sport treiben an den unter Depression leidenden Personen kleiner ist als 56%. Sie ziehen eine einfache Zufallsstichprobe der Größe \(n = 400\) aus der Population der Depressiven und erfassen von jeder Person das Sportverhalten.
In Ihrer Stichprobe befinden sich 198 Personen, die regelmäßig Sport treiben. Beantworten Sie die Forschungsfrage indem Sie das entsprechende statistische Verfahren durchführen.LösungDa wir uns für die Hypothesen
\[ \begin{align*} H_0: \pi \geq 0.56\\ H_1: \pi < 0.56 \end{align*} \]
interessieren, wählen wir einen Binomialtest für linksgerichtete Hypothesen.
Die Teststatistik \(T\) entspricht der absoluten Häufigkeit der sporttreibenden Personen in der Stichprobe:
\(t = 198\)
Um die Testentscheidung zu treffen, müssen wir damit den \(p\)-Wert berechnen. Bei einer linksgerichteten Alternativhypothese beträgt der \(p\)-Wert:
\(P(T \leq t) = P(T \leq 198) = F(198)\), wobei \(F\) die Verteilungsfunktion einer Binomialverteilung mit den Parametern \(\pi = 0.56\) und \(n = 400\) ist.
pbinom(198, size = 400, prob = 0.56)
[1] 0.005228264
Durchführung des Hypothesentests in R:
binom.test(198, n = 400, p = 0.56, alternative = "less")
Exact binomial test data: 198 and 400 number of successes = 198, number of trials = 400, p-value = 0.005228 alternative hypothesis: true probability of success is less than 0.56 95 percent confidence interval: 0.0000000 0.5372951 sample estimates: probability of success 0.495
Der p-Wert ist 0.00523 und somit größer als das Signifikanzniveau \(\alpha=0.005\). Wir entscheiden uns daher für die \(H_{0}\) und somit dafür, dass der Anteil von Personen, die regelmäßig Sport treiben an den unter Depression leidenden Personen nicht kleiner ist als 56%.
Sie interessieren sich dafür, wie hoch die mittlere (stetige) Resilienz von Senioren nach einer neuartigen therapeutischen Intervention ist Sie haben folgende Daten aus einer einfachen Zufallsstichprobe vorliegen:
Person Resilienz 1 23 2 28 3 42 4 22 5 22 Gegeben sind außerdem die Werte \(\overline{x} = 27.4\) und \(s^{2} = 291.2\)
Beantworten Sie diese Forschungsfrage anhand des passenden statistischen Verfahrens.
LösungFormel für das konkrete Konfidenzintervall für \(\mu\):
\[I\left( x_{1},\ x_{2},\ \ldots,\ x_{n} \right) = \left\lbrack \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}},\overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} \right\rbrack\]
Um dieses zu berechnen, benötigen wir \(n\), \(\overline{x}\), \(s^{2}\) und \(t_{1 - \frac{\alpha}{2}}\).
\(n\) ist die Größe der Stichprobe, daher: \(n = 5\).
\(\overline{x} = 27.4\)
\(s^{2} = 291.2\)
\(1 - \alpha = 0.95 \to \frac{\alpha}{2} = \frac{0.05}{2} = 0.025\)
\(t_{1 - \frac{\alpha}{2}} = t_{1 - 0.025} = t_{0.975}\)
\(t_{0.975}\) ist der Wert, für den \(F\left( t_{0.975} \right) = 0.975\) ist.
Da die Zufallsvariable einer t-Verteilung mit Freiheitsgrad \(\nu = n - 1 = 5 - 1 = 4\) folgt, benötigen wir die Funktion
qt(0.95, df = 4)
[1] 2.131847
Das richtige Quantil ist somit 2.1318468. Wir runden auf zwei Nachkommastellen und erhalten den Wert 2.13.
Einsetzen aller Werte in die Formel für das konkrete Konfidenzintervall:
\[\begin{align*} I\left( x_{1},\ x_{2},\ \ldots,\ x_{5} \right) &= \left\lbrack \overline{x} - t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}},\overline{x} + t_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^{2}}{n}} \right\rbrack \\ &= \left\lbrack 27.4 - 2.13 \cdot \sqrt{\frac{291.2}{5}},27.4 + 2.13 \cdot \sqrt{\frac{291.2}{5}} \right\rbrack \\ &= \lbrack 11.145,\ 43.655 \rbrack \end{align*}\]
Die plausiblen Werte für den Parameter \(\mu\) und somit für die mittlere Resilienz von Senioren nach einer neuartigen therapeutischen Intervention liegen zwischen 11.145 und 43.655.
Sie interessieren sich dafür, ob die mittlere (stetige) Verträglichkeit von Personen morgens höher ist als abends. Sie ziehen eine einfache Zufallsstichprobe (\(n=120\)) von Personen, deren Verträglichkeit jeweils einmal morgens und einmal abends gemessen wird.
Laden Sie den Datensatz herunter und beantworten Sie diese Forschungsfrage anhand des passenden statistischen Verfahrens. Interpretieren Sie das Ergebnis.
LösungDa wir uns für die Hypothesen \[ \begin{align*} H_0: \mu_{Pop\_morgens}-\mu_{Pop\_abends} \leq 0 \\ H_1: \mu_{Pop\_morgens}-\mu_{Pop\_abends} > 0 \end{align*} \]
interessieren und zwei abhängige Stichproben gezogen haben, wählen wir einen t-Test für zwei abhängige Stichproben und eine rechtsgerichtete Hypothese.
<- read.csv2("Verträglichkeit.csv") # Daten einlesen Daten t.test(daten$Vert_morgens, daten$Vert_abends, mu = 0, alternative = 'greater', paired = FALSE)
Paired t-test data: Daten$Vert_morgens and Daten$Vert_abends t = 3.0796, df = 119, p-value = 0.001287 alternative hypothesis: true mean difference is greater than 0 95 percent confidence interval: 1.742919 Inf sample estimates: mean difference 3.775
Der p-Wert ist 0.00129 und somit kleiner als das Signifikanzniveau \(\alpha=0.005\). Wir entscheiden uns daher für die \(H_{1}\) und somit dafür, dass die mittlere Verträglichkeit von Personen morgens höher ist als abends.
Sie interessieren sich dafür, ob Senioren in ihrer (stetigen) Resilienz im Durchschnitt einen Wert von größer als 47 aufweisen.
Sie haben folgende Daten aus einer einfachen Zufallsstichprobe vorliegen:Person Resilienz 1 58 2 60 3 56 4 50 5 60 Sie berechnen daraus die Werte \(\overline{x} = 56.8\), \(s^2_{emp} = 13.76\) und \(s^2 = 17.2\).
Beantworten Sie die Forschungsfrage, indem Sie das entsprechende statistische Verfahren durchführen.
LösungDa wir uns für die Hypothesen
\[ \begin{align*} H_0: \mu \leq 47\\ H_1: \mu > 47 \end{align*} \]
interessieren und eine Stichprobe gezogen haben, wählen wir einen t-Test für eine Stichprobe und eine gerichtete Hypothese.
Zunächst berechnen wir die Teststatistik:
\[ t = \frac{\overline{x} - \mu_0}{\sqrt{\frac{s^2}{n}}} = \frac{56.8 - 47}{\sqrt{\frac{17.2}{5}}} = 5.28 \]
Für die Berechnung des \(p\)-Wertes benötigen wir die folgende Wahrscheinlichkeit unter der Annahme, dass die \(H_0\) gilt:
\[ P(T \geq t) = P(T \geq 5.28) = 1 - P(T < 5.28) = 1 - P(T \leq 5.28) = 1 - F(5.28) \]
1 - pt(5.28, df = 4)
[1] 0.003085071
Kontrolle in R:
<- c(58, 60, 56, 50, 60) # Resilienz-Werte in einen Vektor schreiben x
t.test(x, mu = 47, alternative = "greater")
One Sample t-test data: x t = 5.2838, df = 4, p-value = 0.003077 alternative hypothesis: true mean is greater than 47 95 percent confidence interval: 52.84601 Inf sample estimates: mean of x 56.8
Der p-Wert ist 0.00308 und somit kleiner als das Signifikanzniveau \(\alpha=0.005\). Wir entscheiden uns daher für die \(H_{1}\) und somit dafür, dass die mittlere Resilient von Senioren größer ist als 47.
Sie interessieren sich dafür, wie stark sich zwei Populationen in ihrer durchschnittlichen (stetigen) Gewissenhaftigkeit unterscheiden. Sie ziehen jeweils eine einfache Zufallsstichprobe aus den beiden Populationen.
Laden Sie den Datensatz herunter und führen Sie das entsprechende inferenzstatistische Verfahren in R durch. Interpretieren Sie das Ergebnis.
LösungDa sich in den gezogenen Stichproben unterschiedliche Personen befinden, liegen unabhängige Stichproben vor. Wir müssen also das konkrete Konfidenzintervall für \(\mu_{Gew\_Gruppe1}-\mu_{Gew\_Gruppe2}\) bei unabhängigen Stichproben berechnen.
<- read.csv2("Gewissenhaftigkeit.csv") # Daten einlesen Daten
t.test(Daten$Gew_Gruppe1, Daten$Gew_Gruppe2, paired=FALSE, var.equal = TRUE, conf.level=0.95)
Two Sample t-test data: Daten$Gew_Gruppe1 and Daten$Gew_Gruppe2 t = 2.3254, df = 362, p-value = 0.0206 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.367973 4.401258 sample estimates: mean of x mean of y 50.59341 48.20879
Die plausiblen Werte für den Parameterunterschied \(\mu_{Gew\_Gruppe1} - \mu_{Gew\_Gruppe2}\) und somit für die Differenz der mittleren Gewissenhaftigkeit der beiden Populationen liegen zwischen 0.368 und 4.401.