Übungsblatt 6

Einführung in die Regressionsanalyse

  1. Geben Sie für die folgenden statistischen Modelle jeweils die Parameter \(\alpha\) und \(\beta\) an und interpretieren Sie diese inhaltlich:

    1. Yi = Gewicht (einer Person) in Kilogramm, Xi = Größe (einer Person) in Metern:

      \(Y_{i} = 3+48.5 \cdot X_{i}+ \varepsilon_{i}\)

      \(\alpha\) = 3
      Für eine Person mit einer Größe von 0 Metern wird ein Gewicht von 3 Kilogramm erwartet. Die inhaltliche Interpretation von \(\alpha\) ist in diesem Fall wenig sinnvoll, da es keine Personen gibt, die genau 0 Meter groß ist.

      \(\beta\) = 48.5
      Ist eine Person A einen Meter größer als eine Person B, wird erwartet, dass Person A 48.5 Kilogramm schwerer ist als Person B. Allgemein: Ist eine Person A m Meter größer als eine Person B, wird erwartet, dass Person A m mal 48.5 Kilogramm schwerer ist als Person B.
      Dies bedeutet, dass es einen positiven Zusammenhang zwischen den Variablen Größe und Gewicht gibt: Je größer eine Person, desto höher ist auch ihr erwartetes Gewicht.

    2. Yi = Gewicht (einer Person) in Tonnen, Xi = Größe (einer Person) in Millimetern:

      \(Y_{i} = 0.003+0.0000485 \cdot X_{i}+ \varepsilon_{i}\)

      \(\alpha\) = 0.003
      Für eine Person mit einer Größe von 0 Millimetern wird ein Gewicht von 0.003 Tonnen erwartet. Die inhaltliche Interpretation von \(\alpha\) ist aus dem gleichen Grund wie in Teilaufgabe a nicht sinnvoll.

      \(\beta\) = 0.0000485
      Ist eine Person A einen Millimeter größer als eine Person B, wird erwartet, dass Person A 0.0000485 Tonnen schwerer ist als Person B. Allgemein: Ist eine Person A m Millimeter größer als eine Person B, wird erwartet, dass Person A m mal 0.0000485 Tonnen schwerer ist als Person B.
      Auch in diesem Modell gibt es einen positiven Zusammenhang zwischen den Variablen Größe und Gewicht: Je größer eine Person, desto höher ist auch ihr erwartetes Gewicht. Obwohl der Parameter \(\beta\) in diesem Modell fast null ist, kann man nicht folgern, dass der Zusammenhang zwischen Größe und Gewicht geringer ist als in dem Modell aus Teilaufgabe a. Tatsächlich ergibt eine Umrechnung der Einheiten, dass beide Modelle identisch sind: Ist eine Person in dem Modell aus Teilaufgabe b um einen Meter (also 1000 Millimeter) größer als eine Person B, wird erwartet, dass Person A 1000 x 0.0000485 = 0.0485 Tonnen = 48.5 Kilogramm schwerer ist als Person B.
      Bei der Interpretation der Modellparameter muss also immer die Maßeinheit der betrachteten Variablen berücksichtigt werden. Im Allgemeinen bedeutet nur ein \(\beta\), das exakt gleich null ist, dass kein Zusammenhang zwischen den Variablen besteht.

    3. Yi = Alter in Jahren, Xi = durchschnittliche Anzahl versendeter Chatnachrichten pro Tag:

      \(Y_{i} = 100-10 \cdot X_{i}+ \varepsilon_{i}\)

      \(\alpha\) = 100
      Für eine Person, die im Durchschnitt 0 Nachrichten pro Tag versendet, wird ein Alter von 100 Jahren erwartet. \(\alpha\) = 100 kann in diesem Fall also als durchschnittliches Alter der Personen in der Population interpretiert werden, die keine Chatnachrichten versenden.

      \(\beta\) = -10
      Versendet eine Person A pro Tag im Durchschnitt eine Nachricht mehr als eine Person B, wird erwartet, dass Person A 10 Jahre jünger ist als Person B. Allgemein: Versendet eine Person A pro Tag im Durchschnitt m Nachrichten mehr als eine Person B, wird erwartet, dass Person A m mal 10 Jahre jünger ist als Person B.
      Dies bedeutet, dass es einen negativen Zusammenhang zwischen dem Alter und der Anzahl der versendeten Nachrichten gibt: Je mehr Nachrichten eine Person versendet, desto niedriger ist ihr erwartetes Alter. Dieses Beispiel macht deutlich, dass in Regressionsmodellen nur statistische und keine kausalen Zusammenhänge zwischen Variablen modelliert werden. Die Interpretation, dass man durch das Versenden von Chatnachrichten jünger wird, ist leider ohne strenge zusätzliche Annahmen nicht zulässig.

    4. Yi = Abiturnote, Xi = Intelligenz in IQ-Werten:

      \(Y_{i} = 2.5+ \varepsilon_{i}\)

      Dieses Modell ist äquivalent zu Yi = 2.5 + 0 ⋅ Xi + \(\epsilon_i\)

      \(\beta\) = 0
      Hat eine Person A einen um einen Punkt höheren IQ-Wert als eine Person B, wird erwartet, dass Person A eine um 0 bessere (also die gleiche) Abiturnote hat wie Person B. Allgemein: Hat eine Person A einen um m Punkte höheren IQ-Wert als eine Person B, wird erwartet, dass Person A die gleiche Abiturnote hat wie Person B.
      Dies bedeutet, dass die Variablen Intelligenz und Abiturnote nicht (linear) zusammen hängen.

      \(\alpha\) = 2.5
      Für jede Person wird unabhängig von ihrem IQ eine Abiturnote von 2.5 erwartet.
      \(\alpha\) = 2.5 kann in diesem Fall also als durchschnittliche Abiturnote in der Population interpretiert werden.

  2. Erklären Sie wie die Größen \(\beta\), Β und b zusammenhängen.

    \(\beta\) ist ein unbekannter Parameter des Regressionsmodells, B ist eine Schätzfunktion für diesen und b ist der konkrete Schätzwert für \(\beta\) auf der Basis der erhobenen Stichprobe.

  3. Erklären Sie wie der Fehler \(\epsilon_i\), das Residuum \(E_i\) und das realisierte Residuum \(e_i\) zusammenhängen.

    Der Fehler \(\epsilon_i\) ist eine nicht beobachtbare Zufallsvariable, deren Realisation die Abweichung des AV-Werts der Person i von der wahren Regressionsgeraden in der Population ist. Das Residuum \(E_i\) ist eine beobachtbare Zufallsvariable, deren Realisation die Abweichung des AV-Werts der Person i von der geschätzten Regressionsgeraden in der Stichprobe ist. \(\epsilon_i\) und \(E_i\) sind also nicht identisch. \(E_i\) ist auch keine Schätzfunktion von \(\epsilon_i\), da \(\epsilon_i\) kein Parameter, sondern eine Zufallsvariable ist. Das realisierte Residuum \(e_i\) ist eine Realisation der Zufallsvariablen \(E_i\) und stellt somit die konkrete Abweichung des AV-Werts der Person i von der konkret geschätzten Regressionsgeraden in der konkreten Stichprobe dar.

  4. Was versteht man unter dem Standardschätzfehler \(s\)? Wie ist dieser definiert? Wie lässt sich der Schätzwert \(s\) inhaltlich interpretieren? Welche Rolle spielt der Standardschätzfehler bei der Berechnung des Konfidenzintervalls für \(\beta\)?

    Der Standardschätzfehler \(s\) ist der konkrete Schätzwert der Schätzfunktion \(S\) für die Standardabweichung der Fehler \(\sigma\) (\(\sigma\) entspricht der Wurzel der Fehlervarianz \(\sigma^{2}\)):

    \(s = {\widehat{\sigma}}_{Wert} = \sqrt{\frac{\sum_{i = 1}^{n}e_{i}^{2}}{n - 2}}\)

    Inhaltlich ist \(s\) der konkrete Schätzwert für die Streuung der AV von Personen, die alle den gleichen Prädiktorwert aufweisen. Je größer \(\sigma\), desto größer ist die Streuung um den durchschnittlichen Kriteriumswert einer Person i mit einem festen Prädiktorwert.

    Die Schätzfunktion \(S\) bzw. \(S^{2}\) geht in den Standardfehler der ZV \(B\) ein. Es gilt: Je größer der Standardschätzfehler, desto größer ist auch der Schätzwert für den Standardfehler der Schätzfunktion \(B\):

    Auf Ebene der Zufallsvariablen:
    \(\sqrt{\widehat{V}ar(B)} = \widehat{SE}(B) = \sqrt{\frac{S^{2}}{\sum_{i = 1}^{n}\left( x_{i} - \bar{x} \right)^{2}}} = \sqrt{\frac{1}{n - 2} \cdot \frac{\sum_{i = 1}^{n}E_{i}^{2}}{\sum_{i = 1}^{n}\left( x_{i} - \bar{x} \right)^{2}}}\)

    Damit wird auch das konkrete Konfidenzintervall für \(\beta\) mit zunehmendem Standardschätzfehler breiter.

  1. Sie vermuten, dass sich die Dauer von Beziehungen aus der Altersdifferenz der beiden Partner*innen vorhersagen lässt. Laden Sie den Datensatz herunter. Dieser enthält für 1000 Beziehungen jeweils Angaben zur Dauer in Monaten und der Altersdifferenz der Partner*innen in Monaten. Lesen Sie den Datensatz in R ein und speichern Sie diesen als Objekt mit dem Namen „Daten” ab. Führen Sie in R eine Regressionsanalyse durch. Verwenden Sie hierfür die Funktion lm(AV ~ UV, data = Daten). Speichern Sie dieses Objekt unter dem Namen fit ab. Wenden Sie auf das Objekt fit die Funktion summary() an. (Hinweis: Sie können alle Annahmen des einfachen linearen Regressionsmodells als gegeben voraussetzen.)

    Daten <- read.csv2("Beziehungen.csv")
    ## Durchführung einer einfachen linearen Regressionsanalyse:
    fit <- lm(Beziehungsdauer ~ Altersdifferenz, data = Daten)
    summary(fit)
    
    Call:
    lm(formula = Beziehungsdauer ~ Altersdifferenz, data = Daten)
    
    Residuals:
         Min       1Q   Median       3Q      Max 
    -15.7671  -3.1751   0.0742   3.2354  14.8702 
    
    Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
    (Intercept)     79.540382   0.296326   268.4   <2e-16 ***
    Altersdifferenz -0.977330   0.007094  -137.8   <2e-16 ***
    ---
    Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    
    Residual standard error: 4.925 on 998 degrees of freedom
    Multiple R-squared:   0.95, Adjusted R-squared:   0.95 
    F-statistic: 1.898e+04 on 1 and 998 DF,  p-value: < 2.2e-16
    1. Geben Sie die geschätzte Modellgleichung an und interpretieren Sie diese inhaltlich.

      a = 79.540; b = -0.977, s = 4.925

      Die geschätzte Modellgleichung ist also:

      \[Y_{i} = 79.540 - 0.977X_{i} + \epsilon_{i} \text{ mit } \epsilon_{i}\sim N(0,\ {4.925}^{2})\]

      Interpretation: Für ein Paar mit einem Altersunterschied von 0 Monaten wird eine Beziehungsdauer von 79.540 Monaten, also ungefähr sechseinhalb Jahren, erwartet.
      Ist der Altersunterschied in einer Beziehung A um einen Monat höher als in einer Beziehung B, wird erwartet, dass Beziehung A 0.977 Monate kürzer hält. Allgemein: Ist der Altersunterschied in einer Beziehung A um m Monate höher als in einer Beziehung B, wird erwartet, dass Beziehung A m mal 0.977 Monate kürzer hält.
      Es wird also ein negativer Zusammenhang für Altersdifferenz und Beziehungsdauer geschätzt. Dies ist jedoch nur eine Punktschätzung, über deren Genauigkeit man zunächst nichts aussagen kann. Dies ist nur mithilfe von Konfidenzintervallen möglich.

    2. Angenommen, die Stichprobengröße wäre sehr, sehr groß und der Standardfehler bei der Schätzung der Parameter wäre sehr nahe an 0 (d.h. die Schätzwerte für die Modellparameter wären identisch mit den wahren Parameterwerten). Wie hoch wäre die Wahrscheinlichkeit, dass ein Paar mit einem Altersunterschied von 12 Monaten länger als 6 Jahre zusammen bleibt? Hinweis: Verwenden Sie zur Berechnung der Wahrscheinlichkeit die Annahme des regressionsanalytischen Modells \(Y_i|X_i \sim N(\mu_i , \sigma^2)\).

      1 - pnorm(6 * 12, mean = 79.540 - 0.977 * 12, sd = 4.925)
      [1] 0.1977896

      Angenommen die Schätzwerte entsprechen den wahren Parameterwerten, dann ist die Beziehungsdauer bei einer Altersdifferenz von 12 Monaten normalverteilt mit Erwartungswert \(79.540 - 0.977 \cdot 12\ \)und Varianz \({4.925}^{2}\). Die Wahrscheinlichkeit, dass eine Beziehung mit Altersdifferenz 12 Monaten länger als 6 Jahre (also \(6 \cdot 12 = 72\) Monate) hält, beträgt ca. 0.20.

    3. Können Sie auf der Basis des Hypothesentests für \(\beta\) aus dem Output von einem linearen Zusammenhang zwischen Altersdifferenz und Beziehungsdauer ausgehen? Verwenden Sie ein Signifikanzniveau von 0.005.

      fit <- lm(Beziehungsdauer ~ Altersdifferenz, data = Daten)
      summary(fit)
      
      Call:
      lm(formula = Beziehungsdauer ~ Altersdifferenz, data = Daten)
      
      Residuals:
           Min       1Q   Median       3Q      Max 
      -15.7671  -3.1751   0.0742   3.2354  14.8702 
      
      Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
      (Intercept)     79.540382   0.296326   268.4   <2e-16 ***
      Altersdifferenz -0.977330   0.007094  -137.8   <2e-16 ***
      ---
      Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
      
      Residual standard error: 4.925 on 998 degrees of freedom
      Multiple R-squared:   0.95,  Adjusted R-squared:   0.95 
      F-statistic: 1.898e+04 on 1 and 998 DF,  p-value: < 2.2e-16

      Da p = 0.000 ≤ 0.005 entscheiden wir uns für die H1: \(\beta\) ≠ 0. Wir gehen also davon aus, dass es zwischen der Altersdifferenz und der Beziehungsdauer einen linearen Zusammenhang gibt.

    4. Berechnen Sie in R mithilfe der Funktion confint() das 0.95-Konfidenzintervall für \(\beta\) und interpretieren Sie es inhaltlich.

      ## Berechnung des 0.95-Konfidenzintervalls für beta:
      confint(fit)
                          2.5 %     97.5 %
      (Intercept)     78.958888 80.1218759
      Altersdifferenz -0.991251 -0.9634093

      Die plausiblen Werte für \(\beta\) liegen zwischen -0.991 und -0.963. Wir gehen also davon aus, dass sich die mittlere Beziehungsdauer um 0.991 bis 0.963 Monate pro Monat Altersdifferenz verringert.

    5. Welche Beziehungsdauer erwarten Sie für eine Beziehung mit durchschnittlichem Altersunterschied? Beantworten Sie die Frage sowohl durch Zentrierung als auch mithilfe der geschätzten Modellgleichung aus 5a).

      Hinweis zur Zentrierung in R

      Zur Zentrierung in R können Sie den Befehl scale() verwenden. Praktisch für Vergleiche der Analysen mit zentrierter und unzentrierter UV ist es, wenn Sie die zentrierte Variable als neue Variable in den Datensatz aufnehmen:

      # Im Befehl scale() steht das Argument center = TRUE für eine Zentrierung
      # am Mittelwert. Mit scale = TRUE könnten Sie zusätzlich noch durch die
      # geschätzte Standardabweichung teilen um eine z-Standardisierung zu 
      # erreichen. Dieser zweite Schritt ist im vorliegenden Fall jedoch nicht
      # notwendig.
      Daten$Altersdifferenz_c <- scale(Daten$Altersdifferenz, center = TRUE, scale = FALSE)

      Variante 1: Wir zentrieren die Variable Altersdifferenz am Stichprobenmittelwert und schätzen das Regressionsmodell erneut.

      ## Zentrierung der Variable Altersdifferenz
      Daten$Altersdifferenz_c <- scale(Daten$Altersdifferenz, center = TRUE, scale = FALSE)
      fit_c <- lm(Beziehungsdauer ~ Altersdifferenz_c, data = Daten)
      summary(fit_c)
      
      Call:
      lm(formula = Beziehungsdauer ~ Altersdifferenz_c, data = Daten)
      
      Residuals:
           Min       1Q   Median       3Q      Max 
      -15.7671  -3.1751   0.0742   3.2354  14.8702 
      
      Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
      (Intercept)       44.809000   0.155740   287.7   <2e-16 ***
      Altersdifferenz_c -0.977330   0.007094  -137.8   <2e-16 ***
      ---
      Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
      
      Residual standard error: 4.925 on 998 degrees of freedom
      Multiple R-squared:   0.95,  Adjusted R-squared:   0.95 
      F-statistic: 1.898e+04 on 1 and 998 DF,  p-value: < 2.2e-16

      Für ein Paar mit durchschnittlicher Altersdifferenz erwarten wir eine Beziehungsdauer von 44.809 Monaten.

      Variante 2: Wir schätzen die durchschnittliche Altersdifferenz in der Population mithilfe des Stichprobenmittelwerts. Dann berechnen wir für ein Paar mit dieser Altersdifferenz die vorhergesagte Beziehungsdauer mithilfe der geschätzten Modellgleichung aus 5a).

      ## Schätzung der durchschnittlichen Altersdifferenz in der Population
      mean(Daten$Altersdifferenz)
      [1] 35.537

      Die durchschnittliche Altersdifferenz in der Stichprobe beträgt 35.537 Monate.

      \[{\widehat{y}}_{i} = a + b \cdot 35.537 = 79.540 - 0.977 \cdot 35.537 = 44.802\]

      Wir sagen vorher, dass eine solche Beziehung 44.802 (Rundungsfehler) Monate hält.

    6. Ein guter Freund von Ihnen ist frisch verliebt und seit Kurzem mit seinem fünfeinhalb Jahre jüngeren Freund zusammen. Wie lange vermuten Sie auf der Basis Ihrer Daten, dass diese Beziehung hält? Berechnen Sie hierfür den konkreten Vorhersagewert.

      Eine Altersdifferenz von fünfeinhalb Jahren entspricht einer Altersdifferenz von 66 Monaten. Ihre Vorhersage erhalten Sie also durch Einsetzen des Werts 66 für xi in die Formel für den Vorhersagewert:

      \(\widehat{y_{i}} = a+b \cdot x_{i} = 79.540-0.977\cdot66 = 15.058\)

      Sie sagen vorher, dass die Beziehung Ihres Freunds 15.058 Monate hält.

    7. Welches statistische Verfahren, das zusätzlich die Ungenauigkeit der Schätzung sowie die Fehlervarianz bei der Vorhersage der Beziehungsdauer berücksichtigt, könnten Sie alternativ zur Beantwortung der in der Teilaufgabe f) formulierten inhaltlichen Frage verwenden?

      Sie könnten ein Konfidenzintervall für den unbekannten AV-Wert der Beziehung des Freunds berechnen.

    8. Führen Sie dieses statistische Verfahren in R durch (siehe Code in der Vorlesung) und interpretieren Sie das Ergebnis.

      Hinweis

      Für die Schätzung einer Vorhersage für (bisher unbeobachtete) UV-Werte benötigt der predict()-Befehl einen minimalistischen Datensatz mit den Werten für die UV, für die eine Vorhersage gemacht werden soll. Dieser Datensatz enthält keine AV-Werte, da die ja noch geschätzt werden sollen. Die Benennung der UV-Variable im neuen Datensatz muss identisch zur Benennung im ursprünglichen Datensatz sein.

      Daten_neu <- data.frame(Altersdifferenz = 66) # neuer Datensatz zur Vorhersage
      predict(fit, Daten_neu, interval = "prediction", level = Konfidenzniveau)
      ## Berechnung des 0.95-Konfidenzintervalls für einen unbekannten AV-Wert:
      Daten_neu <- data.frame(Altersdifferenz = 66)
      predict(fit, Daten_neu, interval = "prediction",level = 0.95)
             fit      lwr      upr
      1 15.03659 5.358027 24.71516

      Für eine Altersdifferenz von 66 Monaten erhalten Sie ein 95%-Vorhersage-Konfidenzintervall von 5.36 bis 24.72 Monaten. Die Beziehung Ihres Freunds wird also mit hoher Sicherheit nicht länger als 24.72 Monate dauern. Da als Konfidenzniveau jedoch nicht 100% gewählt werden kann, besteht trotzdem laut Modell noch eine - wenn auch geringe - Chance, dass Ihr Freund sein Leben lang mit seinem neuen Freund zusammenbleibt.