Sie nehmen an, dass die Bildung der Eltern direkt kausal zu einer besseren Bildung und zu höherem Einkommen führt. Sie wollen den direkten kausalen Einfluss der eigenen Bildung auf Einkommen schätzen.
Skizzieren Sie die drei Variablen in einem passenden DAG.
LösungBei der Variable Bildung_der_Eltern handelt es sich um einen Confounder (“Fork”):
Soll die Variable Bildung_der_Eltern mit in das Modell aufgenommen werden um den direkten kausalen Effekt der Variable Bildung auf das Einkommen zu schätzen? Entscheiden Sie sich für einen der beiden Outputs.
Einfache lineare Regression (ELR):
Call: lm(formula = Einkommen ~ Bildung, data = data) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.02445 0.07081 -0.345 0.73 Bildung 0.25463 0.05622 4.529 1.02e-05 ***
Multiple lineare Regression (MLR):
Call: lm(formula = Einkommen ~ Bildung + Bildung_der_Eltern, data = data) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.01298 0.06972 -0.186 0.85244 Bildung 0.14042 0.06854 2.049 0.04180 * Bildung_der_Eltern 0.24664 0.08753 2.818 0.00533 **
LösungDa die Variable Bildung_der_Eltern ein Confounder ist, sollte sie mit in das Modell aufgenommen werden. Der direkte kausale Effekt der Variable Bildung auf das Einkommen würde also auf den Wert \(b_{MLR} \approx 0.14\) geschätzt werden. Die Schätzung aus dem ELR-Modell (\(b_{ELR} \approx 0.25\)) wäre verzerrt, da die Variable Bildung_der_Eltern nicht berücksichtigt wurde.
Sie interessieren sich für den direkten kausalen Einfluss der regelmäßigen Internetnutzung einer Person auf deren technische Affinität. Sie gehen davon aus, dass das Online-Kaufverhalten der Person sowohl von der Internetnutzung, als auch von der technischen Affinität der Person kausal beeinflusst wird.
Skizzieren Sie die drei Variablen in einem passenden DAG.
LösungBei der Variable Online-Kaufverhalten handelt es sich um einen Collider:
Soll die Variable Online_Kaufverhalten mit in das Modell aufgenommen werden um den direkten kausalen Einfluss von Internetnutzung auf technische Affinität zu schätzen? Entscheiden Sie sich für einen der beiden Outputs.
Einfache lineare Regression (ELR)
Call: lm(formula = Technische_Affinitaet ~ Internetnutzung, data = data) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.032605 0.073867 0.441 0.659 Internetnutzung 0.001532 0.077691 0.020 0.984
Multiple lineare Regression (MLR)
Call: lm(formula = Technische_Affinitaet ~ Internetnutzung + Online_Kaufverhalten, data = data) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.05425 0.06616 0.820 0.413163 Internetnutzung -0.30718 0.08200 -3.746 0.000236 *** Online_Kaufverhalten 0.43979 0.06198 7.096 2.26e-11 ***
LösungDa die Variable Online_Kaufverhalten ein Collider ist, sollte sie nicht mit in das Modell aufgenommen werden. Im Output der MLR wird ein Zusammenhang zwischen Internetnutzung und Technischer Affinität von \(b_{MLR} \approx -0.31\) beobachtet, jedoch wird hier der Collider Online-Kaufverhalten kontrolliert und der Effekt damit verzerrt geschätzt. In der ELR dagegen wird der direkte kausale Einfluss von Internetnutzung auf die Technische Affinität entsprechend des Modells auf \(b_{ELR} \approx 0.002\) geschätzt.
Sie interessieren sich für den direkten kausalen Effekt von Ernährung auf das Energielevel einer Person. Sie gehen in Ihrem Modell davon aus, dass gesunde Ernährung das Energielevel hebt. Gleichzeitig senkt gesunde Ernährung den Blutzuckerspiegel, was wiederum zu einem höheren Energielevel führt.
Skizzieren Sie die drei Variablen in einem passenden DAG.
LösungBei der Variable Blutzuckerspiegel handelt es sich um einen Mediator (“Pipe”):
Soll die Variable Blutzuckerspiegel mit in das Modell aufgenommen werden um den direkten kausalen Effekt von Ernaehrung auf Energielevel zu schätzen? Entscheiden Sie sich für einen der beiden Outputs.
Einfache lineare Regression (ELR):
Call: lm(formula = Energielevel ~ Ernaehrung, data = data) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.05581 0.08031 -0.695 0.488 Ernaehrung 0.63424 0.08346 7.599 1.16e-12 ***
Multiple lineare Regression (MLR):
Call: lm(formula = Energielevel ~ Ernaehrung + Blutzuckerspiegel, data = data) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.03478 0.07201 -0.483 0.63 Ernaehrung 0.39077 0.08237 4.744 4.02e-06 *** Blutzuckerspiegel -0.50411 0.07152 -7.048 2.98e-11 ***
LösungUm den direkten kausalen Effekt von Ernährung auf das Energielevel zu schätzen, muss der Mediator Blutzuckerspiegel mit ins Modell aufgenommen werden. Auch in der ELR wird der Zusammenhang zwischen Ernährung und Energielevel geschätzt (\(b_{ELR} \approx 0.63\)). Im Mediatormodell wäre dies jedoch der gesamte kausale Effekt und nicht der direkte. Letzterer wird im MLR-Modell auf \(b_{MLR} \approx 0.39\) geschätzt.