#### Confounding -- Simpson's paradox ##### library(mosaicData) ?Whickham head(Whickham) summary(Whickham) attach(Whickham) fit1=glm(outcome~smoker, family = binomial) ## inace, koristiti funkciju factor() summary(fit1) contrasts(outcome) ## model je P(outcome = Dead | smoker)=h(b0 + b1*1_{smoker=Yes}) ## exp(b1) predstavlja faktor povecanja/smanjenja izgleda smrti za pusace u odnosu na nepusace (bazna kategorija) ## b1<0?! ## ipak, u ovoj analizi pusaci su bili puno mladi od nepusaca, a godine su ipak znacajnija kovarijata ("confounding variable"): boxplot(age~smoker) boxplot(age~outcome) fit2=glm(outcome~smoker+age, family = binomial) summary(fit2) ## model je P(outcome = Dead | smoker, age)=h(b0 + b1*1_{smoker=Yes}+b2*age) ## exp(b1) predstavlja faktor povecanja/smanjenja izgleda smrti za pusace u odnosu na nepusaca ISTE DOBI (tj. age je fiksiran). ## sada je b1>0 kako bismo i ocekivali exp(summary(fit2)$coef[2]) ## za interakcije vidi ISLR 3.3.2