潜在结果模型的主要内容包括:定义、推理、假设
潜在结果模型,核心假设-没有操纵就没有因果(No Causation without Manipulation)
定义1: ACE average causal effect
总体的平均因果作用(average causal effect)定义为个体因果作用的期望:
ACE=C(ICE)=E(Y1−Y0)=E(Y1)−E(Y0)ACE=C(ICE)=E(Y_1-Y_0)=E(Y_1)-E(Y_0)ACE=C(ICE)=E(Y1−Y0)=E(Y1)−E(Y0)
平均因果作用定义为:假设所有个体都接受X=1X=1X=1的平均结果E(Y1)E(Y_1)E(Y1)于假设所有个体都接受X=0X=0X=0的平均结果E(Y0)E(Y_0)E(Y0),这只是理想状态,在现实中不可能让所有个体都做X=1X=1X=1处理,在接受X=0X=0X=0处理,及时这样处理之后,得到的Y可能也不一致。
这里可以用于某一个子总体的平均因果作用,比如:A药对于男性和女性群体的疗效如何?
定义2:
令VVV为协变量,定义V=vV=vV=v子总体的平均作用为E(Y1−Y0∣V=v)E(Y_1-Y_0|V=v)E(Y1−Y0∣V=v)
人们常常关心处理组的因果作用,例如, 流行病学家并不关心吸烟对整个人群的因果作用,而只关心吸烟对吸烟人群的因果作用.
定义3:
处理组的平均因果作用定义为E(Y1−Y0∣X=1)E(Y_1-Y_0|X=1)E(Y1−Y0∣X=1)
称平均因果作用ACE=E(Y1−Y0)ACE=E(Y_1-Y_0)ACE=E(Y1−Y0)为可识别的,如果ACE可以由观测变量的分布pr(X,Y,V)pr(X,Y,V)pr(X,Y,V)唯一确定。如果ACE不可识别,则以为这只是存在两个不相等的ACE≠ACEACE \neq ACEACE=ACE满足观测到的数据,可以识别性往往是因果推断中最棘手的问题. 为了得到因果作用的可识别性, 通常需要有额外的假定.随机化试验是识别因果作用最有效的方法.
随机化实验
统计学家Fisher给出了识别平均因果作用的方法:随机化实验设计,随机化处理分配XXX给个体iii,例如,确定个体iii的处理XXX,与潜在结果及协变量的取值无关,可以保证潜在结果(Y1,Y0)(Y_1,Y_0)(Y1,Y0)与处理分配XXX独立,即在随机化分配下,有(Y1,Y0)∐X(Y_1,Y_0) \coprod X(Y1,Y0)∐X有,
在随机化分配下, 平均因果作用表示为观测到的结果变量YYY在处理组X=1X=1X=1与对照组X=0X=0X=0中期望之差不再含有潜在结果变量Y1Y_1Y1和Y0Y_0Y0,因此,他是可识别的,通过分别估计E(Y∣X=1)E(Y|X=1)E(Y∣X=1)和E(Y∣X=0)E(Y|X=0)E(Y∣X=0),传统的统计推断方法可以用来推断平均因为作用。
在随机化试验中,例如,研究吸烟对肺癌的作用,不能随机化分配一个人吸烟或不吸烟。在实际经常面临的其他问题,如代价昂贵和个体不依从等也都限制了随机化试验的作用。