《A Survey on Causal Inference》读书笔记


《A Survey on Causal Inference》读书笔记

此文仅是本人阅读因果推断的最新综述《A Survey on Causal Inference》的一点学习记录,其中也记录了本人的理解和总结。(点击右侧链接即可一键查看原文->论文地址

1. 摘要(Abstract)

因果推断是近几十年各大领域研究的热门话题。随着机器学习领域的快速发展,基于观测数据的因果效应估计方法层出不穷。在这篇综述中,作者全面的回顾因果推断方法下的潜在结果模型(其中一个著名的因果推断框架)。根据它们是否需要潜在结果框架的所有三个假设而将上述方法分为两类。对于每个类别,都讨论和比较了传统的统计方法和最近的机器学习增强方法。并给出了这些方法在广告、推荐、医药等方面的应用。此外,还总结了常用的benchmark数据集和开源代码,便于研究者和实践者探索、评估和开发因果推断方法。

2. 介绍(Introduction)

因果性$\neq$相关性。我们从数据中往往分析出来的结论大多都是相关性,而因果性则不是那么容易能够得出来。不过目前有一个最有效的方法就是随机控制实验(randomized controlled trial):通过随机控制变量,对照结果的方法得出结论。但是该方法时间损耗较大、不能适用于很多subjects的情况、只是聚焦于样本的平均值、在某些场合不适用等等问题。

相较于上面随机控制实验的方法,观察数据的方法变成了可行的捷径。通过观察数据,我们可以发现他们的行动、结果和所发生事情的信息,但不能弄清楚他们采取特定行动的机制。对于观测数据,核心问题是如何得到反事实的结果。

为了从可观测数据中推断出变量间的因果关系,研究者发现了很多的模型,其中包括:潜在结果模型(potential outcome framework)以及结构因果模型(structural causal model)

  • 潜在结果模型——如果一个女孩每天正常吃早餐,她会有一个特定的体重,而如果她不正常吃早餐,她会有一个不同的体重。为了衡量正常吃早餐对女孩的因果影响,我们需要比较同一个人在两种情况下的结果。显然,我们不可能同时看到两种潜在结果,而其中一种潜在结果总是缺失。潜在结果框架的目的是估计这些潜在结果,然后计算干预(treatment)效果。因此,干预效果估计(treatment effect estimation)是潜在结果框架下因果推理的核心问题之一。

  • 结构因果模型(SCM)——它包括因果图和结构方程。结构因果模型描述了一个系统的因果机制,其中一组变量及其之间的因果关系是由一组联立结构方程建模的。

因果推断与机器学习:它们直接存在的非常密切的联系。一方面,机器学习领域的蓬勃发展促进了因果推断领域的发展。应用决策树、集成方法、深度神经网络等强大的机器学习方法,更准确地估计潜在的结果。除了对结果估计模型的改进,机器学习方法也为处理混杂因素提供了一个新的方面。另一方面,因果推断也有助于机器学习方法的发展。现代机器学习研究仅仅追求预测的准确性是不够的,准确性可解释性也是机器学习方法的目标。因果推断正开始帮助改善机器学习,如推荐系统或强化学习。

  • tips:在机器学习中,数据越多越好。然而,在因果推理中,仅仅有更多的数据是不够的。有更多的数据只有助于得到更精确的估计,但不能确保这些估计是正确和无偏的。

全文框架:此文对潜在结果框架下的因果推理方法进行了综述。首先介绍潜在结果框架的基本概念,以及识别因果效应的三个关键假设。然后,详细讨论基于这三个假设的各种因果推理方法,包括重加权法(re-weighting methods)、分层法(stratification methods)、基于匹配法(matching based methods)、基于树的方法(tree-base methods)、基于表示的方法(representation-based methods)、基于多任务学习的方法(multi-task learning based methods)和元学习方法(meta-learning methods)综述。在介绍了各种因果效应估计方法之后,以广告领域、推荐领域、医学领域和强化学习领域为代表,讨论了这些方法在实际应用中可能产生的巨大效益。

3. 因果推断基础知识(Basic Of Causal Inference)

在本节中,介绍了因果推理的背景知识,包括任务描述、数学概念、假设、挑战和一般解决方案。我们也给出了一个说明性的例子,将在整个survey中使用。一般来说,因果推理的任务是估计如果应用了另一种干预方法后结果的变化。例如,假设有两种干预方法可以应用于患者:药物A和药物B。对感兴趣的患者队列应用药物A时,治愈率为70%,药物B对同一队列,治愈率为90%。治愈率的变化就是治疗的结果。上面的例子描述了一个衡量干预效果的理想情况:对同一队列应用不同的干预方法。在现实世界中,这种理想的情况只能用随机的方法来近似,例如完全随机实验。这样,接受特定治疗的群体可以看作是我们感兴趣队列的近似。然而,进行随机实验是昂贵的,耗时的,有时甚至不道德。因此,由于观察数据的广泛可用性,利用观察数据估计干预效果越来越受到关注。观察数据通常包含一组接受不同干预的个体,他们相应的结果,可能还有更多的信息,但没有直接获得他们采取特定干预的原因/机制。这些观察数据使研究人员能够调查学习因果关系的基本问题。

  • [ ] 潜在结果模型的主要贡献者是哈佛大学著名统计学家唐纳德·鲁宾(Donald B.Rubin),因此该模型又被称为鲁宾因果模型(Rubin Causal Model)。其核心是比较同一个研究对象(Unit)在接受干预(Treatment)和不接受干预(对照/控制组)时结果差异,认为这一结果差异就是接受干预相对于不接受干预的效果。

  • [ ] 对于同一研究对象而言,通常我们不能够既观察其干预的结果,又观察其不干预的结果。对于接受干预的研究对象而言,不接受干预时的状态是一种“反事实”状态;对于不接受干预的研究对象而言,接受干预时的状态也是一种“反事实”状态;所以该模型又被某些研究者称之为反事实框架(Counter factual Framework)。

3.1 基本概念(Definitions)

为了更好的介绍各种干预效果估计方法,下面介绍几个定义,包括单位Unit)、干预Treatment)、结果(Outcome)、因果效应(Treatment Effect)以及观察数据提供的其他信息(干预前和干预后变量)。

  • Unit —— 单元,原子研究对象。
  • Treatment —— 干预/治疗,施加给一个原子对象unit的行为。在二元Treatment的情况下(即$W=0$或$1$ ),Treatment组包含接受Treatment为$W=1$ 的unit,而对照组包含接受Treatment为$W=0$的unit

  • Outcome —— 结果,在对unit进行Treatment或者仅仅作为对照之后unit随后产生的反应/结果,一般用Y表示。

  • Treatment Effect —— 因果效应,对unit进行不同Treatment之后,unit产生的Outcome的变化,这种效应可以定义在整体层面、treatment组层面、子组层面和个体层面

    • 整体层面 —— Average Treatment Effect(ATE),平均干预效果:

    • Treatment组层面 —— Average Treatment Effect on the Treated Group (ATT),Treatment组中的平均干预效果:

    • 子组层面 —— Conditional Average Treatment Effect (CATE):

    • 个体层面 —— Individual Treatment Effect (ITE):

  • Potential Outcome —— 潜在结果,对于每对unit-treatment,当对unit施加相应的treatment之后产生的结果。

  • Observed Outcome —— 观测结果已经发生的事实,对unit施加某个treatment之后产生的能观测到的结果。

  • Counterfactual Outcome —— 反事实结果已经发生事实的其他对立面,也即对某个unit未采用的其他treatment带来的潜在结果。

3.2 典型研究案例(An Illustrative Example)

任务:利用观察数据,如电子健康记录(EHR),评估几种不同药物对一种疾病的治疗效果。

观测数据:

  • 患者的人口统计信息
  • 患者服用特定剂量的特定药物
  • 医学测试结果
  • 其他

研究对象:病人

干预:不同药物

结果:恢复/血样测试结果/其他

3.3 三个重要假设(Assumptions)

  • 稳定单位干预值假设(Stable Unit Treatment Value Assumption/SUTVA)

    任何一个单元的潜在结果不会因分配给其他单元的treatment而有所不同,并且对于每个单元,每个treatment级别没有不同的形式或版本,不会导致不同的潜在结果。

    这个假设强调以下几点:

    • unit之间都是相互独立的,unit之间不会存在相互作用
    • 同一treatment仅能存在一个版本。例如,在该假设下,不同剂量的同一种药物代表不同的治疗方法。
  • 可忽略性假设(Ignorability)

    给定背景变量X , 干预分配W与潜在的结果无关。

    例如,由上文的药物治疗的例子来看,如果两个患者有相同的背景变量X,无论治疗任务是什么,他们的潜在结果应该是相同的。类似地,如果两个患者具有相同的背景变量值,那么他们的治疗分配机制应该是相同的,无论他们有什么潜在的结果。

  • 正值假设(Positivity)

    对于X的任何一组值,处理分配不是确定的:

    如果某些X值的干预分配是确定的,那么至少一种干预的结果永远无法观察到。那么估计因果关系是不可能也没有意义的,这意味着干预组和对照组的“共同支持”或“重叠”。忽略性和正值假设一起也被称为强可忽略性或强可忽略性干预任务。

3.4 一般的研究方法(General Solutions)

核心问题:如何估计特定人群的平均潜在治疗/控制结果?

直观的解决方案: 计算平均治疗和对照结果之间的差异,即ATE。

存在的问题:由于混杂因素(confounders)的存在,这种解决方案是不合理的。

3.5 混淆因素(Confounders)

混杂因素(Condounders)是同时影响干预分配和最终结果的变量

举例说明

在下图中,展示的是两种治疗方案对年轻/年老两种病人群体的治疗效果

混杂因素例子

从表格中我们显然可以看出,抛开年龄我们从整体上来看,不难得出结论:A治疗方案更好;但是考虑年龄的话,无论在是年轻的病患群体中还是年老的病患群体中,B方案的治愈率明显更高,由此得到结论:B治疗方案更好。这两种结论显然是互相矛盾的,但是为什么考虑年龄之后,会得出截然相反的结论呢?

实际上,这是一种名为辛普森悖论的现象。辛普森悖论指的是同一组数据,整体的趋势和分组后的趋势完全不同。也就是说,整体数据和分组数据产生的结论截然相反。

辛普森悖论的解释

在上面的例子中,数据分组的指标是年龄,而年龄同时影响着恢复率和治疗方案的选择。从恢复率数据来看,无论是哪种治疗方案下,年轻组的恢复率普遍比年老组高得多,而从治疗方案的选择来看,年轻组更倾向于选择A治疗方案,而年老组则更倾向于选择B治疗方案。正是这种共同影响的存在,使得整体结果和分组结果完全不同。

在这个例子中,干预分配显然就是治疗方案的选择,最终结果就是治愈率,显然可以得知,年龄在这里就是混杂因子。混杂因子的存在导致辛普森悖论现象的产生,因此,在混杂因素存在的情况下,我们不能针对观测数据轻易下结论。

3.6 选择偏倚(Selection Bias)

混杂因子的存在影响着干预分配的选择,treatment组和对照组的分布有可能不一致,因此导致出现偏差,这也使得反事实结果估计更加困难。

4. 因果推断方法(Causal Inference Methods)

  • Re-weighting(重加权算法)
  • Stratification(分层算法)
  • Matching(匹配算法)
  • Tree-based(基于树的方法)
  • Representation Learning(表示学习)
  • Multitask Learning(多任务学习)
  • Meta-learning(元学习)

4.1 重加权算法(Re-weighting)

  • 思想:

    干预组和对照组观测数据的分布不同,这就是选择偏倚带来的挑战。为了克服选择偏倚,可以考虑对样本进行重新加权。

    通过给观察数据集中的每个样本分配适当的权重,可以创建一个伪总体,使得干预组和对照组的分布相似。然后根据重加权后因果效应的评估。

    重加权算法

    上图展示了重加权的过程,当存在年龄Age这个混杂因子时,选择偏倚使得干预组和对照组的分布存在一定差异,对样本重新分配权重后(右图加粗部分,可以认为是增加了权重),使得干预组和对照组的分布相似,从而消除了混杂因子Age带来的选择偏倚。

  • 倾向分数(Propensity score):

    它是给定观测协变量向量的特定干预分配的条件概率,反映出样本x选择treatment的可能性。

  • 反向倾向加权(IPW):

    给每个unit指定的权重为:

    其中 W 是treatment,e(x)是倾向得分。重加权后在整体层面对平均干预效果进行估计:

    理论结果表明,调整倾向得分足以消除由于所有观测到的协变量而产生的偏差。但是这种加权方法高度依赖倾向性得分的正确性。

  • 双保险估计/增广IPW:

    它将基于倾向得分加权的重加权算法和结果回归相结合:

    倾向得分加权的重加权算法和结果回归

    当倾向性得分或者结果回归中只要有一个是正确的,就能做到无偏估计。

双保险估计表达式

  • 协变量平衡倾向得分(CBPS):

    倾向性得分既可作为干预分配的概率,又可作为协变量平衡得分,CBPS利用了这一双重特征,通过解决下面这一问题来估计倾向性得分:

  • 数据驱动变量分解($D^2VD$):

    假设:观测变量可以分解为混杂变量、调整变量和无关变量

    目的:区分混杂变量和调整变量,同时剔除无关变量。

    数据驱动变量分解

  • 重加权算法总结:

重加权算法总结

4.2 分层算法(Stratification)

通过将整个组分成子组来调整选择偏差,在每个子组中,treatment组和对照组在某些测量值下是相似的,干预效果的估计结果是所有子组的加权平均。

利用分层算法估计的平均干预效果:

4.3 匹配算法(Matching)

  • 干预估计

    匹配算法使用下面的公式来估计后果:

    $\hat{Y_i}(0)$代表对照组,$\hat{Y_i}(1)$表示实验组。$\mathbb{J}(i)$代表在相反的treatment组中和单位$i$距离最近的样本。

  • 样本距离度量方法

    • 欧氏距离
    • 马氏距离
  • 样本空间

    • 原始空间
    • 特征变换空间
      • 基于倾向得分的转换空间
      • 其他转换空间
  • 基于倾向得分的匹配

    基于倾向得分

    定义两个units之间的距离

  • 匹配算法

    • 邻近算法
    • Caliper算法
    • 分层算法
    • 核函数
  • 匹配算法总结

匹配算法总结

4.4 基于树方法(Tree-based Method)

基于决策树学习的方法也是一种流行的因果推断方法,这是一种预测模型方法。决策树是一种用于分类或者回归的无参数监督学习算法,决策树的目标是通过数据推导出简单的决策规则用以创建一个可以预测目标变量值的模型。

如果目标变量是离散变量,那么称为分类树,使用误分类成本来评估预测错误。在树模型的结构中,叶子节点表示类标签,分支节点表示推导出这些类标签的决策特征。如果目标变量是连续变量,那么称为回归树,其预测误差由观测值与预测值的平方差来度量。分类和回归树的总称为 Classification And Regression Tree (CART),用于指代上述两种过程。在CART模型中,对数据空间进行分区,并对每个分区空间拟合一个简单的预测模型,因此每个分区都可以用决策树的图形表示。

为了评估因果效应,原参考文献提供了一种基于CART的数据驱动方法,该方法将数据划分为策略效果不同的子群。即使有许多与样本大小相关的相关变量,并且没有“稀疏性”假设的情况下,这种方法也能为策略效果建立有效的置信区间。

这种方法与传统的CART有两个不同之处:首先,它侧重于估计某些子群下的平均策略效果,而不是像传统CART那样侧重于预测结果。其次,对于构建分区和评估评估每个分区策略效果这个两步任务,该方法使用不同的样本,这样的估计是可靠的;然而,在传统的CART中,这两个任务使用相同的样本。

ps:总体来说,就是我们虽然也是构建决策树,但是不是为了预测一个新的样本的目标变量,只是为了得到树的结构,然后基于这个树的结构自然而然的将整个数据集划分出很多子群,然后评估各个子群的策略效果,最后进行加权平均即可。

在CART中,树是构建过程直到达到一个我们设定的划分阈值。对于一个决策树的结构,可以根据需要继续增加枝叶或者剪枝。然而,BART是一群树,所以它更像随机森林。在原参考文献[28][29]中提出了一种称为贝叶斯加性回归树(BART)的模型。BART模型中的每棵树都是弱学习器,并且受到正则化先验的约束。该模型可以通过贝叶斯后验公式和MCMC模拟进行学习训练。BART是一种非参数贝叶斯回归模型,它使用维度自适应随机的基础元素。

ps:就是有BART这样一个集成算法,算法的基本元素是贝叶斯回归树,模型的优化过程是使用蒙特卡洛随机模拟和贝叶斯后验来搞定的,而且不用设置参数,是维度自适应的。

设$W$ 是一棵二分类树,其中包含一组内部节点决策规则和终端节点,设$M=\{\mu_1,\mu_2,…,\mu_B\}$为 $W$的第$B$个终端节点相关联的规则参数。我们使用$g(x;W,M)$ 表示输入向量$x$在规则参数$\mu_b\in M$下的运算结果。加性树模型可以表示为:

BART有几个优势。它很容易实现,只需要输入策略结果,策略分配情况,和混杂相关变量。此外,它不需要知道这些变量之间的相关关系,因此在拟合模型时需要较少的人为设定。此外,它可以通过使很多弱预测器结合的方式,产生合适的不确定性区间,也可以处理连续策略变量和缺失数据[53]。

BART是用来估计平均因果效应的。事实上,它也可以用来估计个体水平的因果效应。与其他方法如倾向得分匹配、倾向得分加权和回归调整等方法相比,BART不仅可以很容易地评估分层策略效应,而且可以更准确地估计平均策略效应[53]。

在以往的方法中,对策略效果的先验分布往往是间接推测的,这是很难获得的。加性回归树(例如,回归森林)的灵活之处在于,它可以通过建模,得到一个关于相关控制变量和策略变量与响应变量的函数关系,来解决这个问题[48]。这种方法介于两个极端之间:分别单独为策略组和对照组建模,或直接放在一起建模,仅将策略分配作为一个变量。

随机森林是一种由决策树预测器组合而成分类器,其中每棵树依赖于一组随机向量数据,该组随机向量数据是独立采样的,并且对所有决策树来说,这些数据的分布是相同的[20]。该模型还可以扩展到基于Breiman’s随机森林算法的分层处理效果估计[141]。决策树和随机森林是具有自适应邻域度量的最近邻方法,基于决策树的方法寻找接近于样本$x$的训练示例,本质上是基于决策树中的近邻概念来寻找近邻。最接近$X$的点是落在同一片叶子上的点。使用决策树的优点是,它们的叶子可以在信息快速变化的方向上更窄,而在其他方向上更宽,当特征空间的维数相当大时,可能导致计算复杂性的大幅增加。

基于决策树的框架也可以扩展到单维或多维策略[142]。每个策略可以是离散的,也可以是连续的。采用树形结构来指定样本特征与对应对应的策略之间的关系。这种基于树的框架对预设模型的出错有很好的鲁棒性,并且具有高度的灵活性和最小的手动调优。

ps:总而言之,就是通过决策树的方法,对样本就行了分层,或者说对样本进行了匹配,同一个叶子结点的样本为近邻群体,实现了分层或者匹配紧邻的目的;然后与前两种因果推断方法(分层和匹配)类似的加权求平均来评估ATE。然后上面介绍了好多这种方法的优点,其实主要就是无参数,自适应,集成方法准确度高!

4.5 表示学习方法(Representation Learning Methods)

4.5.1 均衡表示学习

统计学习理论中最基本的假设是训练数据和测试数据来自相同的分布。然而,在大多数实际情况下,测试数据是从一个只与训练数据的分布相关但不完全相同的分布中得出的。在因果推理中,这也是一个很大的挑战。与随机对照试验不同,策略分配的机制在可观测数据中并不明确。因此,策略的实施并不独立于样本的某些属性。例如,在一项关于一种药物治疗效果的观察性研究中,人们会根据患者的某些因素(包括已知的混杂因素和一些未知的混杂因素)分配不同的治疗药物。然而,反事实情况下的数据分布通常不同于事实的数据分布。因此,有必要通过根据真实数据学习到的模型来预测反事实结果,从而将因果推理问题转化为领域适应问题。

ps:简单的介绍一下领域适应问题,领域适应问题指训练出来的模型对于该领域内任何分布的数据上都是适应的,例如预测一张图片是否存在小狗的模型,无论是小狗在草地上还是小狗在沙滩都能准确识别出小狗,困难在于,我们的训练数据是有偏差的,比如我们收集的图片大部分小狗都是在草地上,模型自然将草地与小狗出现建立了联系,这样的模型来预测沙滩上的小狗效果是很差的;同样的,如果我们能得到一个领域适应的模型,那么反事实结果就可以预测出来了!好啦,在这个背景下,我们继续:

提取有效的特征表示是领域适应问题的关键。原参考文献[14]从理论上提出了一个具有泛化边界的模型来对这种想法建模,该模型不仅可以显式地减小训练集和目标测试集之间的差异,而且可以最大化训练集的适用范围。基于这项工作[14],样本分布之间的差异距离可用来构造具有任意损失函数的领域适应问题[83]。在后续的讨论中,差异距离在解决因果推理的领域适应问题中起着重要的作用。

所以,我们可以清楚地看到反事实推理和领域适应之间的联系。一种最直接的想法就是加强表示空间中不同策略组分布之间的相似性。这样在表示空间内(其实就是对原始数据进行某种映射,映射到另一个空间),不同策略组就不存在分布偏差;学习到这样的表示空间需要权衡三个目标:(1)事实数据在表征空间的预测误差小,(2)考虑相关事实结果的反事实结果预测误差小,(3)表示空间内,策略样本和对照样本分布之间的距离小。

对这三个目标,首先来看第三个目标:策略样本和对照样本分布之间的距离小,这是我们的本质目标,我们就想得到这样一个表示空间,消除样本之间的选择偏差,这个容易理解。那么对于前两个目标,我们要清楚我们学习这样的表示空间是为了预测反事实结果,所以预测误差仍然是我们的核心目的,那么预测分两方面:第一,对数据本身的预测要准,第二,对反事实的预测要准,那么怎么衡量反事情准呢?将相反策略组的事实数据拿过来作比较,即原文提到的考虑相关事实结果的反事实结果预测误差小

根据以上的目标,原参考文献[122]给出了一个简单直观的泛化误差边界作为训练目标来学习表示空间。结果表明,该表示方法的期望ITE 估计误差为该表示方法的泛化误差和表示空间内策略组样本分布与对照组样本分布之间的距离之和。在该方法中,积分概率准则(IPM)用于衡量样本分布之间的距离,作者使用瑟斯坦距离(Wasserstein distance)和最大平均差异距离(Maximum Mean Discrepancy)推导出了泛化误差上界。在$h:X\times\{0,1\} \to Y$的假设下,通过最小化下面公式(25)表示的目标函数,以达到学习到一个表示空间$\Phi:X\to R$ 的目的。上面这个假设就是环境变量$X$与策略变量$\{0,1\}$交互可预测结果变量 $Y$。

其中, $r_i$是权重参数,表示不同策略组样本数量的占比; $R(h)$是模型 $h$复杂度;

这个目标函数很容易理解,首先第一项是我们想衡量的预测误差项,预测$h(\Phi_{x_i},W_i)$ ,实际是 $y_i$ ,损失函数是$L(h(\Phi(x_i),W_i),y_i)$;第二项是正则项就不用解释了,对模型复杂度进行惩罚;第三项就是我们前面提到的表示空间内,策略样本$\{\Phi(x_i)\}_{i;W_i=1}$和对照样本 $\{\Phi(x_i)\}_{i;W_i=0}$分布之间的距离$IPM_G({\Phi(x_i)}_{i;W_i=0},\{\Phi(x_i)\}_{i;W-i=1})$,这里使用积分概率准则(*IPM* )来衡量,那么具体(*IPM* )如何来计算呢?原文下面介绍到:

给定两个在$d$维空间上 $S\in R^d$的两个分布密度函数 $p,q$ ,和一个属于 $G$ 函数集的函数 $g:S \to R$,那么IPM 的计算方式如下:

上述的方法具有很大的灵活性,可以学习到非线性的表示和预测方法。但是当映射函数 $\Phi$维度很高时,那么在预测函数$h(\Phi(x_i),W_i)$ 中。策略$W$ 的作用就会很小,这是一个风险。为了解决这个问题,一种方法就是分别建模$h_1(\Phi)$ 和$h_0(\Phi)$ ,他们共享多任务学习的网络结构;每个样本仅用于更新相对应的模型。其优点是,统计特征在共同的表示层中共享,策略的影响在单独的模型中保留[122]。如原参考文献[120]中的完全匹配方法,该模型还可以扩展到任意数量的策略。在此基础上,提出了几种改进模型并进行了讨论。例如,文献[61]中将平移不变性的表示学习和重加权方法结合在一起。文献[51]在表示学习的基础上,提出了一种新的基于重抽样技术的上下文感知加权方案,以缓解ITE估计中的选择偏差问题。

4.5.2 局部相似表示学习

现有的ITE估计方法主要关注于平衡对照组和策略组样本的分布,而忽略了局部相似性信息。然而考虑局部相似性可以为ITE估计提供了有意义的思路。文献[147,150]提出了一种基于深度表示学习的保持局部相似度的个体策略效应(SITE )估计方法。SITE 保持局部相似性,同时平衡数据分布。SITE 的框架包括五个主要部分:表示网络、三联体对的选择、位置依赖的深度准则(PDDM )、中点距离最小化(MPDM )和结果预测网络。为了提高模型效率,SITE以小批量处理的方式输入训练样本,可以从每个小批量样本中选择三联体对。表示网络代表输入样本的潜在映射。PDDMMPDM 可以在保留局部相似信息的同时实现潜在空间的平衡分布。最后,将小批量样本在潜在空间的表示映射到二分类结果预测网络中,得到潜在结果。SITE 的损失函数如下:

其中, $L_{FL}$代表预测结果和实际观测结果的损失函数, $L_{PDDM}$和$L_{MPDM}$ 分别代表PDDMMPDM 的损失函数度量,最后一项还是正则项,关于参数 $M$的 $L_2$ 正则。

上面这个SITE 介绍的太抽象了,简单解释一下思想就是,网络结构还是不变的,就是在损失函数上考虑了局部相似性,那么用什么衡量局部相似性呢?使用位置依赖的深度准则(PDDM )和中点距离最小化准则(MPDM),至于什么是三联体对呢?三联体就是 $\{\Phi(x_i),W_i,Y_i\}$,至于三联体对就是策略组和控制组各取一个三联体组成对;具体细节和上面公式(27)表示的损失函数中的各个部分的详细公式,需要感兴趣的小伙伴回到原文献探索了。

4.5.3 去工具变量表示学习

大多数模型主要关注数值型的相关变量,而如何在策略效果评估时处理文本信息类型的变量仍然是一个开放性的问题。一个主要的挑战是如何过滤掉那些类似于工具变量的变量,这些变量与策略强相关,甚至大于结果与策略之间的关系。以这些变量为条件来估计策略效果会放大估计偏差,因为他们一旦确定,策略一般也是固定的。为了应对这一挑战,原参考文献[151]提出了一种基于条件”对抗策略”学习的匹配方法(CTAM )。CTAM 应用“对抗策略”学习,在学习表征时过滤掉类似工具变量相关的信息,然后在学习的表征之间进行匹配,以估计策略效果。CTAM 包含三个主要部分:文本处理、表示学习和条件处理鉴别器。通过文本处理组件,将原始文本转换为矢量表示$S$ 。然后将$S$与非文本协变量$X$连接,构造统一的特征向量,将特征向量输入表示神经网络,得到潜在表示$Z$ 。得到潜在表示$Z$ 后, $Z$和潜在的结果$Y$ 被输入条件处理鉴别器。在训练过程中,表示学习器与条件处理鉴别器进行极大极小博弈:为了达到阻止鉴别器分辨出正确的策略,表示学习器需要过滤掉类似工具变量相关的信息。最后的匹配过程在表示空间$Z$ 中执行。条件”对抗策略”学习有助于减少策略效果估计的偏差。

4.5.4 基于表示学习的匹配方法

与上述基于回归的表示学习方法相比,匹配方法更具可解释性,因为任何样本的反事实结果都直接被设置为接受其他策略的组中最近邻的事实观测结果。最近邻匹配(NNM )将任何试验(对照)样本的反事实结果设置为在对照(试验)组中最近邻的事实结果相等。大多数NNM 方法虽然简单、灵活、可解释,但容易被大量的无关变量所误导。为了解决这一挑战,可以对试验组和对照组的预测结果变量的子空间进行匹配。在学习到的子空间中应用NNM 可以更准确地估计反事实结果,从而更准确地估计策略效果。参考文献[26]通过学习投影矩阵来估计试验样本的反事实结果,该投影矩阵通过最大化对照样本在表示空间的投影与结果变量之间的非线性相关性来求得。然后将学习到的投影矩阵直接应用到所有样本上,在子空间中寻找与试验样本匹配的所有对照样本。

4.6 多任务学习方法(Multitask Learning Methods)

策略组和对照组除了某些各自的特性外,也存在一些共同的性质。自然地,因果推理可以被定义为一个多任务学习问题,它包含策略组和对照组的共享层,以及策略组和对照组的各自的特定层。多任务学习问题中选择偏差的影响可以通过基于倾向得分的dropout 正则化方法来缓解[4],该方案通过依赖于倾向得分的dropout\ 概率对每个训练样本进行细化。如果某个样本的特征落在策略组和对照组的特征空间中较差的重叠区域,那么dropout 概率更高。

贝叶斯方法也可以扩展到多任务模型下。非参数的贝叶斯方法[3]使用了一个多任务高斯过程,该高斯过程以 一个定义在向量值映射的可再生核希尔伯特空间上的线性共区域核作为先验。这句话太专业了,读起来都很拗口,核心就是这个多任务问题给建模成了一个高斯过程问题(高斯过程问题请自行查阅);那么高斯过程需要一个先验分布啊,这个方法就定义了一个所谓线性共区域核的先验,并且说明这个先验是定义在向量值映射的可再生核希尔伯特空间上。 贝叶斯方法可以通过联合分布来计算我们估计的每一个样本的策略效果的置信度,这对实现精确医疗至关重要。我们可以采用基于风险的经验贝叶斯方法对多任务高斯过程的先验进行调整,从而减少选择偏差的影响,它的核心思想是使观测结果中的经验误差和反事实结果中的不确定性得到最小化。

多任务模型可以扩展到多个策略,即使每个策略中有连续的参数。剂量反应网络(DRNet)架构具有共享的基础层[119]、$N_W$ 个中间策略层和$N_W\times E$ 个输出节点,这些输出节点可用于表示具有相关剂量参数$s$ 的多重策略。即每个策略( $N_W$ )有 $E$个剂量。共享的基础层对所有样本进行训练,而策略层只对来自各自策略组的样本进行训练。每一策略层又连接$E$ 个输出节点,每个输出节点被分配一个剂量,该剂量将潜在剂量的范围$[a_t,b_t]$细分为等宽的$E$ 分区,每个分区的宽度就是 $\frac{b_t-a_t}{E}$ 。

应用多任务学习的本质依然是通过机器学习得到精准的模型来估计反事实结果,那么对于选择性偏差问题,我们采用基于倾向得分的dropout 方法来缓解。做过神经网络的同学应该比较熟悉dropout 方法,就是一种网络中常见的降低过拟合的正则化方法,原理类似于随机抽样,但是在传统的神经网络中,dropout 系数是一个我们提前设定的超参数,对每一个样本都是一样的,在这里的dropout系数是根据倾向得分个性化的,如果某个样本的特征落在策略组和对照组的特征空间中较差的重叠区域,那么dropout 概率更高。

至于后面的贝叶斯方法就是将神经网络换成贝叶斯网络,多策略就是多了一些输出节点,多策略多剂量就是每个策略层后多加了一些输出节点,万变不离其中,核心还是这个dropout 系数的设定。

4.7 元学习方法(Meta-Learning Methods)

我们在设计对于不同策略效果的估计算法时,应该考虑两个核心因素:1) 控制混杂,例如消除混杂造成的对策略效果错误的估计;2) 给CATE 一个精准的估计。我们之前介绍的方法均是想同时达到这两个目的,然而,基于元学习的方法将这个过程分成了两步。总体来说,基于元学习的方法有下面的两步:(1) 估计条件期望结果$E[Y|X=x]$ ,该步学习到的模型称为元学习器;(2) 基于上一步得到策略组估计结果之间的差异来估计CATE。已有的元学习方法包括T学习器,S学习器,X学习器,U学习器和R学习器,接下来我们一一介绍:

T学习器构造两个决策树分别估计条件策略和对照结果,记为$\mu_1(x)=E[Y(1)|X=x]$ 和$\mu_0(x)=E[Y(0)|X=x]$ ,进而,我们使用$\hat{\mu_0}(x)$ 和$\hat{\mu_1}(x)$ 分别代表在对照组和策略组训练好的决策树模型。最后,T学习器的CATE 估计值为:$\hat{\tau}(x)=\hat{\mu_1}(x)-\hat{\mu_0}(x)$ 。T学习器为对照组和策略组训练了两个元学习器,T代表Two;

与T学习器不同的是,S学习器将策略作为一个特征加入模型训练,训练了一个统一的结果预估模型:$\mu(x,w)=E[Y^F|X=x,W=w]$ (S代表Single),进而,训练好的模型记为:$\hat{\mu}(x,w)$ 。最后CATE 的估计值为:$\hat{\tau_S}(x)=\hat{\mu}(x,1)-\hat{\mu}(x,0)$。

然而,T学习器和S学习器高度依赖训练模型的准确性,当对照组和策略组的样本数量很不均衡的时候,在数量较小的样本组上,模型效果会比较差。为了克服这个困难,参考文献[70]中提出来X学习器,X学习器额外使用对照组的信息对策略组做出了更好的估计,反之亦然;交叉各组信息的使用是X学习器名称的由来,X表示交叉。

具体来说,X学习器包含三个关键步骤。X学习器的第一步与T学习器相同,将训练过的元学习者记为$\hat{\mu_0}(x)$ 和 $\hat{\mu_1}(x)$。在第二步中,X学习器计算观察结果与估计结果之间的差异作为估计的策略效果:在对照组中,该差异是估计的策略结果减去观察到的对照结果,记为:$\hat{D_i^C}=\hat{\mu_1}(x)-Y^F$;同样的,在策略组中,差异表述为:$\hat{D_i^F}=Y^F-\hat{\mu_0}(x)$ 。进行差异计算后,将数据集连同计算出的策略效果转换为两组:对照组:$(X_C,\hat{D}^C)$ 和策略组$(X_T,\hat{D}^T)$ 。在两个估计数据集上,以$X_C(X_T)$ 为输入,$\hat{D}^C(\hat{D}^T)$为输出,训练策略效应模型$\tau_1(x)(\tau_0(x))$ 两个元学习者。最后一步是将两个CATE 估计量通过加权平均组合在一起: $\tau_X(x)=g(x)\hat{\tau_0}+(1-g(x))\hat{\tau_0}(x)$,其中$g(x)$为0到1之间的加权函数。总的来说,通过交叉信息的使用和两种CATE 元学习器的加权组合,X学习器可以处理两组样本数量不平衡的情况[70]。

与X学习器采用的常规的损失函数不同,R学习器[87]为CATE 估计设计了的基于Robinson变换的损失函数[104]。R学习器中的R表示Robinson变换。通过重写观测结果和条件估计结果可以导出Robinson变换,将观测结果重写为:

其中,$\hat{\mu_0}$ 是已经训练的对照结果估计器(元学习器), $\hat{\tau}(x_i)$是CATE 估计器,并且$E[\varepsilon|x_i,w_i]=0$ (基于可忽略假设)。再将条件估计结果重写为:

其中,$\hat{e}(x)$ 是已经训练过的倾向得分估计器(元学习器)。Robinson变换是通过公式(28)和(29)相减得到:

基于Robinson变换,一个良好的CATE 估计应该最小化$Y_i^F-\hat{m}({x_i})$ 和$w_i-\hat{e}(x_i)\tau(x_i)$ 之间的差异。因此,R学习器的目标函数如下所示:

其中,$\hat{m}(x_i)$ 和$\hat{e}(x_i)$ 是预训练的结果估计器和倾向分估计器,$\Lambda(\tau(·))$ 是对$\tau(·)$ 的正则化。

虽然作者漏掉了U学习器,但是这部分的内容也是十分丰富。道理我们都懂,分两步,先把反事实结果估计出来,再估计CATE ;大家也都知道通过元学习器来估计反事实结果,但是这个元学习器是如何求解出来的?是不是还是要用上面介绍的决策树方法、领域适应方法或者多任务学习方法呢?

5. 实验指导(Guideline About Experiment)

这一章节介绍当前研究可用的数据集、开源代码及研究框架。

5.1 数据集(Datasets)

由于反事实的结果永远无法被观察到,因此很难找到一个完全满足实验要求的数据集,即具有基本真实数据集 (ITE) 的观测数据集。

现在很多研究中使用到的数据集基本上都是半人工合成的数据集,合成的规则不尽相同,如IHDP数据集,是从随机数据集中按照一定的生成过程生成其观测结果,并去除一个有偏子集来模拟观测数据集中的选择偏差。一些数据集,如Jobs数据集,将随机数据集和观察控制数据集结合起来,产生选择偏差。

5.2 开源的研究框架(Toolboxs)

开源框架介绍

5.3 开源因果推断方法(Code of Methods)

基于Python语言

基于R语言

6. 应用(Applications)

因果推理的应用可以分为三个方向

  • 决策评估 —— 这与Treatment效果评估的目标是一致的。
  • 反事实估计 —— 反事实学习极大地帮助了与决策相关的领域,因为它可以提供不同决策选择(或策略)的潜在结果。
  • 处理选择偏差 —— 在许多实际应用程序中,出现在收集的数据集中的记录并不代表感兴趣的整个群体。如果不恰当地处理选择偏差,将影响训练模型的泛化。

下面是这三个方向适用的应用场景:

应用场景

6.1 广告(Advertising)

决策评估

正确衡量广告活动的效果是品牌方成功营销的关键,如新广告是否增加点击量,或新广告是否增加销售额等。

衡量方法

  • 随机试验 —— 成本高且耗时,不应采纳
  • 从观察数据中估计广告效果
    • 随机最近邻匹配法 —— 估计数字营销活动的治疗效果
    • 协变量平衡广义倾向得分(CBGPS)—— 用于分析政治广告的有效性

处理选择偏差

由于广告系统中现有的选择机制,显示和未显示的事件之间存在分布差异。忽视这种偏差会使广告点击预测不准确,从而造成收入损失。

6.2 电子邮件营销(e-mail marketing)

决策评估

目的:瞄准潜在客户,增加收入。

使用决策评估帮助在不同的促销电子邮件设计中进行选择。

6.3 推荐系统(Recommendation)

决策评估

在推荐系统中给用户推送商品的过程,相当于给原子研究对象施加干预,通过用户的点击、消费等行为评估干预(推荐)的效果。

系统的推荐建议与评估的干预效果高度相关。

处理选择偏差

推荐系统中使用的数据集通常由于用户的自我选择而产生偏差。

例如,在电影收视率数据集中,用户倾向于对自己喜欢的电影进行评分:恐怖电影的收视率大多由恐怖电影迷制作,而浪漫电影的影迷则较少。

对于广告推荐,推荐系统只会将广告推荐给系统认为对这些广告感兴趣的用户。

在上面的例子中,数据集中的记录并不代表整个群体,这就是选择偏差。这种选择偏差给推荐模型的训练和评价带来了挑战。基于倾向得分的样本再加权是解决选择偏差问题的有效方法。

6.4 药物治疗(Medicine)

反事实估计

当可以估计不同的可用药物的疗效时,医生可以据此开出更好的处方。

6.5 教育(Education)

反事实估计

通过比较不同教学方法对学生群体的影响,可以确定一种更好的教学方法。

6.6 强化学习(Reinforcement Learning)

机械臂的探索和开发类似于随机试验和观察数据。因此,这两个领域有一些相似的关键挑战:如何获得一个无偏的结果/奖励估计?如何处理影响治疗分配/行动选择和结果/奖励的观察到或未观察到的混杂因素?因此可以使用因果推断中的方法用于强化学习中,得到无偏的估计。

7. 总结(Conclusion)

长期以来,因果推理一直是一个很有吸引力的研究课题,因为它提供了一种有效的方法来揭示现实问题中的因果关系。如今,机器学习的蓬勃发展给这一领域带来了新的活力,同时,因果推理领域的精深思想也推动了机器学习的发展。在这一Survey中,我们在潜在结果框架下,提供了一个全面的回顾方法。由于潜在结果框架依赖于这三个假设,因此方法被分为两类。一个类别依赖于这些假设,而另一个类别放宽了一些假设。对于每个类别,我们提供了详细的讨论、比较和综述方法。文中还列出了这些方法的可用基准数据集和开源代码。最后,介绍了因果推理在现实世界中的一些代表性应用,如广告、推荐、医学和强化学习。


文章作者: Peyton
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Peyton !
  目录