PSM倾向得分匹配实操.pdf

基本信息

文件名称：PSM倾向得分匹配实操.pdf

文件大小：136.04 KB

总页数：3 页

更新时间：2025-03-26

总字数：约3.76千字

文档摘要

倾倾向向得得分分匹匹配配（（PSM））的的实实践践操操作作与与核核心心要要点点解解析析

一一、、方方法法原原理理与与适适用用场场景景

倾向得分匹配（PropensityScoreMatching）是察性研究中消除选择偏误的常用方法。其核心思想是通过构建反事实框架，

为处理组的每个个体找到背景特征相似的对照组个体，从而模拟随机试验环境。该方法适用于存在明显选择偏误的察数据，

特别是当实验分组无法随机分配时（如政策评估、医疗效果分析等场景）。需特别注意，PSM的有效性依赖于两个关键假

设：条件独立假设（CIA）和共同支撑条件（CommonSupport）。

二二、、数数据据准准备备与与变变量量选选择择

1.样本筛选标准

明确处理组和对照组的划分标准，确保分组变量具有明确的政策含义或干预特征。建议保留原始样本量的15%-20%作为

共同支撑区域，当对照组样本量不足处理组的3倍时需谨慎使用。

2.协变量选择原则

纳入所有同时影响处理变量和结果变量的混淆因素，优先选择可测的基线特征变量。建议通过文献回顾和理论分析确

定变量清单，避免数据驱动的变量筛选。典型协变量包括人口统计学特征、基线健康状况、经济指标等。

3.缺失值处理策略

对连续变量采用多重插补法（MultipleImputation），分类变量使用众数填补。需记录缺失比例，当关键变量缺失超过

30%时应考虑剔除该变量或调整研究设计。

三三、、倾倾向向得得分分估估计计

1.模型选择与验证

推荐使用ogit模型进行初步估计，当结果变量分布存在明显偏态时可尝试Probit模型。通过Hosmer-emeshow检验评估

模型拟合优度，计算ROC曲线下面积（AUC）应大于0.7。若AUC超过0.9可能提示模型过拟合。

2.变量交互与多项式项

探索重要变量的二次项和交互项，如年龄的平方项、收入与教育程度的交互项。建议通过逐步回归法筛选显著项，使用

似然比检验比较模型改进效果。

3.分数分布可视化

绘制处理组与对照组的倾向得分分布核密度图，察重叠区域范围。使用JitterPlot展示个体得分分布，识别可能的外围

异常值。当得分分布呈现明显双峰特征时，需重新检验模型设定。

四四、、匹匹配配方方法法选选择择与与实实施施

1.最近邻匹配（NearestNeighbor）

设置卡尺（caliper）为倾向得分标准差的0.2倍，启用有放回匹配以降低方差。建议进行1:2匹配提高估计效率，当对照

组样本充足时可尝试1:4匹配。需检查个体被重复使用的次数，避免个别样本过度影响结果。

2.核匹配与局部线性回归

对于小样本研究推荐Epanechnikov核函数，带宽参数设置为0.06。局部线性回归匹配可有效处理边界偏差，但计算量较

大。需注意核函数选择对结果敏感性的影响。

3.分层匹配与精确匹配

对关键分类变量（如性别、地区）实施精确匹配，确保核心特征的完全平衡。分层匹配建议划分5-10个区间，检验各层

内的平衡性是否达标。

五五、、匹匹配配质质量量评评估估

1.标准化差异检验

计算各协变量在处理组和对照组间的标准化差异（StandardizedDifference），阈值应小于10%。重点关注显著影响结

果的变量平衡情况，对标准化差异超过15%的变量需重新调整模型。

2.t检验与方差分析

匹配后各连续变量的组间差异应无统计学意义（p0.1），分类变量的卡方检验p值需大于0.05。建议使用加权方差分析

处理连续变量，采用Bonferroni校正控制多重检验误差。

3.伪R2检验

匹配后的伪R2应接近0，一般要求小于0.1。若伪R2显著大于匹配前值，提示匹配过程未能有效消除组间差异，需检查模

型误设问题。

六六、、因因果果效效应应估估计计

1.平均处理效应（ATE）计算

采用自助法（Bootstrap）估计标准误，重复抽样500次以上。对连续结果变量报告均值差异及置信区间，二分类变量使

用风险比（RR）或优势比（OR）。

2.异质性分析

通过分样本回归检验处理效应的稳定性，重点关注不同性别、年龄组、地区的效应差异。建议绘制处理效应的条件分布

图，识别可能存在的阈值效应。

3.敏感性分析