数据和描述性结果
Output 2. 填补结果
              
            
本功能基于双稳健的方式,对结局变量存在缺失的数据进行填补,并输出完整数据集方便用户进行后续分析。
缺失结局的填补基于双稳健的方式整合了两个缺失数据插补模型,并通过倾向得分模型进行加权,使得我们的方法受缺失数据插补模型错误指定的影响较小。此外,我们使用联合学习的方式交替更新缺失数据插补模型。与传统的双稳健方法相比,我们提出的方法可以进一步控制倾向得分模型和缺失数据插补模型之间的协方差,从而提高数据插补的质量。
用以下符号表示变量
我们假定样本特征不存在缺失,样本观测状态不存在缺失,样本观测结局存在部分缺失。
本方法构建双重稳健(doubly robust)损失,并采用联合学习方法 [1] 优化该损失,详述如下。
对于任意样本 \(i\),任意结局插补模型 \(f(\cdot)\) 的输出记为该样本的结局插补 \(f(x_i) = \hat{y}_i\)。
对于任意样本 \(i\),任意误差插补模型 \(m(\cdot)\) 的输出记为该样本的误差插补 \(m(x_i)\)。
对于任意样本 \(i\),其倾向性得分模型 \(p(\cdot)\) 用于预测其被观测到的概率 \(p(x_i)\) [2],公式表示为
$$ p(x_i) \triangleq \mathbb{P}(o_i=1|x_i) $$
结局插补模型和误差插补模型根据如下公式构造双稳健损失 \(\mathcal{L}_r\) 和 \(\mathcal{L}_e\):
其中 \(\mathcal{L}_r\) 的表达式如下:
$$ \mathcal{L}_r = |\mathcal{D}|^{-1} \sum_i \left[\hat m(x_i)+\dfrac{o_i(e(x_i)-\hat m(x_i))}{\hat p(x_i)}\right] $$
其中 \(\mathcal{L}_e\) 的表达式如下:
$$ \mathcal{L}_e=\sum_i \dfrac{o_i(\hat m(x_i)-e(x_i)-\epsilon (o_i-\hat p(x_i)))^2}{\hat p(x_i)} $$ 其中 \(e(x_i)=(f(x_i)-y_{i})^2\).
本优化方法通过优化 \(\mathcal{L}_r\) 来更新 \(f\) 的参数,通过优化 \(\mathcal{L}_e\) 来更新 \(m\) 的参数和 \(\epsilon\)。具体的,我们按如下步骤进行优化
本方法的优点如下:
[1] Wang, X., Zhang R., Sun Y., and Qi J. “Doubly robust joint learning for recommendation on data missing not at random.” In International Conference on Machine Learning, 2019.
[2] Rosenbaum, Paul R., and Donald B. Rubin. The central role of the propensity score in observational studies for causal effects. Biometrika 70.1, 1983.
[3] Marlin, B., Zemel, R. S., Roweis, S., and Slaney, M. Collaborative filtering and the missing at random assumption. In UAI, 2007.
[4] Van Esbroeck, A., Singh, S. P., Rubinfeld, I., and Syed, Z. Evaluating trauma patients: Addressing missing covariates with joint optimization. In AAAI, 2014.