缺失结局的填补

功能简介
缺失结局填补
- 停止
- 重启
- 首页

“缺失结局的填补”的简单介绍

功能介绍

本功能基于双稳健的方式，对结局变量存在缺失的数据进行填补，并输出完整数据集方便用户进行后续分析。

缺失结局填补方法介绍

缺失结局的填补基于双稳健的方式整合了两个缺失数据插补模型，并通过倾向得分模型进行加权，使得我们的方法受缺失数据插补模型错误指定的影响较小。此外，我们使用联合学习的方式交替更新缺失数据插补模型。与传统的双稳健方法相比，我们提出的方法可以进一步控制倾向得分模型和缺失数据插补模型之间的协方差，从而提高数据插补的质量。

缺失结局的填补涉及的数学符号

用以下符号表示变量

\(\mathcal{D}\) 表示所有样本的集合，
\(x_{i}\) 表示样本 \(i\) 的协变量，
\(y_{i}\) 表示样本 \(i\) 的观测结局，
\(\mathcal{O}=\{o_{i}\}\) 表示观测状态集合。如果 \(o_{i}=1\) 表示 \(y_{i}\) 被观测到，如果 \(o_{i}=0\) 表示 \(y_{i}\) 未观测到。

我们假定样本特征不存在缺失，样本观测状态不存在缺失，样本观测结局存在部分缺失。

原理介绍

本方法构建双重稳健（doubly robust）损失，并采用联合学习方法 [1] 优化该损失，详述如下。

结局插补模型

对于任意样本 \(i\)，任意结局插补模型 \(f(\cdot)\) 的输出记为该样本的结局插补 \(f(x_i) = \hat{y}_i\)。

误差插补模型

对于任意样本 \(i\)，任意误差插补模型 \(m(\cdot)\) 的输出记为该样本的误差插补 \(m(x_i)\)。

倾向性得分模型

对于任意样本 \(i\)，其倾向性得分模型 \(p(\cdot)\) 用于预测其被观测到的概率 \(p(x_i)\) [2]，公式表示为

$$ p(x_i) \triangleq \mathbb{P}(o_i=1|x_i) $$

双重稳健损失

结局插补模型和误差插补模型根据如下公式构造双稳健损失 \(\mathcal{L}_r\) 和 \(\mathcal{L}_e\)：

其中 \(\mathcal{L}_r\) 的表达式如下：

$$ \mathcal{L}_r = |\mathcal{D}|^{-1} \sum_i \left[\hat m(x_i)+\dfrac{o_i(e(x_i)-\hat m(x_i))}{\hat p(x_i)}\right] $$

其中 \(\mathcal{L}_e\) 的表达式如下：

$$ \mathcal{L}_e=\sum_i \dfrac{o_i(\hat m(x_i)-e(x_i)-\epsilon (o_i-\hat p(x_i)))^2}{\hat p(x_i)} $$ 其中 \(e(x_i)=(f(x_i)-y_{i})^2\).

填补过程：联合学习方法

本优化方法通过优化 \(\mathcal{L}_r\) 来更新 \(f\) 的参数，通过优化 \(\mathcal{L}_e\) 来更新 \(m\) 的参数和 \(\epsilon\)。具体的，我们按如下步骤进行优化

固定 \(m(\cdot)\)，优化k次 \(\mathcal{L}_r\)。
固定 \(f(\cdot)\)，优化s次 \(\mathcal{L}_e\)。
重复1,2两步n次，直到收敛。

本方法优点

本方法的优点如下：

大多数插补方法都依赖于单一的缺失数据模型 [3]，我们以一种双重稳健的方式整合了两个缺失数据模型，这样我们的方法受缺失数据模型错误指定的影响较小。
之前的研究指出联合学习对于学习到更准确的插补模型有益 [4]，我们的方法在继承这些益处的同时，用倾向性得分在联合学习过程中进行加权，使我们的方法对不准确的插补模型具有鲁棒性。
我们提出的方法能进一步控制协方差项，在进一步减小估计误差时还能降低泛化误差界，从而提高插补模型的插补性能。

参考文献

[1] Wang, X., Zhang R., Sun Y., and Qi J. “Doubly robust joint learning for recommendation on data missing not at random.” In International Conference on Machine Learning, 2019.

[2] Rosenbaum, Paul R., and Donald B. Rubin. The central role of the propensity score in observational studies for causal effects. Biometrika 70.1, 1983.

[3] Marlin, B., Zemel, R. S., Roweis, S., and Slaney, M. Collaborative filtering and the missing at random assumption. In UAI, 2007.

[4] Van Esbroeck, A., Singh, S. P., Rubinfeld, I., and Syed, Z. Evaluating trauma patients: Addressing missing covariates with joint optimization. In AAAI, 2014.

缺失结局的填补

1. 准备数据

选择输入的数据类型:

输入数据:

示例数据
CSV/TXT数据上传
选择数字对象

示例数据

上传示例数据

请参考示例数据格式上传数据，上传数据将代替示例数据。

1. 选择CSV/TXT文件

Browse...

2. 是否将第1行用作列名？

是

否

3. 是否将第1列（无重复项）用作行名？

是

否

4. 数据使用了哪种分隔符？

逗号 (,)：CSV文件通常使用此分隔符

一个制表符(->|)：TXT文件通常使用此分隔符

分号 (;)

一个空格(_)

5. 数据使用了哪种引号？

不使用

双引号(")

单引号(')

正确的分隔符和引号确保数据输入成功

从此处可以下载示例数据

Loading...

2. 是否将第1行用作列名？

是

否

3. 是否将第1列（无重复项）用作行名？

是

否

2. 指定参数

插补模型神经网络层数:

残差模型神经网络层数:

数据和描述性结果

数据确认
变量的类别

Output 2. 填补结果

Loading...

请输入数字对象的文件名: