功能介绍

本功能通过自发呈报系统中收集到的药品不良反应数据,基于统计分析指标,数据挖掘技术和机器学习方法挖掘药品不良反应信号。具体而言,本功能基于不良反应数据,通过计算目前国内外药物不良反应信号监测中常见的几种指标,例如报告比数比 (ROR) [1]比例报告比 (PRR) [2]信息分数 (IC) [3]相对危险比 (RRR) [4]卡方检验统计量等判断一个药物不良反应信号是否产生。

统计指标介绍

假设收集到的患者数据遵循独立同分布。对于每位患者,我们定义其服用的药物为 \(D\),其中 \(D\) 可以是 \(m\) 种不同的药物之一,即 \(D \in \{d_1, d_2, \dots, d_m\}\)。同时,定义患者服用药物后可能出现的不良反应为 \(A\),其中 \(A\) 可以是 \(n\) 种不同的不良反应之一,即 \(A \in \{a_1, a_2, \dots, a_n\}\)。针对特定的药物-不良反应组合,即目标药物 \(d_i\) 和目标不良反应 \(a_j\),可构建一个 2×2 的列联表 [5] 来描述这种关联。该列联表包括以下四个部分:

  1. 服用目标药物 \(d_i\) 并出现目标不良反应 \(a_j\) 的患者数。
  2. 服用目标药物 \(d_i\) 但未出现目标不良反应 \(a_j\) 的患者数。
  3. 未服用目标药物 \(d_i\) 但出现目标不良反应 \(a_j\) 的患者数。
  4. 未服用目标药物 \(d_i\) 且未出现目标不良反应 \(a_j\) 的患者数。

该列联表具体展示如下:

药物 D / 不良反应 A 出现目标不良反应 未出现目标不良反应 总数量
服用目标药物 b c b+c
未服用目标药物 e f e+f
总数量 b+e c+f b+c+e+f

其中 \(b, c, e, f\) 分别代表每一类中的样本个数。例如, \(b\) 代表了不良反应数据库中服用目标药物 \(d_i\) 并出现目标不良反应 \(a_j\) 的患者数。通过对这个列联表的分析,可计算上述提到的各种统计指标,从而评估特定药物与不良反应之间的关联强度。


指标1: 报告比数比 (ROR)


首先给出报告比数比的定义。对于目标药物 \(d_i\) 和目标不良反应 \(a_j\),报告比数比的定义 [6] 为:

$$ROR_{ij}=\frac{P(A = a_j \mid D = d_i) / (1-P(A = a_j \mid D=d_i))}{P(A = a_j \mid D \neq d_i)/(1-P(A = a_j \mid D \neq d_i))},$$ 其中 \(P(A = a_j \mid D = d_i)\) 为患者服用目标药物 \(d_i\) 时目标不良反应 \(a_j\) 发生的条件概率, \(P(A = a_j \mid D \neq d_i)\) 为未服用目标药物(服用其他药物)时目标不良反应 \(a_j\) 发生的条件概率。报告比数比用来比较目标药物与目标不良反应组合出现的频率与背景频率的差异。在药物不良反应事件报告的数据库中,目标药物与目标不良反应的组合出现的频率越高于整个数据库的背景频率,报告比数比的数值越大。若数值达到了已设定好的相对应的阈值,则认为产生了一个不良反应的信号。 报告比数比的估计值为: $$\widehat{ROR_{ij}} = \frac{b/c}{e/f},$$

其 \(1-\alpha\) 的置信区间 (CI) 为: $$\exp{\{\log{(\widehat{ROR_{ij}})}\pm z_{1 - \alpha/2} \cdot \sqrt{1/b+1/c+1/e+1/f}\}},$$ 其中 \(\log{(\widehat{ROR_{ij}})}\) 服从标准正态分布 \(\operatorname{N}(0, 1)\)。在我们提供的实现例中,默认 \(\alpha = 0.05\),对应的 \(z_{1 - \alpha/2} = 1.96\)。实际使用时可以根据需要调节 \(\alpha\) 的值获得不同置信度下的置信区间。


指标2: 比例报告比 (PRR)


对于目标药物 \(d_i\) 和目标不良反应 \(a_j\),比例报告比的定义为: $$PRR_{ij} = \frac{P(A = a_j \mid D = d_i)}{P(A = a_j \mid D \neq d_i)}.$$ 比例报告比也是用来比较患者服用目标药物 \(d_i\) 后出现目标不良反应 \(a_j\) 的频率与背景频率的差异的指标。比例报告比值越大,则相比于服用其他药物,患者在服用目标药物后目标不良反应发生的概率越大。若比例报告比值超过了预先设定好的阈值,则为一个不良反应信号。 比例报告比的估计值为: $$\widehat{PRR_{ij}} = \frac{b/(b+c)}{e/(e+f)},$$ 其 \(1-\alpha\) 置信区间 (CI) 为: $$\exp{\{\log{(\widehat{PRR_{ij}})}\pm z_{1 - \alpha/2} \cdot \sqrt{1/b-1/(b+c)+1/e-1/(e+f)}\}},$$ 其中 \(\log{(\widehat{PRR_{ij}})}\) 服从标准正态分布 \(\operatorname{N}(0, 1)\)。在我们提供的实现例中,默认 \(\alpha = 0.05\),对应的 \(z_{1 - \alpha/2} = 1.96\)。实际使用时可以根据需要调节 \(\alpha\) 的值获得不同置信度下的置信区间。


指标3和指标4: 信息分数 (IC) 和相对危险比 (RRR)


参考贝叶斯神经网络方法 (BCPNN) [3]一文,通过贝叶斯公式,我们得到 $$ P(A = a_j \mid D = d_i) = \frac{P(A = a_j, D = d_i)}{P(D = d_i)} = P(A = a_j) \cdot \frac{P(A = a_j, D = d_i)}{P(A = a_j) \cdot P(D = d_i)}, $$ 其中 \(P(A = a_j)\) 为观测前根据先验知识得到的目标不良反应发生的概率。 由此可知 \(P(A = a_j)\) 和 \(P(A = a_j \mid D = d_i)\) 通过 \(P(A = a_j, D = d_i) / (P(A = a_j) \cdot P(D = d_i))\) 联系。基于此,两个反映了目标药物 \(d_i\) 和目标不良反应 \(a_j\) 相关性的指标:信息分数和相对危险比被提出,定义如下: $$IC_{ij} = \log_{2}{\frac{P(A = a_j, D = d_i)}{P(A = a_j) \cdot P(D = d_i)}}.$$ 信息分数的值越大,目标药物与目标不良反应存在的相关性越大, 不良反应的信号越可能存在。

相对危险比定义为: $$RRR_{ij} = \frac{P(A = a_j, D = d_i)}{P(A = a_j) \cdot P(D = d_i)}.$$

相对危险比也反映了目标药物和目标不良反应的相关性。相对危险比的值越大,不良反应的信号越可能存在。

在观测前根据先验知识得到的目标不良反应发生的概率估计值为: $$\hat{P}(A = a_j)=\frac{b+e}{b+c+e+f}.$$ 在观测后根据观测数据得到的目标不良反应发生的概率估计值为: $$\hat{P}(A = a_j \mid D = d_i)=\frac{b}{b+c}.$$ 因此, 信息分数的估计值为: $$\widehat{IC_{ij}} = \log_{2}{\frac{b/(b+c)}{(b+e)/(b+c+e+f)}}.$$ 当 \(\widehat{IC_{ij}}\) 远大于0的时候,则说明一个不良反应的信号的存在。

相对危险比的估计值为: $$\widehat{RRR_{ij}} = \frac{b/(b+c)}{(b+e)/(b+c+e+f)}.$$ 当 \(\widehat{RRR_{ij}}\) 大于一个已设定好的阈值的时候,则说明一个不良反应的信号的存在。


指标5: 卡方检验统计量


在卡方检验中,可建立如下原假设 \(H_{0}\) 和备择假设 \(H_{1}\): $$H_{0}: 目标不良反应 a_j 的发生与服用目标药物 d_i 无关,即 P(A = a_j) = P(A = a_j \mid D = d_i); $$ $$H_{1}: 目标不良反应 a_j 的发生与服用目标药物 d_i 有关,即 P(A = a_j) \neq P(A = a_j \mid D = d_i).$$

此假设检验的卡方检验统计量为: $$\chi^2 = \frac{(b+c+e+f)\cdot(bf-ce){^2}}{(b+c)\cdot(b+e)\cdot(c+e)\cdot(c+f)}.$$

卡方检验统计量的估计值服从自由度为1的卡方分布。如果 \(p\) 值小于0.05,即卡方检验统计量大于3.841,则拒绝原假设,判定为一个不良反应的信号的发生。

不良反应信号挖掘判定方法介绍


方法1: 指标联用方法介绍

在药物与乳酸酸中毒的药品不良反应信号挖掘与分析的研究中 [7],研究者提出了以下标准来判定一个不良反应信号是否产生:(1)报告例数 \(\geq 3\) 例;(2) \(ROR\) 指标的95%置信区间下界 \(> 1\);(3) \(PRR\) 指标 \(> 2\);(4) \(\chi^2\) 指标 \(> 4\)。四者同时满足时才提示生成一个信号。


方法2: 基于机器学习的信号挖掘方法介绍

最近,许多研究聚焦在使用机器学习方法,通过给予不良反应信号挖掘指标不同权重,联用多个指标以进行信号挖掘。在一些基于韩国和美国自发报告数据库的实证研究中,梯度提升树(gradient boosting machine,GBM)算法实现了最高的平均预测性能,随机森林算法(random forest,RF)也取得了较高的预测性能,且准确性显著高于ROR、IC这2种传统方法 [8]。并且在另一些实证研究中,GMB算法在韩国自发报告数据库中与IC方法和ROR方法相比,检测信号的性能更好 [9]。本项目实现了机器学习算法(GBM算法和RF算法)联用以上5种指标进行不良反应信号挖掘的功能。


示例数据介绍

示例数据请参考美国FDA自发呈报系统 (FAERS) 中的数据。示例数据来源于FAERS系统,其上报的数据需包括患者编号ID,上报时间,患者性别,年龄,服用药物以及不良反应类别等信息。



参考文献

[1] Hauben, M., & Zhou, X. (2003). Quantitative methods in pharmacovigilance: focus on signal detection. Drug safety, 26, 159-186.

[2] Evans, S. J., Waller, P. C., & Davis, S. (2001). Use of proportional reporting ratios (PRRs) for signal generation from spontaneous adverse drug reaction reports. Pharmacoepidemiology and drug safety, 10(6), 483-486.

[3] Bate, A., Lindquist, M., Edwards, I. R., Olsson, S., Orre, R., Lansner, A., & De Freitas, R. M. (1998). A Bayesian neural network method for adverse drug reaction signal generation. European journal of clinical pharmacology, 54, 315-321.

[4] Hou, Y., Ye, X., Wu, G., Cheng, G., Du, X., & He, J. (2014). A comparison of disproportionality analysis methods in national adverse drug reaction databases of China. Expert opinion on drug safety, 13(7), 853-857.

[5] Bate, A., & Evans, S. J. W. (2009). Quantitative signal detection using spontaneous ADR reporting. Pharmacoepidemiology and drug safety, 18(6), 427-436.

[6] Zhou, X. H. A., & Yang, W. (2013). Design and analysis of post-marketing research. Chinese journal of integrative medicine, 19(7), 488-493.

[7] 晏声蕾, 陈加飞, 单雪峰, & 王红梅. (2023). 药物与乳酸酸中毒的药品不良反应信号挖掘与分析. Evaluation & Analysis of Drug-Use in Hospitals of China, (11).

[8] Bae, J. H., Baek, Y. H., Lee, J. E., Song, I., Lee, J. H., & Shin, J. Y. (2021). Machine learning for detection of safety signals from spontaneous reporting system data: example of nivolumab and docetaxel. Frontiers in Pharmacology, 11, 602365.

[9] Lee, J. E., Kim, J. H., Bae, J. H., Song, I., & Shin, J. Y. (2022). Detecting early safety signals of infliximab using machine learning algorithms in the Korea adverse event reporting system. Scientific Reports, 12(1), 14869.


数据上传



数据确认


Loading...


1. 数值变量


Loading...


2. 分类变量


Loading...


直方图

Loading...


当分箱数为0时,绘图将使用默认分箱数。


概率密度函数图

Loading...


说明
  • 直方图:通过描述某一数值范围内出现的观察值频率,粗略评估给定变量的概率分布
  • 密度图:估计数据的概率密度函数

药品不良反应信号挖掘


1. 数据确认



                


请在“数据”页面中编辑修改数据


2. 计算的结果

Loading...


判定方法1:指标联用方法

当服用目标药物并出现目标ADR的患者数 ≥ 3,报告比数比值95%置信区间下界 ≥ 1,比例报告比值 ≥ 2,卡方检验值 ≥ 4时,提示一个不良反应信号存在。
信号产生的结果:

            

判定方法2.1:梯度提升决策树模型


            

判定方法2.2:随机森林模型


            

方法3:相对危险比方法

            

方法4:卡方检验方法

            

方法5:比例报告5比方法
Loading...

方法6:报告比数比方法
Loading...

方法7:信息分数方法
Loading...