准备数据

线性回归是对因变量和一个或多个自变量之间的关系进行建模的线性方法。 一个解释变量(自变量)的情况称为(简单)线性回归。 对于两个以上的解释变量,该过程称为多元线性回归

1. 功能

  • 上传数据文件时,预览数据集,并检查数据输入的正确性
  • 构建模型时,(根据需要)对一些变量进行预处理
  • 计算基本描述性统计量,绘制变量图

2. 关于数据(训练集)

  • 数据需要包括一个因变量(Y) 至少一个自变量(X)
  • 数据的行数必须多于列数。
  • 不要在同一列中混用字符和数字
  • 用于构建模型的数据称为训练集

示例

  • 假设在一项研究中,医生记录了10名婴儿的出生体重,年龄(月龄),年龄组(a:年龄 < 4个月,b:4个月以上)和收缩压。 这里想(1)预测婴儿出生体重,(2)找出出生体重与其他变量之间的关系,即找出哪个变量对因变量有显著影响。

    请参考以下步骤,准备数据。之后在第二个页面中建立模型。


  • Output 1. 数据确认

    数据确认

    变量的类别


    Output 2. 描述性结果


    1. 数值变量

    2. 分类变量


    线性拟合图:粗略表示任意两个数值变量之间的线性关系。 灰色区域为95%置信区间。


    3. 更改X轴和Y轴标签


    直方图

    Loading...


    当分箱数为0时,绘图将使用默认分箱数。


    概率密度函数图

    Loading...


    说明
    • 直方图:通过描述某一数值范围内出现的观察值频率,粗略评估给定变量的概率分布
    • 密度图:估计数据的概率密度函数

    线性回归(Linear Regression)

    1. 功能

  • 模型构建
    • 建立简单或多元线性回归模型
    • 得出回归估计,包括(1)用t检验、p值和95% CI进行系数估计,(2)R2 和经调整的R2,(3)F检验进行回归的总体显著性
    • 获得更多信息:(1)预测因变量和残差,(2)模型的ANOVA表,(3)基于AIC的变量选择,(4)基于残差和预测因变量的诊断图
    • 上传新数据,得到预测
    • 对新数据包含新因变量的评价

    2. 关于数据(训练集)

    • 因变量是实数值,在一个基本的正态分布下是连续的。
    • 请在上一个数据页面中准备训练集数据。
    • 新数据(测试集)应覆盖模型中使用的所有自变量。

    请参考以下步骤,输出分析结果。


  • Output 1. 数据确认


    
                    

    请在“数据”选项卡中编辑修改数据


    Output 2. 模型的结果


    说明
    • 每个变量的值为:估计系数(95%置信区间),T统计量(t=)和每个变量显著性的P值(P=)
    • 对各变量进行T检验,P<0.05,表明该变量对模型有统计学意义。
    • 观察值表示样本数量
    • R2是线性回归模型的拟合优度度量,表示自变量共同解释的因变量方差的百分比。假设R2=0.49。这一结果暗示对49%的因变量方差已证明,剩下的51%仍未证明。
    • 经调整的R2用于比较包含不同自变量数的回归模型拟合优度。
    • F统计量(回归中总体显著性的F检验)对多个系数同时进行判断。 F=(R^2/(k-1))/(1-R^2)/(n-k);n为样本量;k为变量+常数项的数量

    结果

    保存到CSV中 保存LaTex代码


    说明
    • DF变量 = 1
    • DF残留误差 = [样本值的个数] - [变量数] -1
    • MS = SS/DF
    • F = MS变量 / MS残留误差
    • P值 < 0.05,则变量对于模型是有统计学意义的。

    ANOVA表


    说明
    • 采用Akaike信息准则(AIC)进行逐步(Stepwise)模型选择。
    • 模型拟合根据其AIC值秩和,AIC值最低的模型有时被认为是“最佳”模型。

    采用Akaike信息准则的模型选择

    
                      
                        
                        保存TXT文件
                      
                    

    说明
    • 残差的Q-Q正态图检查残差的正态性。 点的线性表示数据是正态分布的。
    • 用残差vs拟合图发现异常值

    1. 残差的Q-Q正态图

    2. 残差vs拟合图


    说明
    • 3D散点图显示了因变量(Y)与两个自变量(X1,X2)之间的关系。
    • 分组变量将点划分为组。

    Output 3. 预测结果



    因变量的预测值显示在第一列中


    预测 vs 真因变量图

    当测试数据中提供新的因变量时,会出现该图。

    该图显示预测因变量和新因变量之间的关系,采用了线性平滑方法。灰色区域是置信区间。