Logistic回归是一种广义的线性回归分析模型,因此与多重线性回归分析有很多相同之处。常用于数据挖掘,疾病自动诊断,经济预测等领域。
一、Logistic回归的原理
Logistic回归通过使用其固有的logistic函数估计概率,来衡量因变量(我们想要预测的标签)与一个或多个自变量(特征)之间的关系。
然后这些概率必须二值化才能真地进行预测。这就是logistic函数的任务,也称为sigmoid函数。Sigmoid函数是一个S形曲线,它可以将任意实数值映射到介于0和1之间的值,但并不会取到0/1。然后使用阈值分类器将0和1之间的值转换为0或1。
二、Logistic回归SPSS分析方法步骤
1、数据录入SPSS
2、择 Analyze →Regression→Binary Logistic
3、选项设置
(1) 主对话框设置:将因变量 cancer送入 Dependent框中,将纳入模型的自变量 sex, age, BMI 和 COPD 变量 Covariates 中。本研究中, 纳入 age 变量仅仅是为了调整该变量带来的混杂(不关心该变量的 OR 值),因此将 age 直接将改变量纳入 Logistic 回归模型。
对于自变量筛选的方法( Method 对话框),SPSS提供了 7 种选择,使用各种方法的结果略有不同, 读者可相互印证。 各种方法之间的差别在于变量筛选方法不同,其中 Forward: LR 法(基于最大似然估计的向前逐步回归法)的结果相对可靠,但最终模型的选择还需要获得专业理论的支持。
(2) Categorical 设置:该选项可将多分类变量(包括有序多分类和无序多分类)变换成哑变量,指定某一分类为参照。本研究中, COPD 是多分类变量,我们指定“无 COPD 病史” 的研究对象为参照组, 分别比较“轻/中度”和“重度” 组相对于参照组患肺癌的风险变化。
点击 Categorical→将左侧 Covariates 中的 COPD 变量送入右侧 Categorical Covariates 中。点击 Contrast 右侧下拉菜单,选择 Indicator(该下拉菜单内的选项是几种与参照比较的方式, Indicator 方式最常用,其比较方法为:第一类或最后一类为参照类,每一类与参照类比较 )。
在 Reference Category的右侧选择 First(表示选择变量 COPD 中,赋值最小的,即“ 0”作为参照。如果选择 Last 则表示以赋值最大的作为参照) →点击 Change→ 点击 Continue。
(3)Options 设置中,勾选如下选项及其意义:
Hosmer-Lemeshow goodness-of-fit:检验模型的拟合优度; CI for exp(B) :结果给出 OR 值 的 95% 可 信 区 间 ; Display→At last step:仅展示变量筛选的最后一步结果。
→ Continue →回到主界面 →OK