随机对照试验中缺失数据的填补

2018.11.30 13:57
162 0 0

  2016年底,针刺临床研究论文《针刺治疗慢性严重功能性便秘的随机对照试验》见刊于内科学年鉴,为针刺治疗慢性便秘的疗效提供了国际认可的高质量循证医学证据。该研究共纳入1075例患者,历时3年完成,共有国内15家三甲医院参与。这项随机对照研究通过中心分层区组随机化的方法,设立电针组与假电针组两组进行平行对照,分别接受8周电针针刺穴位天枢、腹结、上巨虚与假电针浅刺双侧天枢旁、腹结旁、上巨虚旁非穴位点。结果发现8周电针治疗可以安全有效地增加慢性严重便秘患者的完全自主排便次数,治疗结束后疗效可持续12周。

  随访期的设置对于评价针刺的远期疗效具有重要的意义,该研究的随访期为12周,但与之相矛盾的是随着随访期长度的增加,参与试验受试者的依从性则会下降,即脱落率与随访时间的长度呈正相关关系。所以,如何利用恰当的统计分析方法处理缺失数据对于一项随机对照试验十分重要。本文主要介绍内容为在这项随机对照试验中,针对缺失值处理的具体方法及基于SAS软件的操作步骤进行说明。本文首先介绍如何使用SAS软件对试验基线数据进行统计描述。

  2 研究项目的基线描述

  2.1 问题与数据

  本研究共纳入1 075例患者,人口统计学资料及基线特征按组别采用描述性统计方法展示,有关数据资料如下图6-1所示。

  2.2 数据结构的分析

  对研究资料图6-1而言,试验因素是针灸治疗(电针组和假电针组)和医院(15家医院),具体变量信息如表6-1所示。

  图6-1 患者数据整理

 患者数据整理.jpeg

  2.3 分析的目的与统计分析方法的选择

  分析目的及方法:数据从excel导入SAS数据库,按组别计算年龄、体重指数等连续性变量的平均值、中位数、四分位数、标准差、最小值和最大值;性别、民族、等分类变量提供各类别的例数和百分比。

  2.4 SAS程序及说明

  proc import datafile="D:test.xls"

  表6-1 变量信息定义表

2.jpeg

  程序说明:语句“proc import”表示调用import过程,进行外部文件导入SAS过程。该语句中的“datafile=”规定要读入外部文件的地址及名称;“out=”规定要输出的SAS数据集,并命名为test;“dbms”选项规定外部数据文件格式的标识名,excel文件可以统一设置为dbms=excel;replace规定替换已存在的文件,便于我们重复导入。“getnames=Yes”规定了导入数据第一行为变量名。

  2.5 主要分析结果及解释

  图6-2为在基线描述过程中proc import、proc means以及proc freq语句在SAS软件中的基本格式。

SAS软件中的基本格式.jpeg

  

SAS软件中的基本格式.jpeg

 

3 主要指标的敏感性分析

3.1 问题与数据

在实际临床试验中,常常会出现缺失数据。数据缺失有各种形式:譬如在临床试验中患者中途退出试验研究,或者在某些时间点没有进行检查,或者患者不情愿回答某些项目。这些缺失的原因也许与患者的病情有关,也许无关。

本研究对主要指标的缺失值采用多重填补方法(Multiple imputation,MI),该方法通常假设数据缺失机制为随机缺失(Missing at random,MAR)。随机缺失是目前较常见处理缺失值的方法,指反应变量的缺失只依赖于已观测到的反应变量値,而与未观测到的反应变量値无关。然而,缺失数据无法被观测,导致随机缺失假设无法被证实。对于采用假定随机缺失的临床试验,国家研究委员会建议对违背MAR的统计假设进行统计推断,认为主要指标缺失机制的敏感性分析是统计报告中的必要组成部分。

本研究采用两组等比例多中心随机区组设计,治疗组为接受电针试验组,对照组为接受假电针安慰剂组。变量Group为分组变量,Y0为主要指标CSBM基线得分,Y1~Y4为治疗期和随访期CSBM不同时间点测量值,有关资料如下表所示。

3.2 数据结构分析

对研究资料表6-2而言,试验因素是针灸治疗(电针组和假电针组),试验效应是治疗效果(Y0-Y4),具体变量信息如表6-3所示。

3.3 分析目的与统计分析方法选择

据本研究统计分析计划,假定缺失数据机制为随机缺失,对研究主要指标的缺失值处理采用了多重填补方法。本章节分析目的是,抽取378例患者数据,针对多重填补方式的随机缺失假定进行敏感性分析,采用模式混合模型(Pattern mixture model,PMM)(Little 1993;Molenberghs and Kenward 2007,pp.30,34–37),该方法不仅适用于多种缺失机制的数据,且可在机制下得到更为准确的参数估计值;并不要求一定知道缺失机制的具体分布形式,模型参数估计稳健,该方法被国际医学杂志如JAMA,内科学年鉴等杂志的统计委员一致推荐(http://annals.org/aim/pages/AuthorInformationStatisticsOnly)。然而,该方法需要估计较多的特定模式参数,故一般形式下的PMM通常可识别性较低。为了增强模型的识别能力,需设定一些约束条件。根据本研究中观察到的患者CSBM最大为10次,模型约束条件限定值选取10,该模型的基本原理及参数估计方法详见。

 主要指标数据结构.png

                                              (主要指标数据结构

变量信息定义表.png

                                                (变量信息定义表

投诉文章 ©著作权归作者所有
喜欢  |  0
爱学术网-期刊论文服务平台 2014-2022 爱学术网版权所有
Copyright © 2014-2022 爱学术网 All Rights Reserved. 备案号:苏ICP备2020050931号 版权所有:南京传视绛文信息科技有限公司