APP下载

纸质病例报告表向电子病例报告表的转化
——临床数据获取协调标准的应用

2019-03-18东南大学公共卫生学院流行病与卫生统计学系210009

中国卫生统计 2019年1期
关键词:字段数据结构电子化

东南大学公共卫生学院流行病与卫生统计学系(210009)

蔡 烨 王崇旭 刘 沛△

近年来,国内对临床试验电子化的重要性和必要性的认识逐渐加深,我国正处于从传统纸质研究向电子化过渡的阶段[1]。目前临床试验中使用的病例报告表(case report form,CRF)仍以纸质为主,传统基于纸质文档收集数据的方式不论是效率还是准确度都存在一定问题,且基本无法实现数据的交换和共享。基于我国现阶段临床试验实际,为实现临床试验数据的电子化管理,常常需要对原本设计的纸质CRF按照国际通行的临床数据获取协调标准(clinical data acquisition standards harmonization,CDASH)进行标准化和电子化转化,生成电子病例报告表(eCRF)[2],使其可以在电子数据采集系统中使用,从而提高临床试验效率和试验质量[3]。CDASH属于临床数据交换标准协会(the clinical data interchange standards consortium,CDISC)的一系列标准之一,自问世以来就受到了国内外药物监管部门、制药企业和相关研究人员的关注,已有一定数量的解读[4]和应用[5],但基于CDASH探讨纸质CRF向eCRF转化的方法却鲜有报道。

原理与方法

CDASH 作为CDISC的重要组成部分,其主要功能是定义了临床试验数据采集的基本标准[6]。CDASH将数据采集信息分为多个域,每个域中包含特定的字段信息,并将不同的数据采集字段分为三类:强烈推荐(HR)、推荐或有条件推荐(R/C)和可选(O)供使用者区分和选择。每个域中包含了数据采集字段完整的问题描述、简短提示、SDTM或CDASH变量名称、BRIDG(biomedical research integrated domain group)模型映射思路、采集目的、CRF填写指南、补充信息及核心类别标识共八个内容。CDASH文件中给出了除通用标识符(如受试者编号)、通用时间变量(如访视名称、日期)之外的16个域列表,见表1。其中可以涵盖绝大部分疫苗临床试验中涉及的变量域,如人口统计学、生命体征、入选/排除标准、不良反应/事件、既往和伴随用药等,因此疫苗临床试验的eCRF可以参考CDASH标准进行制作。

表1 CDASH域列表信息

CDASH域列表内信息按照该变量在CRF中收集顺序进行排列,这与纸质CRF的设计顺序相仿,但纸质CRF变量分域不明确,通常以事件(如访视)作为单位,数据结构单一,且不同研究或不同研究者设计的CRF在问题表述和答案选项设置上存在差异,若运用CDASH进行分域、选择统一的变量名称和问题描述,适当的转换数据结构,并结合相关的受控术语,则可以弥补这些缺点。

从实际应用出发,直接从零开始设计全新的eCRF有一定难度,可以将纸质CRF作为参考进行修改和设计[7],一般情况下,修改流程如图1。

图1 纸质CRF转化为eCRF流程

1.分域 在CDASH中,域是指某一特定主题下的一组观测记录。将一些用于收集同一主题的变量归纳至一个域内,即分域。以人口统计学域(DM)为例,在纸质病例报告表中通常不独立存在,常与生命体征、筛查信息等处于同一模块,且收集的变量不固定,在数据识别和数据结构上存在一定缺陷。在CDASH标准中,DM域的数据结构和变量内容稳定,各个变量有固定的名称,熟悉CDASH标准的研究人员不用看原始CRF就能识别信息并及时发现错误。如在国外优秀的一款开源临床试验数据管理软件OpenClinica中,生成的eCRF与excel一一对应,如建立一个DM域的excel,只放入DM域的变量即可生成只包含DM域信息的eCRF,通过系统编译可生成对应的数据录入界面[8-9]。大部分其他域的信息也可以通过同样的方法,查阅CDASH标准变量命名,进行域的分离和标准化设置。OpenClinica系统对eCRF“碎片化”生成的支持也是进行分域操作的基础。

2.分配变量名 CDASH域列表中包括了最常用的且易于被大多数临床试验工作者认同的数据采集字段,即变量。填写eCRF时使用域列表中提供的数据采集字段CDASH变量名称及问题描述,这些描述可作为CRF上的标签或该字段的填写帮助文本,在eCRF制作时可作为excel中Left_Item_Text的内容[9]。

在进行变量名称的分配和设置时,需要考虑数据的横向和纵向结构。横向数据结构是一种非标准化的数据结构,每个测试对应一个变量,一条测试通常指一条观测结果。纵向数据结构是一种标准化的数据结构,每个测试对应一条记录,有利于数据的采集、处理和清理。应用CDASH建库可以实现数据从横向结构到纵向结构的转化。如人口统计学域中的信息,不管在纸质CRF中还是CDASH标准中都属于横向型数据结构,则可以直接应用CDASH标准推荐的变量进行数据库设计。CDASH中多数发现域的内容采用纵向数据结构,如入选/排除标准、实验室检查结果、生命体征等,即每个测试对应一条记录。这些域的数据结构在纸质CRF和CDASH中不统一,除了按照CDASH标准自行设置变量名等一系列信息进行横向数据收集外,若要直接应用标准中推荐的纵向结构变量就需要进行一定的转化[1],转换方法结合后面的实例叙述。

3.设置问题回答选项:这里涉及到CDISC受控术语的概念,所谓受控术语是指对存在多种可能性的数据采集字段所规定的标准使用术语,通常为常用医学缩略语。如在病例报告表中通常会使用一系列的问题来收集信息,其中大多数是单选或者复选型回答,在一些特定的域中,如:CM(既往和伴随用药)、DA(药物分发和回收记录)、EG(ECG检查结果)、EX(暴露)和VS(生命体征),CDASH为数据采集字段收录了使用频繁的术语,因此在回答选项的设置时可以参考受控术语减少CRF间的差异。

4.使用EDC改进eCRF:从CDASH角度出发将CRF改造完成后,接下来要结合EDC(如OpenClinica)实现CRF的电子化。OpenClinica采用Excel表格作为载体,导入到系统内生成eCRF。OpenClinica提供原始空白CRF模板,研究人员按照指导和需求填写Excel表格,依次完善CRF信息(CRF)、各章或不同标签页(sections)、同一标签页内各组(groups)、各条目(items)信息。完成的excel上传导入系统之后,即可生成电子化的CRF页面。但这种初始状态下的eCRF存在一些不足,如选择无法撤销、文本框显示长度过短内容无法显示完全、无法实现默认内嵌文本的设置等,这些进阶的设置需要借助JavaScript脚本实现。

除此之外,根据EDC录入数据的操作过程和特性,在EDC中运用CDASH标准也要进行一些灵活的变换,例如对临床试验实施具有重要意义的事件(里程碑事件),如获得知情同意、随机化等的记录,通常数据量小,且位置不固定,CDASH标准允许将其记录在CRF中方便的地方,可能会与其他域的信息处于同一模块,数据采集完成后需要映射到递交的DS(实施情况)域。

实例分析

以某疫苗临床试验为例,尝试将纸质CRF按照CDASH中的要求进行修改,转化为eCRF,以供上传至EDC进行数据录入。该CRF根据试验进行的时间进程设计了入组筛查、多个访视及研究结束页等内容,各个事件间有相似或相同的条目,将同一时间段收集的信息放在一起,并未按照不同的域或一定的变量分类对CRF条目进行划分。

进行CRF电子化修改时,第一步是根据原始CRF的内容,按照CDASH标准对条目进行再划分,使其能对应至CDASH标准中的各个域。参考原始CRF中第一个事件入组筛查记录的内容,并结合原本放置在封面位置的筛选编号、疫苗编号和姓名缩写这几个变量,以此为例进行域的划分。

入组筛查记录中收集了七部分内容,包括筛选开始日期、人口资料、知情同意、体检筛查、问诊筛查、合并疾病和分配疫苗编号,其中体检筛查部分既收集了身高、体重、腋下体温等生命体征信息,又收集了血样采集信息、尿妊娠试验结果等实验室检查信息。将这些内容对应至CDASH中的域:(1)DM域:纳入受试者的人口统计学信息及其他重要信息如里程碑事件,包括筛选开始日期、人口资料、知情同意及受试者的筛选编号和姓名缩写;(2)VS域:采集受试者生命体征信息,包括身高、体重及腋下体温;(3)LB域:采集实验室检查结果信息,包括血样采集(血常规/血生化)及尿妊娠试验结果;(4)IE域:采集此研究项目的入选/排除信息,包括问诊筛查结果;(5)MH域:一般用来采集既往和/或伴随的病史或者手术史,在此CRF中采集合并疾病信息;(6)DA域:在CDASH中一般用来收集药物分发和回收记录,但在此项目CRF中,用来采集分配给受试者的疫苗编号,因为分配的疫苗编号相当于分配的药物编号。

第二步是为某一域内各个条目分配变量名。以DM域为例,一般在DM域中收集受试者出生日期、性别、族群和人种等人口学资料,数据采集字段相应的CDASH变量为BRTHDAT、SEX、ETHNIC和RACE,其变量信息填写如图2。“*DAT”一般表示某日期,如字段签署知情同意书日期的变量为DMICDAT,DM为域名,IC(informed consent)表示知情同意书,DAT表示采集的是日期,一般包括年、月、日。若有超出推荐范围的变量,则按照上述统一的命名规则自行扩充命名,一般为域名加上该变量释义的英文缩写,变量不能重复并且不能超过八个字母长度,再如DM域中字段是否签署知情同意书的变量DMICYN,即为DM域中知情同意书(IC)是否签署(YN),命名上尽量做到简洁和实意化。其他相似横向结构内容的域内变量命名参考CDASH指导文件,分配方式相同。

图2 DM域变量信息

分配变量名时,若该域提倡设置为纵向结构,则情况有所不同。如生命体征域(VS)中,通常会收集身高体重及与研究相关的生命体征信息,在纸质CRF中,通常为横向结构,即为每一个数据点设置一个变量名,如身高HEIGHT、体重WEIGHT等。但在CDASH的纵向结构中,所有的生命体征名称分配一个变量,另外设置一个变量储存所有的结果,表现为身高、体重、血压等均为一个变量VSTEST的值域,身高、体重、血压等的测量值都为一个结果变量VSORRES的值域,同时应参考受控术语设置测量单位VSORRESU,以便后期的分析和输出。纵向数据结构在OpenClinica的excel设置中有一单独控制选项(GROUP_LAYOUT),当值为GRID时可通过eCRF将数据录入界面展现为纵向形式,如图3,并且以纵向数据结构保存。通常纵向数据收集结构需要提前设置一些内嵌文本,用来标识所需采集的值域内容,根据OpenClinica的系统特性,该扩展功能可通过在excel的LEFT_ITEM_TEXT变量中填写JavaScript脚本实现。

图3 VS域纵向结构数据录入界面

第三步是为相应的问题设置回答选项。通常在一些选项型问题后设置相应的受控术语作为选项,如在合并用药CM域,收集字段为剂量单位(CMDOSU),选项设置为单选(radio),参考受控术语设置可选项为mg(毫克)、ug(微克)、mL(毫升)、g(克)、IU(国际单位)、tab(药片)、cap(胶囊),其中吸入剂这一栏为“---”,此时需要我们自行设置,参考递交值设置为puff(吸入剂),见图4。当某字段(如剂量单位)所需要的单位种类超出常用列表时,还可以根据CDASH认可的术语代码表(如单位代码表C71620)进行扩展。

图4 数据采集字段剂量单位(CMDOSU)受控术语设置

当所采集的字段不在推荐术语表中时,其回答的设置可以以原始CRF为准,但相同的回答选项在整个CRF设计过程中应保持一致,比如是否(YN)问题的回答选项应始终保持为:1-是、2-否,不应在后文出现1-否、2-是或3-是、4-否等情况。其他字段受控术语可参考CDASH文件附录。

最后一步,弥补初始生成eCRF的缺陷,见图5。根据eCRF需要,编写相应功能的JavaScript脚本进行数据录入界面的优化,使界面更具友好性,提升使用感,见图6。(1)增加了撤销按钮,点击后可撤销已选项;(2)可根据需要设置文本框长度;(3)可按照原始CRF设置内嵌文本,如上文纵向VS域中内置需要收集的信息。

将各个域的信息完善后,可通过选择所对应的eCRF组成原来的各个事件,事件入组筛查记录则由上文所述的域(eCRF)组成,见图7。

整个病例报告表所需eCRF共16个,见图8。研究者通过选择这些eCRF即可组成研究所需所有事件,从实际操作的角度看,各个事件的内容与纸质CRF相同,见图9。

讨 论

本文基于CDASH原理,对现有纸质CRF进行变量分域和变量名称重分配命名,结合EDC建立数据库,实现了纸质CRF向电子CRF的转化。诚然,如果按照EDC使用的规范流程,应该直接设计和使用eCRF来收集数据,但本文采用通过纸质CRF向eCRF转化从而利用CDASH标准的方法,是基于以下两点考虑:一是这样做可以降低eCRF设计的难度;二是较适用于现阶段我国临床试验数据采集的实际情况。虽然国内药物临床试验单位大多知晓临床试验数据电子化和标准化的必要性和必然性,但仍处于一个从传统纸质研究向电子化系统过渡的阶段,且对国际化数据标准的了解不乏局限性。与直接设计应用CDASH的eCRF相比,数据管理者设计传统纸质CRF的操作难度和出错率都较低,且对设计人员的要求门槛低,更具有通用性。另外,临床研究者对纸质CRF的内容排版和使用更为熟悉,更方便与负责实施过程的临床研究人员沟通数据采集细节,避免由于eCRF带来的知识壁垒。在一些情况下,有的研究由于实施周期较长,设计初期原本是纸质研究,在后期也可借助EDC进行电子化临床数据管理,此时可通过本文介绍的方法将CRF电子化,并形成符合标准的电子数据。因此,本文介绍的转化方法对现阶段临床试验的设计与实施具有实际意义。

通过此次研究,笔者有以下几点体会与思考:

图5 原始eCRF页面图

图6 优化后eCRF页面

图7 事件入组筛查记录的eCRF组成

图8 所有eCRF

图9 所有事件

(1)基于EDC(如OpenClinica)建库特性,直接或间接运用CDASH标准可以完成标准数据库的建立,实现横向和纵向数据结构的利用,通过模块化的eCRF使数据库分域明确,变量集中,有利于数据集向SDTM的抽取和映射。OpenClinica还可以基于单个eCRF某几个条目进行单独的数据导出,在某些特定情况下甚至可以直接生成SDTM数据集。

(2)运用CDASH建库可以提高eCRF的复用性。在研究项目的事件与事件间、研究项目与研究项目间,常常具有相同或相似的数据收集要求,此时可以直接或经少量修改使用标准数据库中的eCRF,减少数据库设计时间,从而提高研究效率。如VS域,在之后的访视中会再次收集相同的信息,此时只需要选中该eCRF直接组合成新的事件即可。

(3)在运用过程中需要注意分域的合理性,既要保证信息的完整,又要提高eCRF的可利用性,且为了便于系统中CRF的管理,eCRF数量不宜过多,因此需要对原始CRF进行仔细的逻辑划分。有时需要适当地转换数据收集思路,如收集纵向结构数据时,与传统纸质CRF差异较大,要正确分辨数据结构,选择适合EDC使用的数据结构。不同研究项目涉及面广,变化多,有时会有超出CDASH标准推荐的内容,如疫苗临床试验中合并疫苗(CV)域,此时就需要研究者根据CDISC标准进行设计和标准化[10]。灵活准确的应用需要研究人员同时了解CDISC标准和EDC系统,专业性要求较高,知识成本较大。

(4)电子数据采集系统实时录入的特性对数据库有很高的设计要求,不能有错误和遗漏,一旦出现问题,数据的缺失和遗漏将无法弥补,从而对试验结果产生严重影响。因此,每一次新建数据库后必须进行录入测试,以确保数据收集准确、全面。由于使用EDC后资料全部电子化储存在系统中,出于安全考虑,应用时也要严格遵守规范,做好权限设置和数据加密,并设置备份和数据恢复功能,避免操作不当造成的损失[11]。

猜你喜欢

字段数据结构电子化
天津高速公路通行费电子化票据上线运行
数据结构线上线下混合教学模式探讨
高速公路建设工程中电子化档案管理系统
为什么会有“数据结构”?
推进外汇窗口服务电子化
浅谈台湾原版中文图书的编目经验
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
高职高专数据结构教学改革探讨
汽车电子化,没有假设
无正题名文献著录方法评述