APP下载

SEER数据库的申请及数据提取方法与流程

2018-08-18杨津柳青青耿辉田国祥曾宪涛吕军

中国循证心血管医学杂志 2018年7期
关键词:协议书用户名申请者

杨津,柳青青,耿辉,田国祥,曾宪涛,吕军

癌症是严重威胁人类生命和社会发展的重大疾病,运用科学的方法对癌症进行预防控制已成为全球最重要的公共卫生问题之一[1-3]。由于肿瘤资料数量巨大、种类多、分布广等原因,传统数据收集的方法难以及时、完整和准确的收集肿瘤资料[4]。肿瘤登记是系统的收集所有有关肿瘤及肿瘤患者信息的一个连续的过程,能够收集、存储、分析、解释和传播肿瘤患者的数据信息,对于肿瘤的预防和控制发挥着重大作用[5-7]。为减少人群癌症负担,美国国立卫生研究院下属的美国癌症研究所于1973年针对本国肿瘤患者建立了监测、流行病学和最终结果数据库(SEER),这是北美最具代表性的大型肿瘤数据库之一,收集了美国部分州县几十年来肿瘤患者的发病率、患病率、死亡率及其他循证医学的相关信息情况,为广大的临床医务人员提供了宝贵的肿瘤疾病的相关资料,尤其是为恶性肿瘤和罕见肿瘤的研究提供了宽广的路径[6,8]。SEER在建立之初仅有为数不多的几个地区的登记站,目前登记站数量已扩展为18个,这些登记站利用可用于统计分析的强大的计算机工具—SEER*STAT软件进行运作,并以一年两次的频率提交到NCI进行分类统计和汇总,而后向全美及全世界公示所覆盖人群的肿瘤相关信息[9]。

1 SEER数据库的申请及软件下载流程

1.1 SEER数据库的申请SEER数据库的样本量大,质量高,统计效能强,能够为肿瘤相关研究人员提供较高临床参考价值的数据,研究者均可通过官方网站账号的申请获得部分数据。从SEER数据库中获得数据的途径有3种:一是通过SEER*Stat软件获取,此种方法最为简单,使用广泛;二是从SEER官方网站下载压缩文件,解压后获得二进制的资料,之后通过R等软件进行转化,此种方法需要具备一定的相关软件的知识;三是通过向管理人员申请DVD光盘,在使用SEER*Stat且没有高速Internet支持的情况下,才使用此种方法。本文介绍第一种方法。

S E E R数据库的申请流程如下:进入SEER数据库的官方网站(https://seer.cancer.gov/)(图1),依次点击“For Researchers”“SEER*Stat”,在“Datasets”一栏点击“SEER Data 1973-2014”,此页面介绍了SEER数据库数据收录的基本情况。接着点击“Submit Request for the Data”“submit”,即可出现注册信息页面(图2)。其中,“*”表示必填信息,“zip”指代邮政编码。信息填写完成后,点击下方“submit”即可发出申请。

图1 SEER数据库界面

图2 SEER数据库注册表界面

申请者注册邮箱将收到SEER数据库的回复邮件,若3~5 d内未收到该邮件的申请者可重复上述步骤重新申请。邮件内含协议书链接,点击链接即可进入协议书页面。申请者需按照协议书的要求签字、扫描并发送到协议最后提供的邮箱。需要注意的是,该协议书必须签署并以扫描件的形式发送,否则无法登陆SEER*Stat软件。

协议书发送后1~5 d内,申请者可查收SEER数据库回复邮件,该邮件为申请者提供了初次使用的账号和密码,由此可下载并使用SEER*Stat软件(图3)。

图3 SEER数据库协议书回复邮件

1.2 SEER*Stat软件下载及登录获得用户名和密码的申请者可进入SEER数据库的官方网站,点击“For Researchers”“SEER*Stat”“+”,在展开栏目中点击“Installation Files”,最后点击“ss8_3_4.exe”(图4),在弹出的登录对话框中输入用户名和密码,并根据提示下载软件。

下载完成后,点击软件图标进入软件,点击左上方“Profile” “Client-Server Login”,输入用户名和密码即可登录(图5)。确认登录后,点击左上方“Profile” “Client-Server User Information”可修改原始密码。注意,原用户名无法修改,只能修改原始密码。

图4 SEER *Stat下载界面

图5 SEER*Stat软件登录界面

1.3 SEER数据库放化疗数据的申请从2016年11月数据提交开始,公共数据库中的放射治疗和化疗变量已被删除。这些变量可以在签署额外的数据使用协议之后获得,该协议描述了放化疗处理变量的完整性以及使用放化疗数据存在的潜在偏差。通过https://seer.cancer.gov/data/treatment.html,进入SEER数据库放化疗界面,点击“Complete the Data Use Agreement for SEER Radiation Therapy and Chemotherapy Information”,下载放射治疗和化疗信息的协议书,并按照要求签字、扫描及发送(图6)。

协议发送后,SEER数据库的回复邮件中将为申请者创建新的用户名,但是申请者仍然可以使用上一个用户名内的全部内容。申请者需登录SEER*Stat软件,点击“password”进行验证,SEER数据库将以邮件的形式发送验证码,申请者输入验证码后重新设置密码,即可获得放化疗数据。

需要注意的是,SEER数据库的权限有一定的时间限制,但是软件内的数据不会过期。当新的数据发布后,每一位用户都会收到来自seerstat@imsweb.com的电子邮件,并附有新的SEER数据使用协议,如果用户想要更新访问的权限,必须重新签署协议获得权限。更新访问权限的用户新旧数据都可使用。

图6 放化疗数据界面

2 SEER数据库数据的提取

点击SEER*Stat进入软件,登录个人ID。注意每次关闭软件后,下一次都需要重新登录。点击上方“Case Listing Session”按钮(图7),软件系统会自动验证数据位置,点击“OK”。

图7 “Case Listing Session”界面

案例列表中有四个按钮,分别为“Data”、“Selection”、“Table”和“Output”,简介如下:(1)点击“Data”,这是一个数据来源范围的列表,用户可以根据自己的研究范围进行选择,通常选择数据更新年份最新的数据集。需要注意的是,已申请放化疗数据的用户可在含有“with additional treatment fields”的数据集或含有“with chemotherapy recode”的数据集中找到相应数据(图8)。

图8 “Data”界面

②点击“Selection”,此选项可根据筛选条件进行病例的筛选。点击“Edit”,进入病例筛选界面,“Variable”指筛选的变量,变量多为英文缩写,使用者需具备一定的英语知识并结合SEER数据字典进行查找,数据字典或者“CS coding instructions”可通过官方网站下载。在此以简单示例向读者展示如何筛选变量。患者年龄可选“Age at Diagnosis”或“Race and Age(case data only)”,前者将年龄设定为几个年龄段,后者的年龄则没有设定年龄范围,使用者可根据自身情况进行选择。在此选择年龄“大于等于18岁以上”,种族选择“white,black”,诊断年份选择“1994-2014”,性别选择“male and female”,发病部位选择“stomach”,如需改正点击“Delete”删除后重新选择即可,筛选完成后点击“OK”(图9)。

图9 病例筛选界面

③点击“Table”,将上一步筛选的变量在再次选中,点击“Column”使其进入“Column”列表。需要注意的是,变量选择完成之后,要在“Other”中选择“Patient ID”,点击“sort”使其进入“sort”列表,提取出来的数据会按照病例号排列,不会导致数据混乱(图10)。

④点击“Output”,为导出的数据创建一个名称,例如“数据1”(图11)。点击“execute”(图11),生成数据表格(图12)。将鼠标放在行或列上会形成黑色箭头,选中全部数据,点击右键选择“copy”,在EXCLE中粘贴即可。

图10 “Table”界面

图11 “execute”界面

图12 数据表格

3 讨论

SEER数据库是北美最具代表性的肿瘤数据库之一,部分数据免费向公众开放。尽管SEER数据库有着些许不足,例如肿瘤患者家族史、遗传病史、基因,疾病复发和辅助化疗等指标未被收录[10-13],但SEER数据库仍然是一个良好的数据来源,为临床研究者提供了高质量的临床信息[14]。本文通过介绍SEER数据库的账号申请及数据提取方法,旨在帮助临床研究者提供高效、便利、明晰的数据资料获取途径,减少使用者在探索软件过程中浪费时间和精力,提高工作效率。

猜你喜欢

协议书用户名申请者
《护士进修杂志》投稿程序
《护士进修杂志》投稿程序
离婚协议书无效,欠款内容也一并无效吗
《护士进修杂志》投稿程序
分期付款合同的违约责任如何分配?
赴美签证申请者或需提交社交媒体个人信息
Electroacupuncture and moxibustion promote regeneration of injured sciatic nerve through Schwann cell proliferation and nerve growth factor secretion
机智的快递员
基于JAVA的毕业生就业协议书打印系统
德国接纳难民人数逾欧盟总接纳量的一半