利用网络痕迹信息即时预测儿童腹泻流行趋势

2016-11-28谢月锋董现垒陈卉王燕刘志成

医学信息 2016年29期

谢月锋　董现垒　陈卉　王燕　刘志成

摘要：为疾病突然爆发时医疗机构能够及时采取应对措施合理配置医疗资源，本文以儿童腹泻为例，利用网络痕迹数据，提供一种建模思路和方法，对儿童腹泻的发生进行即时预测。结果显示，儿童腹泻的发病具有明显的周期性特征，同时大众的网络搜索行为与相关就诊量具有明显的相关性，人们可以利用网络痕迹数据即时预测儿童疾病的未来就诊量。

关键词：公共网络；痕迹数据；儿童腹泻；数据挖掘；趋势预测

在环境恶化等因素的影响下，近些年突然爆发某种疾病的现象时有发生，对医院的应急管理系统提出挑战。例如，目前多数医院是依靠经验给医生排班。比如首都医科大学附属北京儿童医院会提前3个月就排好班次，如没有特殊情况一般很少变动。这种模式具备一定的优势：患者可以提前预约挂号以减少排队或等待时间，医生则可以分散患者进行诊治以提高效率。但是当某种疾病爆发时，医院只能根据即时的就医情况，临时启动应急预案，解决突如其来的大批量患者就医问题。由于时间短，任务重，应急预案的执行具有极大的不确定性，加上就医患者的情绪波动等因素，就医场所混乱的场景时有发生。再者，对于药品的采购，医院通常是根据历史经验建立药品基数，继而每天根据缺药情况产生采购订单，进行补药，正常情况下是可以满足临床需求。但是当某种疾病突然爆发时，就有可能出现特定药品缺货的现象。此时，如果在疾病的爆发初期就能预测未来几天的就医状况，医院就可以有较充分的时间来提前安排相关专业的医生以及现场疏导人员，也能随时对特定药品等医疗资源进行预见性地调配，以应对临床可能出现的紧急情况，从而井然有序的定向迎接"突然"增多的就医患者，大大提高医疗应急管理效率。也就是说，在疾病大规模爆发的前期对其进行精确的"即时预测"具有重要的意义。

即时预测（"nowcasting"）与一般意义的预测不同，其目的并不是为了预测未来（长期）的状况，而是为了清楚地把握当前的信息状况[1]。要把握即时信息或实时信息，就必须利用发布即时信息的平台，而社交媒体（包括搜索引擎）的出现和发展，为这一技术提供了关键性的支持。社交媒体中大量持续出现的即时信息为即时预测提供了可能，充分利用社交媒体中有效的即时信息，就有希望改善此类医疗应急管理的现状。对大众网络行为信息（网络痕迹数据）进行分析成为大数据分析的重要内容，而将社交媒体大数据信息引入到疾病的预测和管理中，是本文的主要研究思路。本文利用百度搜索数据（百度指数），对儿童腹泻这种多发疾病的即时预测进行了研究。

1 即时预测的国内外研究现状

在互联网中，人们不停地进行交流和搜索，产生了源源不断的网络痕迹数据[2-3]。相关研究发现，信息的发生虽然是不可提前预测的，但是早期的一些迹象及信息可以从社交媒体网络中即时获取，比如博客、微博、论坛以及搜索引擎等[2]。于是随着数据挖掘技术的发展，人们开始研究社交媒体潜在信息与经济、社会指标之间的关系[4-5]。已经有研究表明，社交媒体的潜在信息具有预测价值，如可以预测书籍的销售结果[6]、票房的收入[7]甚至股市道琼斯指数的波动[8-9]等。搜索引擎数据作为一种相对比较容易获得的社交媒体数据，也被广泛的应用于该类研究中。比如谷歌趋势的数据可以被用来即时预测不同地区流感的流行状况[10]以及各种经济指标数值，也有相关学者提出一系列建模方法研究消费者信心指数[11-13]或揭示著作的发表规律和趋势等[14]。人们还基于话题搜索工具构建量化模型，研究消费者行为[15]以及疾病的流行和发生趋势[16]等。然而目前国内还没有利用网络数据来对疾病进行即时预测的研究，并且对网络痕迹数据的量化分析与应用研究，多数还是以传统的统计分析、回归分析为主，通过描述数据的统计特征或者通过一般的函数拟合与估计（如通过变量合并来降维[17-18]）来描述或预测网络痕迹数据与特定社会、经济指标之间的关联[19-22]。本文将在前人研究的基础上，提出一种分析网络数据和医疗指标相关关系的即时预测模型，以儿童腹泻为例，展示其在疾病即时预测方面的功用。

2 数据获取与建模

2.1数据准备本文所使用的数据主要有两部分，时间跨度均从2011年1月～2015年10月。

2.1.1首都医科大学附属北京儿童医院历史就诊数据，近几年医疗信息化发展迅速，首都医科大学附属北京儿童医院2006年住院全面实现电子化，2009年门诊全面实现电子化，临床医疗数据以相对标准化的形式储存在数据库中，大大方便了对数据的统计分析。图中以腹泻和上呼吸道感染为例，展示了近几年就诊量变化趋势，见图1。本文的建模分析则主要以首都医科大学附属北京儿童医院儿童腹泻的就诊数据为例。

3.1.2大众对疾病相关关键词的网络搜索数据，来自于百度指数。百度指数是由百度公司提供的以百度海量网民行为数据为基础的数据分享平台。百度指数由百度搜索引擎提供，其可以提供用户查询某问题被搜索的频率随时间变化的趋势数据，如搜索规模、涨跌态势、人群分布等等。将搜索的地点锁定为北京市，就可以得到北京市市民对于特定话题（关键词）的搜索趋势数据。

由于百度指数不提供数据下载支持（只有图像趋势、无公开的API并且加密），本文利用易佰百度指数批量查询工具对数据进行抓取，可以获得每个关键词每天的搜索量，对其进行统计处理就可以获得特定关键词的月度搜索趋势数据（可分为总体趋势，PC端趋势和移动端趋势），见图2。

2.2模型的构建

2.2.1变量处理与选取百度指数的总体趋势是PC端趋势和移动端趋势的和，为了防止变量间的完全共线性，本文只选择PC端趋势和移动端趋势的数据进行建模拟合。接下来，首先考查所选择自变量（百度指数数据）的相关性，相关系数如表1所示。

从表 1可以看出，来自百度指数的数据有较高的相关性，部分变量间的相关系数高达0.998以上，为了避免方程的多重共线性，考虑将以上变量进行主成分分析，结果见表2及图3。

从主成分分析的结果来看（表2及图3），前两主成分就可以比较全面的包含原百度指数的信息，达92.24。因此，本文选择前两个主成分进行建模，从而避免多重共线性的同时，降低自变量的维度，使得建模更容易。表3列出了所选取的两个主成分变量Ci（i=1，2）与原百度指数变量之间的具体计算关系，即：

2.2.2模型的构建从图1可以看出，儿童腹泻的历史就诊数据中不存在明显的趋势变化，但是存在比较明显的季节性现象，即每年基本有两个患病高峰期，大概为3月和10月附近，因此，本文考虑构建包含季节性周期的状态空间模型。

3结果与分析

利用Stata求解方程（3），拟合数据与观测的就诊数据的对比见图4，拟合曲线基本和观测曲线的趋势基本一致，能够较好的表现出实际就诊数量的变化和趋势，也说明了模型的拟合效果相对较好。

从系数拟合的结果来看，P值均小于0.01，方程的拟合效果相对较好。接下来，我们对就诊数据的季节性和原百度指数变量进行分析。

3.1就诊数据的季节性周期通过模型求解，可以获得儿童腹泻的的季节性周期，见图5。从建模的结果来看，儿童腹泻的就诊情况具有明显的季节性周期特点，一般的，每年2月和3月腹泻疾病的高发期（春节附近），而每年的5～7月则相对发病较少。

3.2儿童腹泻就诊量与大众网络行为的关系分析从表4中的拟合结果可以看出大众网络搜索行为与儿童腹泻的就诊量变化具有明显的相关关系，具体地，大众网络行为与儿童腹泻就诊量的关系如图6所示。从图中可以看出，人们的网络搜索行为会在一定程度上显示人们对儿童腹泻的就诊需求状况。儿童的腹泻会导致人们在该领域的网络搜索行为，同时也会导致儿童医院的腹泻就诊量增加。从模型的结果来看，由大众网络搜索行为引致的相关就诊量大概维持在8800上下，即大众网络搜索行为（对于儿童腹泻相关话题）与儿童腹泻的就诊量具有显著的相关性。

3.3利用大众网络搜索数据即时预未来儿童腹泻的就诊量本文将儿童腹泻的就诊量分解为两部分，即季节性变化和由大众网络行为引致的就诊量变化。一般地，季节性变化具有周期规律，只要明确具体的月份就可以了解当月的周期性特点。而网络行为数据一般会早于医院的就诊数据可以提前获得：比如可以利用当月上半月的搜索数据（2倍）作为对当月搜索数量的预测，这样就可以利用网络搜索数据来即时预测未来一段时期的儿童疾病的就诊量。

4 结论与总结

利用大众网络的搜索数据（百度指数），本文提出了利用网络痕迹信息即时预测流行性疾病的思路和方法。以首都医科大学附属北京儿童医院儿童腹泻的就诊情况为例，本文首先从百度指数获得与儿童腹泻相关的话题和关键词的搜索量随时间变化的趋势数据，然后分析其相关性。为了防止模型的多重共线性，本文利用主成分分析提取了解释变量的主成分，进而利用包含有季节性周期的状态空间模型进行建模并获得拟合结果。模型拟合结果较好，通过建模和求解，可以获得结论如下。

网络痕迹数据蕴含了大量有价值的潜在信息，人们可以通过一定的技术手段获得其中的潜在信息。由于网络痕迹数据具有实时性，因此人们可以通过分析网络痕迹数据进行相关社会-经济指标的即时预测。同时，从网络中获得有价值的潜在信息相对于传统的统计、问卷等方法也具有一定的优越性，可以降低成本，提高效率，保证信息的客观性。

从具体的建模结果来看，儿童腹泻的发病具有明显的周期性特征，同时大众的网络搜索行为与相关就诊量具有明显的相关性，人们可以利用网络痕迹数据即时预测儿童疾病的未来就诊量，而本文的建模思路和方法为其提供了一种行之有效的方案。

5讨论

本文以儿童腹泻为例，通过建模求解得出结论，进一步可选取几种其他常见疾病，获取数据，对结论进行验证。同时，可选取不同区域（华北、华中、华南），分别对结论进行验证。另一方面，在大众网络搜索行为与相关就诊量具有明显相关性的基础上，可以进行更深层次的研究，最终得出大众网络搜索行为相对于相关就诊量的提前量。从而就可以确定即时的大众网络搜索行为可以预测未来哪个时间点的就诊量。

参考文献：

[1]Scott， S.， & Varian， H.. Predicting the Present With Bayesian Structural Time Series[J].International Journal of Mathematical Modeling and Numerical Optimization， 2014， 5（1-2）： 4-23.

[2]Bello-Orgaz， G.， Jung， J.J. & Camacho， D.. Social Big Data： Recent Achievements and New Challenges[J].Information Fusion， 2016， 28（C）： 45-59.

[3]Marz， N. & Warren， J.. Big Data： Principles and Best Practices of Scalable Realtime Data Systems[M]. Pearson Schweiz Ag， 2015.

[4]Arora， D. & Malik， P.. Analytics： Key to Go from Generating Big Data to Deriving Business Value[C]. First International Conference on Big Data Computing Service & Applications. IEEE Computer Society， 2015： 446-452.

[5]Collins， B.. Big Data and Health Economics： Strengths， Weaknesses， Opportunities and Threats[J].Pharmacoeconomics， 2015：1-6.

[6]Gruhl， D.， Guha， R.， Kumar， R.， et al. The Predictive Power of Online Chatter[C]. Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining （KDD）. Now York， USA： ACM， 2005：78-87.

[7]Asur， S.， & Huberman， B.A.. Predicting the Future with Social Media[C]. Web Intelligence and Intelligent Agent Technology， Toronto， 2010， 1： 492-499.

[8]Gilbert， E.， & Karahalios， K.. Widespread Worry and the Stock Market[C]. Proceedings of the 4th International Conference on Weblogs and Social Media， 2010： 59-65.

[9]Bollen， J.， Mao， H.， & Zeng， X.. Twitter Mood Predicts the Stock Market[J]. Journal of Computational Science， 2011， 2（1）： 1-8.

[10]Araz， O. M.， Bentley， D.， & Muelleman， R.. Using Google Flu Trends Data in Forecasting Influenza-Like-Illness Related Emergency Department Visits in Omaha， Nebraska[J]. The American Journal of Emergency Medicine， 2014， 32（9）：1016-1023.

[11]Dong， X.， Bollen， J.. Computational models of consumer confidence from large-scale online attention data： crowd-sourcing econometrics[J]. PLOSONE， 2015， 10（3）： e0120039.

[12]董现垒，Bollen Johan，胡蓓蓓. 贝叶斯视角下社交媒体数据的挖掘与应用研究[J]. 软科学， 2015，（9）：96-101.

[13]董现垒， Bollen Johan，胡蓓蓓. 基于网络搜索数据的中国消费者信心指数测算与分析[J]. 统计与决策. 2016，（5）： 9-13.

[14]Dong， X.， Xu， J.， Ding， Y.， Zhang， C.， Zhang， K.， and Song M.. Understanding the Correlations between Social Attention and Topic Trends of Scientific Publications[J].Journal of Data and Information Science， 2016， 1（1）： 28-49

[15]Goel， S.， Hofman， J. M.， Lahaihe， S.， Pennock， D. M.， & Watts， D. J.. Predicting Consumer Behavior with Web Search[J].Proceedings of the National Academy of Sciences of the United States of America， 2010， 107（41）： 17486-17490.

[16]Gluskin， R. T.， Johansson， M. A.， Santillana， M.， & Brownstein， J. S.. Evaluation of Internet-Based Dengue Query Data： Google Dengue Trends[J].PLoS Neglected Tropical Diseases， 2014， 8 （2）： 85-88.

[17]du Preez， J. & Witt， S. F.. Univariate Versus Multivariate Time Series Forecasting： An Application to International Tourism Demand[J]. International Journal of Forecasting， 2003，19： 435-451.

[18]Bangwayo-Skeete， P. F. & Skeete， R. W.. Can Google Data Improve the Forecasting Performance of Tourist Arrivals？ Mixed-Data Sampling Approach[J].Tourism Management， 2015， 46： 454-464.

[19]严霄凤，张德馨.大数据研究[J].计算机技术与发展， 2013， 04： 168-172.

[20]王元卓，靳小龙，程学旗. 网络大数据：现状与展望[J]. 计算机学报， 2013， 06： 1125-1138.

[21]覃雄派，王会举，杜小勇，王珊.大数据分析-RDBMS与MapReduce的竞争与共生[J]. 软件学报， 2012， 23（1）： 32-45.

[22]陶雪娇，胡晓峰，刘洋.大数据研究综述[J]. 系统仿真学报， 2013（S1）.

编辑/金昊天