APP下载

基于单元间距离估计的不等概率抽样算法及应用

2023-06-23周楷贺李莉莉

周楷贺 李莉莉

摘要:现有大数据的不等概率抽样方法大多基于数据分布,泛化能力较差。为此,利用多层感知机、XGBoost和Kriging模型估计总体单元间的相对距离,提出针对海量数据的不等概率抽样算法。此类算法既不需要考虑总体的分布,又能够保证样本的代表性。实证分析结果表明,基于此算法抽取样本构建的模型与简单随机抽样方法相比,模型参数估计的均方误差更低,效果更稳定。

关键词:不等概率抽樣;代理模型;样本代表性

中图分类号:O212.2

文献标志码:A

文章编号:1006-1037(2023)02-0005-06

doi:10.3969/j.issn.1006-1037.2023.02.02

基金项目:

国家社会科学基金(批准号:2019BTJ028)资助;山东省金融应用重点研究项目(批准号:2020-JRZZ-03)资助。

通信作者:

李莉莉,女,博士,教授,主要研究方向为金融统计、统计调查与预测。

大数据抽样分为概率抽样和非概率抽样,前者包括等概率抽样和不等概率抽样。不等概率抽样最早以汉森—赫维茨估计量为基础[1],最新研究通过奇异值分解(Singular Value Decomposition, SVD) [2]获取信息矩阵中杠杆分数作为总体单元的入样概率,利用估计量的均方误差衡量估计量的精度。两步子抽样算法[3]基于SVD分解、试验设计中A-最优和L-最优提出的大数据子抽样算法,理论证明基于两步子抽样算法的模型参数估计具有无偏性和一致性;模拟和实证分析结果表明两步子抽样相比于简单随机抽样在模型参数估计的均方误差上有显著优势。两步子抽样算法可由二分类Logistic回归扩展至多分类SoftMax模型[4]、线性回归模型[5]、广义线性模型[6]。替代模型中Kriging模型、XGBoost、多层感知机(Multi-Layer Perceptron, MLP)可用于处理确定性函数。Kriging模型及其最佳线性无偏预测(Best Linear Unbiased Prediction, BLUP)的性质经系统论证后[7],大量模拟表明该模型仍可精确预测复杂曲面。XGBoost旨在实现高效,灵活和便携的数据分析和预测,同时梯度增强框架下实现并行树提升,能快速准确地解决诸多数据科学问题[8],广泛应用于金融[9]、基建工程[10]领域。多层感知机[11]基于梯度下降和反向传播算法学习大量未知参数,具有强大的拟合能力。本文利用上述三种模型,提出基于单元间距离估计的不等概率抽样算法,针对不同样本构建模型,根据计算结果研究分析样本的代表性。

1 模型及算法阐述

本文所提不等概率抽样算法步骤:首先抽取样本,构建定义单元的入样概率模型。通过随机简单抽样获取随机子样本,模型的响应值为该单元至最近的nc个样本单元之间平均欧式距离的倒数,非线性变换旨在解决样本过分集中导致样本粘连和样本代表性下降。针对不同的子样本和对应的响应值,分别构建基于Kriging模型、XGBoost模型、MLP的不等概率抽样算法。最后通过已构建模型定义各单元的入样概率,实施不等概率抽样。该算法可计算每个单元的入样概率,并依入样概率抽取不等概率抽样样本。

基于XGBoost(XGB)模型和基于MLP模型的不等概率抽样算法具体步骤除(3)以外均相同。

2 实证分析

2.1 数据预处理

通过2021年秋季Raifhack房地产数据,研究基于概率密度的抽样算法在一般线性回归中参数估计的性质。数据来源于Kaggle数据库中Raifhack房产价格预测项目[12]。原始数据集中自变量77个,目标变量为房产价格,观测值共计279 792条。经自变量筛选和剔除缺失观测值30 211条后,保留的20个自变量需标准化处理以消除不同自变量之间量纲影响[13]。经全样本构建线性模型验证,自变量模型参数均在P=0.05上显著(表1)。

2.2 距离估计算法构建线性回归模型的均方误差分析

设定基于单元间距离估计的不等概率抽样算法的一阶样本量为700。为验证该算法在一般线性回归中的有效性,通过三种基于单元间距离估计的不等概率抽样算法获得249 851个观测值的入样概率。基于三种提出的不等概率抽样算法获得的样本和使用简单随机抽样获得相同数量的样本构建回归模型,为便于比较,构建mseKrin=MSEKrinMSErandomn、mseXGBn=MSEXGBnMSErandomn和mseMLPn=MSEMLPnMSErandomn。MSEKrin、MSEXGBn和MSEMLPn分别表示基于Kriging模型、XGBoost模型、MLP模型的不等概率抽样抽取的n个样本构建模型参数1 000次均方误差的均值;MSErandomn代表利用简单随机抽样抽取的n个样本构建模型参数1 000次均方误差的均值。根据不同样本n=100,300,500时mseKrin、mseXGBn和mseMLPn可知,相比基于XGBoost和MLP模型的不等概率抽样,基于Kriging模型的不等概率抽样构建模型的参数均方误差较大,但仍整体上小于简单随机抽样构建模型的模型参数均方误差(表2),这表明所提出的三种不等概率抽样算法相较于简单随机抽样具有不同程度的样本代表性优势。

2.3 距离估计算法对总体特征估计分析

样本代表性亦可通过样本对总体矩的估计精度表示。三种不等概率抽样的样本矩和简单随机抽样的样本矩分别与总体矩之间的曼哈顿距离比值作为指标,其中分子为不等概率抽样获得的样本矩与总体矩之间距离的1 000次试验均值,分母为简单随机抽样获得的样本矩与总体矩之间距离的1 000次试验均值。基于不同样本量n=100,200,300,400,500三种不等概率抽样算法在一阶矩和二阶矩的估计结果如图1~3所示。

可知,基于Kriging模型的不等概率抽样相较于简单随机抽样对总体矩的估计精度差异较小。基于XGB模型和基于MLP模型的不等概率抽样随着样本量增加,对总体一阶矩和二阶矩的估计精度不断提高,证明基于XGB模型和基于MLP模型的不等概率抽样样本相较于基于Kriging模型的不等概率抽样样本和简单随机样本对总体具有更好的代表性。为分析上述方法稳定性,需计算基于三种不等概率抽样样本对总体矩估计的标准差与简单随机抽样的标准差比值(表3)。与简单随机抽样相比,三种不等概率抽样算法均提高总体的一阶矩和二阶矩估计量的稳定性,三种不等概率样本对总体一阶矩的估计精度更稳定。样本量相同的条件下基于MLP和XGB的抽样方法相较于Kriging模型的抽样方法能更加精确的估计总体一阶矩和二阶矩。

3 结论

本文从估计单元间距离出发,结合Kriging模型、XGBoost模型和MLP模型提出了三种不等概率抽样算法。相较于简单随机抽样,文中所提三种不等概率抽样算法获取的样本在估计一般线性回归模型时,模型参数的均方误差更小。基于三种不等概率抽样所得样本能够更加精确和稳定地估计总体一阶矩和二阶矩,说明通过所构建不等概率模型抽取的样本更能反映真实情况。今后构建MLP和XGB模型时应充分考虑数据特异性,确定适合模型的超参数以提升模型性能。

参考文献

[1]冯士雍,倪加勋,邹国华. 抽样调查理论与方法:第2版[M]. 北京:高等教育出版社,2012: 139-156.

[2]MA P, MAHONEY M W, YU B. A statistical perspective on algorithmic leveraging[J]. The Journal of Machine Learning Research, 2015, 16(1):861-911.

[3]WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113(522):829-844.

[4]YAO Y Q, WANG H Y. Optimal subsampling for SoftMax regression[J]. Statistical Papers, 2018, 60:585-599.

[5]CHEN Q S, WANG H Y, YANG M. Information-based optimal subdata selection for big data logistic regression[J]. Journal of Statistical Planning and Inference, 2020, 209:112-122.

[6]AI M Y, YU J, ZHANG H M, et al. Optimal subsampling algorithms for big data regressions[J]. Statist Sinica, 2021, 31(2):749-772.

[7]SANTNER T J, WILLIAMS B J, NOTZ W I. The design and analysis of computer experiments[M]. New York: Springer, 2003, 46-86.

[8]CHEN T Q, GUESTRIN C. XGBoost: A Scalable Tree Boosting System [C]// Association for Computing Machinery 2016. San Francisco, 2016:785-794.

[9]陳秋华,杨慧荣,崔恒建.变量筛选后的个人信贷评分模型与统计学习[J]. 数理统计与管理, 2020, 39(2):368-380.

[10] 刘鑫蕊,常鹏,孙秋野.基于XGBoost和无迹卡尔曼滤波自适应混合预测的电网虚假数据注入攻击检测[J].中国电机工程学报, 2021, 41(16):5462-5476.

[11] PARK H. MLP modeling for search advertising price prediction[J]. Journal of Ambient Intelligence and Humanized Computing, 2019, 11:411-417.

[12] VLADISLAV K. Raifhack-DS-2021-Fall[DB/OL].[2022-03-22]. https://www.kaggle.com/lildatascientist/raifhackds2021fall.

[13] 宋锦波, 徐海芹, 宫晓慧, 等. 基于双簇头及数据融合的改进LEACH算法的网络拓扑控制研究[J]. 青岛大学学报(自然科学版), 2021, 34(3):22-27.