APP下载

“拍照赚钱”的任务定价问题的建模与计算

2018-09-20杨非非袁晨辉汤仕星邱淑芳

价值工程 2018年29期
关键词:多元线性回归支持向量机

杨非非 袁晨辉 汤仕星 邱淑芳

摘要:针对“拍照赚钱”的任务定价问题,文章选取了影响任务定价的几个主要因素,研究它们与任务定价之间的函数关系,建立多元线性回归模型和Logistic回归模型,在此基础上分析任务未完成的原因。然后,利用支持向量机算法引入区域修正参数,得到新的任务定价模型。最后,依据任务被完成的概率建立最大团“打包”定价模型,从而得到打包后的任务定价方案。

Abstract: For the task pricing problem of "making money by taking pictures", this paper studies the relationship between the task pricing and its several main influencing factors, and then establishes multivariate linear regression model and logistic regression model to analyze the reason of unfinished tasks. Then, region corrected parameters are introduced by using the support vector machine algorithm and the new task pricing model is obtained. Finally, the maximum group "packing" pricing model is establishedbased on the probability of completing the task, and the "packing"task pricing scheme is obtained.

关键词: 任务定价;多元线性回归;Logistic回归;最大团;支持向量机

Key words: task pricing;linear regression;logisticregression;maximalgroup;support vector machine

中图分类号:O29 文献标识码:A 文章编号:1006-4311(2018)29-0194-04

0 引言

“拍照赚钱”是移动互联网下的一种自助式服务模式。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。现针对该APP中的任务定价问题进行研究,为科学决策提供定量依据,并建立数学模型解决以下问题[1]。

问题1:研究项目的任务定价规律,分析任务未完成的原因。问题2:为项目设计新的任务定价方案,并和原方案进行比较。问题3:实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?

1 数据准备与模型假设

数据来自2017年高教社杯全国大学生数学建模竞赛(CUMCM)题目B题所给的附件,从全国大学生数学建模竞赛网站下载(http://www.mcm.edu.cn/)。

1.1 位置确定

根据给出的数据,利用MATLAB软件进行处理后,可以发现任务和会员的位置(经纬度)绝大部分都集中在广东地区,只有少数个别情况零散分布在外,可忽略不计,故可以确定会员执行任务的地区主要为广东。

1.2 任务周边的其他任务数和会员数

定义一个任务的周边为以该任务为中心、边为5000m的正方形区域,大约横跨0.05经度与0.05纬度。为此,计算以任务为中心的0.05经度×0.05纬度的曲面内的任务数和会员数,记为该任务周边的其他任务数和会员数,结果如图1与图2所示。

1.3 任务之间的实际距离d

假设任务A、任务B的地理坐标分别为(X1,Y1)、(X2,Y2),过A、B两点的大圆的劣弧长即为两点的实际距离。 以地心为坐标原点O,以赤道平面为XOY平面,以0度经线圈所在的平面为XOZ平面建立三维直角坐标系[2]。则A与B点的直角坐标分别为

为了便于解决问题,提出以下假设:①所有任务的性质相同;②会员信誉值越高,任务完成的可能性越高,领取任务时的积极性就越高;③用户选择任务时只考虑任务的标价和任务的位置,无其他影响因素(比如交通、天气等);④任务被打包后,会员在选择任务包时可以看到任务要求。

1.4 影响任务定价因素的选取

根据已结束项目任务和会员信息数据可以分析,在同一区域范围内,如果任务分布相对较为集中,而且任务附近分布的会员数较多,则会员之间可能会存在竞争关系,与任务定价的变化都可能存在间接联系。因此,在问题1中选取经纬度、任务周边的其他任务数以及任務周边的会员数作为任务定价的影响因素。在问题2中,我们又引入了两个变量因素“预定限额总和”与“平均信誉值”,确定问题2中影响任务定价的因素为新引进的两个因素、任务周边的其他任务数以及任务周边的会员数,如图3所示。

2 已给任务定价的规律(问题1)

2.1 多元线性回归模型

根据上一节关于任务定价影响因素的讨论,我们假设项目任务定价y与任务纬度x1、任务经度x2、周边的其他任务数x3、周边的会员数x4存在线性关系,为此建立多元线性回归模型:

对式的回归系数进行假设检验[4],可以得到检验统计量平均相对残差为4.3%,F=26.4899,p=0.000<0.001。F值远远超过了F检验的临界值,p远小于置信区间水平0.05,故模型从一定角度来说是可行的。

从式可以看出任务定价的基本规律为:任务的经纬度对任务的定价影响不显著,任务周边的其他任务数和任务周边的会员数对任务定价具有显著性影响,即任务定价随着任务周边其他任务数的增加而增大,而随着任务周边会员数的增加而减小。

2.2 任务完成概率的Logistic回归模型

2.3 任务未完成的原因

通过上述建立的模型,我们可以初步分析出任务未完成的原因。

①从任务完成概率的Logistic回归模型(3)的各项系数可以看出:任务的经纬度系数较大,从而得出任务的地理位置在很大程度上决定任务是否被完成;而对于“任务周边会员数”和“任务周边其他任务数”两个指标来说,周边其他任务数越多(周边任务之间存在竞争关系)就越不容易被预定,任务周边会员数越多任务被预定的概率也就越大。

②从定价指标的系数我们也可以看出,虽然模型(2)得出任务的经纬度、任务周边的会员数和任务周边的其他任务数都会影响到任务的定价,而任务的定价又会对任务是否完成产生影响。将任务定价的回归系数与任务完成概率Logistic回归模型得到的系数进行对比,相同指标系数的正负号相同,说明任务的经纬度、任务周边的会员数和任务周边的其他任务数等指标影响定价与影响任务完成具有一致性,且定价越高,任务越容易被预定。

③通过给出的已结束项目任务数据,发现还存在大量的未被完成的任务,虽然考虑了任务周边的会员数,但周边会员的质量也是决定任务是否被完成的关键所在。任务周边会员数越多,信誉低的会员数量相对也变多,就使得任务被信誉低的会员预定而没被完成的概率变大。另外,虽然考虑了任务周边的其他任务的竞争影响,但没有考虑任务周边会员能预定任务的总额大小,因为信誉高的会员具有预定多个任务的优先权,可能导致先预定的会员将自己周边的任务预定完,使得周边其他会员不得不选择位置相对较远的任务,从而增加了任务未被预定的可能性,使得任务没有被完成。

3 任务定价的新方案(问题2)

3.1 基于区域修正参数x*的模型

假设任务定价y与项目任务周边的其他任务数量x3、任务周边的会员数量x4、任务周边会员的预定限额总和x5、任务周边会员的平均信誉值x6为线性关系时,并利用已给的数据及MATLAB软件,得到一个新的任务定价回归模型:

另外,考虑到纬度和经度对任务定价的影响,为此我们引入一个区域修正参数x*,依据任务所在区域分别对修正参数进行赋值。按任务完成率对项目数据进行初步分类,可分为东莞市、深圳市与其他城市三大类,并将其他城市的修正参数设为0。再利用支持向量机将深圳市,东莞市区域的任务进行分类,结果如图4所示。任务完成率高的区域(多为东莞市)修正参数取-1,任务完成率低的区域(多为深圳市)修正参数取1。可以得到修正的任务定价模型为

若将修正参数x*的系数逐渐增大,由定价方案(5)计算出的定价总额逐渐减小,将新的标价带入问题1的任务完成概率的Logistic回归模型所得到的任务完成概率均值逐渐增大。但是,如果修正参数的系数过大,将会造成标价异常。通过权衡原来方案的标价区间,将系数k定为10。

3.2 利用Logistic模型进行分类[5]

根据新的定价方案(5),可以计算出新的任务标价,将任务定价带入由问题1建立的任务完成概率的Logistic回归模型(3),计算出任务完成的概率p。 然后,将任务的完成情况按任务被完成的概率进行分类,即

从而可以根据新的定价方案依概率判断任务是否被完成。通过计算可以得到新方案的任务被完成的概率大于0.5的数量比原方案多,计算结果见表1。

由表1可知,新方案与原方案相比,任务的平均标价提高了0.58元,即增加了0.84%;但是任务的完成率提高了11.86%。相对于原方案来说,新方案更为合理。

4 基于最大团进行“打包”的定价方案

4.1 基于“打包”后的任务定价模型

利用问题2中的Logistic分类模型得出打包定价后的任务完成率为76.8%,包中任务的定价总额为12799元;打包前包中任务的完成率为78.4%,包中任务的定价总额为14467元。因此,较打包前包中任务的定价总额减少了11.53%,任务完成率减少了1.6%。

5 結论与讨论

本文讨论了“拍照赚钱”的任务定价问题,根据选取出的影响任务定价的主要因素,建立了任务定价的多元线性回归模型,分析了任务定价的规律;将任务是否完成定义为一个0-1变量,依据所给任务完成与否的数据,建立了任务完成概率的Logistic回归模型。随后,我们将隐含的“任务周边会员的预定限额总和”、“任务周边会员的平均信誉值”两个因素作为新的定价模型变量,并引进一个区域修正参数,建立了新的任务定价模型,并用问题1中建立的任务完成概率的Logistic回归模型对新方案进行评价,评价结果表明新的定价方案更优。最后,将相近任务进行打包,建立了最大团“打包”定价模型,从而得到打包后的任务定价方案,计算结果表明最大团“打包”定价模型更优。但是,由于使用的最大团搜索算法时间复杂度比较高,所以任务打包的程序运行时间比较长。

致谢:

感谢东华理工大学理学院王泽文教授的宝贵建议和意见。

参考文献:

[1]全国大学生数学建模竞赛组委会.2017高教社杯全国大学生数学建模竞赛(CUMCM)题目B题[EB/OL].[2017-09-14].http://www.mcm.edu.cn

[2]司守奎,孙兆亮,等.数学建模算法与应用[M].北京:国防工业出版社,2017.

[3]王泽文,乐励华,等.数学实验与数学建模案例[M].高等教育出版社,2012.

[4]姜启源,谢金星,叶俊.数学模型[M].四版.高等教育出版社,2003.

[5]陶卿,曹进德,孙德敏.基于支持向量机分类的回归方法[J].软件学报,2002,13(5):1024-1028.

[6]一种快速求解最大团问题的算法.http://blog.csdn.net/qiutubushenghan

[7]周阳.最大团问题的精确算法研究[D].华中科技大学, 2015.

猜你喜欢

多元线性回归支持向量机
基于支持向量机的金融数据分析研究