APP下载

基于数据库的电商企业畅销产品成因调查方法研究

2021-07-28

西安航空学院学报 2021年2期
关键词:成因数据库电商

章 丽

(池州职业技术学院 经济管理系,安徽 池州 247000)

一、引言

随着国内外网络消费市场的不断扩大,实体企业和电商企业都面临着巨大的挑战和发展瓶颈,一方面互联网电商企业逐渐从线上走向线下,通过对物流体系的投资和对线下门店的布局,互联网电商逐渐下沉到实体经济中,面对势不可挡的数字化浪潮,电商企业急需对畅销产品的成因进行研究,为自身企业发展寻找更好的前景[1-3]。

二、基于数据库的电商企业畅销产品成因调查方法设计

(一)提取用户消费行为数据

提取用户消费行为数据主要从三方面进行,分别是用户所持移动设备数据,与用户移动设备MAC地址匹配的消费信息、与商品SKU码匹配的商品销售数据[9]。

采集用户所持移动设备数据主要是移动设备的WiFi数据,针对线下用户群体,使用WiFi感应器采集数据,通过有线或无线两种方式将数据上传到服务器,在安装时,每个WiFi感应器的MAC地址与各个探测区域形成一一对应的关系[10]。感应器在实际环境中的工作流程如图1所示。

图1 WiFi感应器工作流程

WiFi感应器中集成了信号采集、数据预处理和数据通信三个子模块,通信协议中主要包含管理帧、控制帧和数据帧;信号采集模块负责采集和判断无线网络中不同类型的帧数据,对帧数据进行合理分类,上报至服务器;数据预处理模块主要根据数据处理程序对数据帧进行预处理操作,保证数据质量。

WiFi数据经过预处理和打包之后,通过通信模块上传到服务器中。一般情况下,WiFi感应器的数据上报周期为3秒,中间层数据处理模块通过对数据包的解压缩,可以获得WiFi感应器的MAC地址、用户手持移动设备的MAC地址、发送报文时的时间戳等数据。

对于会员用户数据,主要针对注册会员或使用过门店线上商城的基础上。当消费客户在移动设备注册会员或使用门店线上商城购物时,该客户的消费信息将会传输到会员信息数据库中。主要还是依赖移动设备的MAC地址与线上商城的匹配,具体采集流程如图2所示。

图2 会员客户数据采集流程

采集产品销售数据主要通过门店原有的商品进销存系统数据库实现。管理员针对当前门店的商品陈列情况,在数据库中导入记录了门店中每个商品的SKU码的数据表,然后通过配置商品进销数据库的验证接口实现对商品数据的调用[11]。商品销售数据采集流程如图3所示。

图3 商品销售数据采集流程

完成数据采集后,将其存储在设计的内存数据库中。

(二)后台内存数据库设计

电商企业畅销产品成因分析需要用到大量网络数据,原有的数据库不能很好地适应网上数据的特点,需要引入新的数据模型,对数据库进行优化。因此,在数据库中引入半结构化模式,半结构化数据存在一定的结构,先有数据,后有模式,能够准确地描述出数据的结构信息,但不会对数据结构产生强制性的约束,也能随着数据的不断更新而时刻处于动态变化状态[12]。

针对半结构模式的数据库,设计基于XML的数据管理框架,将来自各数据源的数据通过数据仓库方法进行集成,以XML数据的形式统一存储在数据库中[13]。具体过程是:定义XML数据模式,根据用户的实际需求在数据库中抽取源数据,将各个数据源的数据集成为XML数据,同时获得XML数据的模式,统一数据模式。在电商企业畅销产品成因分析中,与畅销产品相关的数据如表1所示。

“封禁令”封住了山,封住了沙坨子,却也禁了羊的口。老百姓的羊怎么办?舍饲圈养。刚开始的时候,农民不知怎么养、羊舍怎么建,也不知优质的种羊从哪里引进。何况,养羊户更需要一笔不大不小的启动资金——这是农民心里不愿说出来的话。于是,政府搭台,肉类加工企业与农民结成“羊对子”,签订合同,一方出资,一方出工,借羊养羊,养羊还羊,增值分成。出栏的羊全部由肉类加工企业收购,农民没有任何风险,收益还能得大头。有了新的出路,农民对“封禁令”不再抗拒。

表1 畅销产品相关数据

为了保证后台数据的安全,在事务进入提交状态之前,对每个活动事务分配一个“影子内存工作区”,将数据修改工作记录到影子内存工作区中,不修改真正的数据库数据,当工作进入提交状态时,根据“影子内存工作区”中的记录作相应修改,即使某一事务由于某种原因夭折时,也只需要释放其相应的影子内存工作区即可[14]。

半结构模式数据的实际操作效率存在一定的不足,通过使用“影子内存工作区”,可提高一定的数据库操作效率。为了更好地提高工作效率,改变数据库存储结构,将元数据和数据存储在一起,使得元数据可以直接存取,减少查找元数据带来的开销[15]。考虑到不同操作的并发程度不同,可能会造成资源开销比较高,因此采用动态多粒度锁机制适应不同操作。当并发程度比较高的时候,采用较小粒度的锁;当并发程度比较低的时候,使用粗粒度锁。在这种机制下,既保证了并发性,又保持了较低的开销。至此,基于数据库的电商企业畅销产品成因调查方法设计完成。

(三)挖掘成因数据

从大量与畅销产品的信息数据中筛选出成因数据,主要利用事物与事物之间的关联性和相互依存性,在成型的数据库中挖掘出目标数据。假设用户行为数据库D中有N个不同集合I={i1,i2,…,in},数据库D中一个事务U是一个项目子集(U⊆I)。支持度是项集在数据库D中出现次数与数据库D中项集总数的比。在计算之前,用户根据自身的需求设置最小支持度阈值,当计算的项集支持度超过最小支持度阈值,得到频繁项集。

支持度计算公式为:

式中:X∪Y=Ø;M表示数据库D中的事务总数;X和Y表示集合I中事务;support(X∪Y)表示数据库中支持X∪Y的事务数。则信任度计算公式为:

式中:Sup(X∪Y)表示X∪Y的支持度;Sup(X)表示X的支持度。将以上公式转换为概率计算:

Sup(X⟹Y)=P(X∪Y) (3)

Conf(X⟹Y)=P(Y/X) (4)

扫描整个数据库D,计算数据库中所有事务的支持度,将支持度不小于最小支持度的项目构成集合存入到数据集中,对数据库中的每一个事务重复上述过程,最后将支持度不小于最小支持度的潜在频繁项集存入数据集中,最后输出数据集,即为畅销产品成因数据集。通过整理即可得到畅销产品成因分析结果。

三、电商企业畅销产品成因调查方法实验研究

(一)实验数据集准备

在电商企业畅销产品成因调查方法实验研究中,从Yahoo!Autos网站随机抽取1000000条记录,合成数据集MerDB,其中包括type、color、model、price、make数据集,测试数据集的总大小为1550.36 MB。

所有的实验均在配置Windows10的计算机和Microso SQL Serve的环境下进行。考虑到提出的调查方法需要利用用户的网络行为,因此,从电商企业网站中获取用户网络行为数据。具体内容如表2所示。

表2 实验数据来源明细

依据以上数据设计对比实验,实验对象为提出的基于数据库的成因调查方法、常规的基于Logistic回归分析的成因调查方法和基于SEM的成因调查方法,以调查方法的可靠性为衡量标准,设计两组对比实验,分别是数据清洗实验和网关压力实验。

(二)数据清洗实验及分析

数据清洗实验中,使用不同的成因调查方法分析实验数据,在分析完成后,将得到的数据进行数据清洗,对得到数据进行字符数校验,执行程序如图4所示。

图4 数据清洗reduce过程部分代码

对比观察处理后的数据,分析成因调查方法的实际水平。具体结果如图5至图7所示。

图5 基于Logistic回归分析的成因调查方法实验结果

图6 基于SEM的成因调查方法实验结果

图7 基于数据库的成因调查方法实验结果

对比观察图中结果,图5显示的结果中,数据中不仅有属性缺失的数据序列,还有异常序列的数据,异常数据序列包括归零数据和字符长度异常数据;图6显示的结果与图5中存在的数据异常相同,异常数据更多;图7中结果显示,数据整齐有序,不存在异常数据。综上所述,提出的基于数据库的电商企业畅销产品成因调查方法数据质量更好。

(三)网关服务压力实验与分析

网关压力实验中,使用Jmeter压力测试工具通过编写测试脚本模拟多个事务并发调用API请求,通过不断提升并发API请求数量,判断网关所能承受并发数量的极限值。实验结果如表3所示。

表3 不同成因调查方法网关服务压力实验结果

从表3可以看出,传统的两种成因调查方法网关服务能力比较差,实际处理的数据请求与预期处理的数据请求相差比较大,在回归测试中也并没有得到校正。相比之下,提出的基于数据库的电商企业畅销产品成因调查方法抗压能力更强,能够在极短的时间内处理所有数据请求。结合数据清洗实验结果可知,提出的基于数据库的电商企业畅销产品成因调查方法具有更好的可靠性,该方法优于传统的成因调查方法。

四、结语

电商企业畅销产品成因调查对电商企业的发展有很强的推动作用,很多企业在畅销成品调查研究中投入了大量精力。在这种背景下,本文围绕着电商企业畅销产品成因调查方法展开研究与设计,对原有的畅销产品成因数据库进行了优化。在调查方法设计完成后,通过实验对比,验证了提出的畅销产品成因调查方法的可靠性,为电商企业发展提供理论依据与技术支撑。

猜你喜欢

成因数据库电商
电商助力“种得好”也“卖得火”
垛田形态多样性的自然成因探索
新电商 潮涌风劲向未来
基于实证调查的学困生成因及转化
自相似视角下相对贫困成因分析
论清人对红楼十二钗的认知差异及其成因
数据库
数据库
数据库
数据库