R软件在“市场调查”课程实践教学中的应用探讨

2014-10-21葛莹玉

职教通讯 2014年30期

摘要：抽样调查是“市场调查”课程的主要实践教学环节，目前所使用的软件对抽样模拟的支持相对不足，很多抽样及估计过程仍不能在软件菜单中得以实现，尤其是不等概抽样大多需要编程。软件编程对工商管理类的学生并非易事，R软件的sampling等软件包提供了大量现成的不等概程序，可以方便地进行抽样及模拟教学。探讨以调查某品牌商品的消费者总量为例，模拟不等概率抽样的过程，为“市场调查”课程实践教学提供了一种实用的方法。

关键词：市场调查；实践教学；抽样调查；R软件

作者简介：葛莹玉，女，江苏理工学院商学院讲师，河海大学在读博士，主要研究方向为技术经济与管理。

中图分类号：G642文献标识码：A文章编号：1674-7747（2014）30-0068-03

“市场调查”课程是工商管理类专业的核心课程之一，该课程的实践操作性很强，教学内容主要围绕市场调查方案制定、市场调查问卷设计、市场调查数据搜集、整理和分析等内容展开。通过“市场调查”课程教学，不仅使学生学会如何制定调查方案、设计调查问卷、处理和分析数据等，而且，其核心过程是让学生掌握和运用抽样调查方法。由于“市场调查”课程具有较强的实践操作性，在本科阶段仅仅讲授抽样原理的效果不佳，学生实践能力也无法得到培养。因而，使用R软件进行抽样过程实践，能够让学生直观地了解抽样过程及结果，培养其动手能力，提高他们解决企业市场调查中实际问题的能力。

一、“市场调查”课程的抽样方法

目前，常用的抽样方法有概率抽样和非概率抽样，其中，概率抽样又包含等概率和不等概率两大类别。等概率抽样由于实施方便，且具有较高的精度，在实际抽样中使用广泛。[1]然而，等概率抽样在实际使用时的限制也最多，它假定总体中每个个体具有相同的规模大小或重要程度，当总体中每个个体的规模或重要程度存在显著差异时，会影响等概率抽样的估计精度。[2]此时，若能找到说明个体规模或重要程度的辅助变量，则可采用不等概抽样方法。不等概抽样虽然是有偏估计，但可大幅提高估计精度，在偏度不大的情况下，不等概抽样结果仍比概率抽样更可靠。在现有的软件中，SAS和SPSS软件都有复杂抽样的模块，但不放回不等概抽样的模块和程序较少，具体使用时需要自己编程。而R软件提供了多种不等概抽样的程序，方便进行模拟及结果可視化，且R是开源软件，无需为软件或某个软件包支付任何费用。因此，R软件已成为工商管理类专业学生和实证研究人员的主要分析工具。

二、“市场调查”课程的抽样模拟具体实例

本文以调查某品牌商品消费者总量为例。消费者总量的调查若以家庭或个体为单位，会大大增加抽样框编制的难度，增加调查实施的困难。因此，本文以街道居委会或村民小组为最小单位，由于不同的街道居委会或村民小组居民数量不同，故拟采用不等概率抽样方法。不等概抽样的实施方法有很多，但由于实际操作困难，限制了不等概抽样方法在实践中的使用。[3]本文运用R软件编程模拟几种常用的不等概抽样方法，运用Horvitz-Thompson估计量模拟调查精度，并与多阶段抽样和简单随机抽样进行比较，从中选出满意的抽样方法。

（一）抽样总体的描述

选取某品牌商品消费人口较多的某省某县为总体，该县有19个乡镇，125个村，最大的乡镇拥有171个街道或村民小组，最小的乡镇只有43个街道或村民小组；平均每个乡镇拥有94个街道或村民小组，19个乡镇共计有1 791个街道或村民小组。总人口共3105万人。其中，某品牌商品的消费者人数有746万人，占总人口的2401%。在所有街道或村民小组中，消费某品牌商品的人数比率最低为0，最高为7674%，可见，消费某品牌商品的人数比率在各街道或村民小组中差异较大，且呈明显右偏；消费某品牌商品的人数比率在50%以上的街道或村民小组很少，峰值在30%左右，如图1所示。用Shapiro-Wilk正态性检验伴随概率小于001，说明各街道或村民小组的某品牌商品消费人口数并不服从正态分布。但某品牌商品消费人口或村镇总人口的相关系数达072，spearman相关系数检验的伴随概率小于001，说明各街道或村民小组的某品牌商品消费人口与总人口数成高度相关，可将总人口数作为辅助变量进行抽样。

（二）抽样方法的选择

常用的不等概抽样有放回的不等概抽样（pps）和不放回的不等概抽样（πps）两种，相比较而言，πps抽样虽然抽取方法和方差估计比较困难，但精度上有所提高，且随着计算机技术和统计软件的发展，πps抽样及估计的程序和软件将越来越成熟，πps抽样的使用也将逐渐广泛起来。

设有限总体U={1，…，k，…N}，本例中N=1 791，抽样单元为街道或村民小组，调查变量yk为某品牌商品消费人口数，调查目的是估计地区的某商品消费总人数ty=∑kUyk，设对于总体中的每一个个体都存在xk>0，xk与yk近似成比例或存在一定相关性，则以xk为辅助变量的不等概抽样可以减小抽样误差。

每个个体被包含到样本中的概率为：

（三）抽样过程的模拟仿真

1.抽样程序采用R软件以及sampling包进行编程抽取，为了比较各抽样方法的差异及抽样精度的稳定性，本文将样本量设定为25、50和100三组，每组样本都模拟抽样100次。在sampling包中提供了brewer和midzuno等17种不等概抽样方法，其用法基本一致，首先计算包含概率，计算程序为：

inclusionprobabilities（a，n），

其中，a为说明规模大小的辅助变量，a>0；n为样本量。

为方便起见，令pik=inclusionprobabilities（a，n）。

2.按不等概方式抽取样本，即生成变量s，s=1表示抽中，s=0表示没有抽中，以brewer抽样为例：

s=UPbrewer（pik），

其余不等概抽样程序类似，详见sampling包。

3.计算Horvitz-Thompson估计量。

HTestimator（y，pik），

其中，y为需估计的变量。

运用上述函数的三种样本量模拟结果如图2所示。

当样本量为25个街道或村民小组时，抽样比为140%，平均抽到的某品牌商品消费人数约为4 334人。此时，各种抽样方法的精度不高，相较而言，poisson抽样和多阶段抽样的估计量方差较大，多阶段抽样和pivotal的偏差较大（图2中虚线为消费某品牌商品的总人数），而systematic抽样和brewer抽样效果相对较好。

当样本量为50和100，抽样比为279%和558%时，抽样的偏差和估计量方差都有改善。其中，多阶段抽样和poisson抽样的估计量方差仍较大，且偏差明显不为0，故这两种抽样方法并不适用本例。相较而言，brewer、midzuno和systematic抽样相对比较稳定，简单随机抽样（srswor）在样本量较小时估计误差较大，而在样本量大于50后也具有较好的估计精度。综合考虑稳定性、偏差和估计量方差，本文认为，不等概系统抽样（systematic）最适于用来估计该地区某品牌商品消费者总量。

三、结论

本文运用目前流行的统计开源软件R软件及sampling软件包，方便實现了不等概抽样及结果模拟，并用图表直观输出，比较抽样过程中的方法、样本量等因素对抽样精度的影响。模拟仿真结果表明，R软件丰富的程序包，可方便进行抽样设计及模拟，且使用方便，操作简单，可扩展性强。可见，相对于传统理论教学，使用R软件进行实践教学，可以加深学生对不等概率抽样的理解，使其更好地掌握和运用市场调查中的抽样方法。[4-5]

参考文献：

[1]庞智强.《抽样调查》课程建设与教学改革[J].兰州商学院学报，2001（6）：148-149.

[2]马岚.对《抽样调查》课程教学改革的思考[J].统计教育，2007（8）：29-30.

[3]周妮笛.论《市场调查与预测》课程教学的改进[J].当代教育理论与实践，2011（11）：74-76.

[4]陈成栋，刘晓云.“市场调查与预测”课程教学改革实证研究[J].中国市场，2012（35）：26-28.

[5]杜亚芳.市场调查课程教学改革与实践[J].高等教育，2013（6）：133-134.

[责任编辑盛艳]