APP下载

泊松分布在随机行为中的应用研究

2020-09-10叶超

中国新技术新产品 2020年13期
关键词:晚归概率分布

叶超

摘  要:该文在数理统计的视角下,分别以日为单位和以周为单位对温州职业技术学院2013年9月~2018年12月公寓晚归数据进行统计分析。研究发现2种统计口径下学生晚归行为分布与泊松分布之间有显著相关性,其卡方检验结果分别为P1=0.048、P2=0.045。因此,以周为单位的晚归概率分布更好地符合泊松分布的特点。根据该文的研究结果可知,在探究学生晚归行为时,可以将此类随机事件转化为一个已知均值的泊松分布问题,将复杂问题简单化、模型化,从而为高校教师和管理者更好地管理学生提供分析和决策依据。

关键词:泊松分布;卡方检验;晚归;随机事件;概率分布

中图分类号:O211.3         文献标志码:A

0 引言

众所周知,泊松分布[1](Poisson Distribution)是一种离散型随机概率分布,它是由法国著名的数学家和物理学家泊松(Poisson S.D)在1837年首先提出来的,与之相关的泊松过程、复合泊松过程等在物理学、金融学、经济学、工程学和管理学领域扮演者重要的角色。泊松分布主要用于描述单位时间或空间内随机事件X发生k次的概率分布数学模型,在描述稀有事件出现的概率时显得特别有用,例如单位时间内电话总机接到用户呼叫的次数;单位时间内,电路受到外界电磁波的冲击次数;1 m2内玻璃上产生的水滴数;某一公交车站上车的乘客数;某项保险的索赔次数;某一液滴中观察到的微生物数等。

学生公寓晚归行为通常是指学生在规定门禁时间之后回到公寓的一种违纪情况。学生无故晚归会对学生公寓正常管理带来诸多影响,存在极大的安全隐患。学生晚归行为作为一种随机事件,高校教师和管理者通常只关注发生晚归行为的学生,而忽略了晚归这一行为在统计学上的特征和表现。通常情况下,我们无法准确地预测某一天有几个同学晚归,但是我们能统计出某一月、某一学期发生了多少次晚归,而泊松分布恰好适合描述这种随机事件。因此,该文将探究晚归行为与泊松分布之间的关系。

作者跟踪整理了温州职业技术学院从2013年开始长期开展学生公寓学生晚归。截至2018年底,总共整理汇总1319期学数据,其中晚上未按时回校2 146人次。为该次分析和研究提供了数据支持。

1 以日为单位的泊松分布研究

泊松分布概率函数通常可表示为:

上式可理解为:随机变量X在取值为k时的概率,其中k=0,1,2…、λ表示随机事件在一段时间内发生的平均次数。对于任意随机事件如要将其看作泊松过程研究,需满足3个条件。1)随机事件具有独立性。2)随机事件在不同时间段内发生的概率具有稳定性。3)随机事件是个小概率事件[1]。

该文研究了对象学生晚归行为,这一随机事件能够较好地符合上述3个条件。即学生晚归行为为个人行为,不会受到之前晚归的学生的影响;除了涉及假期的月份,其他月份学生的晚归总数相对稳定,说明学生晚归概率具有稳定性;根据统计可得,2013年9月~2018年12月温州职业技术学院学生总计晚归次数2 146次,平均日晚归次数λ≈1.5。对于在校生10 000人左右学校,平均每天有1.5个人晚归,晚归概率约为0.01%可以认为是一个小概率事件。因此,可以认为学生晚归行为是一个泊松过程,其概率分布应有泊松分布的趋势和特点。

由于周末不单独发布晚归数据,每周五、周六和周日的晚归数据会下一周周一起发布,即每周一的公告实际包含了周五、周六和周日3天的数据。所以,为了补全公告未体现的数据,该文对这部分未体现的天数做了如下处理:根据λ=1.5得到泊松分布的概率分布,可认定某天晚上不发生晚归的概率为P(0)=0.22,如果周末3天都未发生晚归(其概率为0.223),则认定为这3天为无晚归。根据上述处理,补全了确实的数据,得到温州职业技术学院2013年9月~2018年12月以来的晚归次数的概率分布。

如图1(a)所示,黑线为实际晚归概率分布Pr(X),红线为泊松分布Pr(X)| λ=1.5。两者有相似的趋势,吻合度较高,这说明学生的晚归次数的概率分布具有泊松分布的趋势。为了定量地描述实际概率分布的与泊松分布的关系,该文利用卡方检验[2](交叉分析)研究泊松分布(λ=1.5)与实际分布的差异关系,经计算可知x12=180、p1=0.048<0.05。这说明两者有显著性关系,学生每日晚归次数具有泊松分布的特点。因此,只要知道一段时间内的平均晚归次数,我们就能用对应的泊松分布来描述晚归次数分布,将一个未知概率分布转化成已知的概率分布。

2 以周为单位的泊松分布研究

根据上文讨论可知,由于晚归数据统计上的特点,每周一的数据实际包含了周五、周六和周日3天的晚归数据。该文的处理方式是将λ=1.5的泊松分布P(0)概率当作某天晚上不发生晚归的概率为,从而补全空余的数据。虽然,实际概率分布与泊松分布(λ=1.5)有着相同的趋势,且卡方检验显示两者有显著相关性。但是Pr(0)和P(0)|λ=1.5仍有一定的差别,这样的数据处理必将对结果产生一定的影响。因此,为了避免数据处理对研究结果产生影响,该文通过改进统计方式,以周为单位统计了每周发生的晚归次数,从而避开了数据补全的过程。

如图1(b)所示,黑线为的实际晚归概率分布Pr(X),

红线为泊松分布 P(X)| λ=10(根据计算可知,每周发生晚归数λ≈10)。通过比较可知,两条曲线有相似的趋势,吻合度较高。利用卡方检验(交叉分析)研究泊松分布(λ=10)与实际分布的差异关系,经计算可知x22=93.6、p2=0.045<0.05,这进一步说明两者之间存在显著性关系。此外,x22>x12 ,p1

通过进一步比较两者的分布图像,实际概率分布的波峰较宽,峰值相对较低。这主要是由于实际分布Pr(X>24)≠0,在X大于24后仍有一定的概率,而P(X>24)| λ=10=0,在X大于24概率为0造成。这种情况通常是因为在实际生活中一些特殊的节假日和活动造成的,如举办运动会、恶劣天气造成交通大面积延误等。因此,如图1(b)说明学生的晚归次数的概率分布确实具有泊松分布的趋势。同时也说明在在第二小节中的数据处理具有一定的可靠性。

3 结语

该文通过数理统计的方法研究发现,温州职业技术学院2013年9月至2018年12月共11个学期的学生公寓晚归现象具有泊松过程的特点,其发生次数的概率分布与泊松分布有显著性关系。其中,以日为单位统计的晚归分布卡方检验结果分别为x12=180、p1=0.048,

满足学生晚归分布和泊松分布具有显著性关系的判断标准。在研究过程中,为了减少数据处理对结果的影响,该文对统计分布做了一定的优化,不以日為统计单位,通过统计每周的晚归次数,避开了数据补全过程中对数据准确性造成的影响。其中,以周为单位统计的晚归分布卡方检验结果分别为x22=93.6、p2=0.045。计算结果表明以周为单位的统计分布,确实能更好地符合泊松分布的特点(x22>x12 ,p1

根据上述讨论,该文可将学生晚归行为这一未知的随机事件,转化为研究一个符合泊松分布的随机事件,从而将复杂的问题简单化、模型化。自1837年首次提出后,围绕泊松分布有大量的基础和应用研究,以及诸多被实践证实的性质。泊松分布的特点能为高校教师和管理者更好地组织学生提供科学依据和决策依据,并为学校在制定相关政策过程中提供帮助,如预测明年学校将发生的晚归次数、定义大规模晚归事件的阈值等。

参考文献

[1]夏元睿,吴俊,叶冬青.泊松分布与概率论的发展——西蒙·丹尼尔·泊松[J].中华疾病控制杂志,2019,23(7):881-884.

[2]林照授,李金钎,陈森森.基于Excel函数及图表工具的泊松分布卡方检验法应用[J].绿色科技,2019(21):171-173.

猜你喜欢

晚归概率分布
离散型随机变量的四种概率分布及其应用技巧
其实我也是一只鸟
清平乐·归老
离散型概率分布的ORB图像特征点误匹配剔除算法
论古人春游的装备——《春游晚归图》
基于概率分布的PPP项目风险承担支出测算
基于风潮联合概率分布的海堤设防标准分析
依赖于时滞概率分布的不确定细胞神经网络的鲁棒稳定性