APP下载

基于云架构的服务器资源池可靠性指标的估算方法

2020-02-04林雪峰曹子勇曹家玉

电子技术与软件工程 2020年12期
关键词:失效率串联并联

林雪峰 曹子勇 曹家玉

(上海仪电物联技术股份有限公司 上海市 200233)

轨道交通自动售检票系统承担着乘客售票、检票,及系统的数据统计功能,自动售检票系统的失效会直接影响乘客的进出站。为了保证地铁运营,自动售检票系统需具备很高的可靠性。因此,在进行系统设计时,需对整个系统的可靠性进行估算,以确认系统设计方案的可靠性指标是否满足可靠性要求。

传统的可靠性设计模型为串联模型、并联模型和混合结构模型。对于非云架构的传统自动售检票系统而言,终端设备和车站计算机系统这些无冗余设计的系统,用串联模型来进行建模,而线路中心和清分中心系统由于部分模块存在冗余设计,因此在进行可靠性设计和估算时,常使用混合模型。

随着云架构技术在轨道交通领域的广泛应用,自动售检票系统从传统的五层架构向三层或者四层架构发展。在三/四层架构下,原有的车站计算机系统、线路中心系统和清分系统合并为一个数据管理中心系统。数据管理中心系统采用服务器集群组成资源池,使用虚拟机/容器等技术提高服务器机计算资源的利用率。

服务器资源池有别于传统的冗余设计的服务器架构,传统的可靠性设计模型无法应用于新的系统架构,本文将提供一种针对服务器资源池的可靠性设计模型和可靠性指标的估算方法。

1 可靠性设计模型

1.1 串联模型

在组成系统的所有单元中,只要有一个单元发生故障(失效)都会导致整个系统故障(失效)的系统为串联系统。如图1。

假设串联系统中的n 个单元是相互独立的,每个单元的可靠度为Ri(t),根据乘法规则,其数学模型为:

式中,Rs(t)——系统可靠度

Ri(t)——第i 个单元的可靠度;

整个系统的故障率:

由此可见:

(1)整个串联系统的可靠度与n 的数量及Ri(t)有关。

(2)串联系统中各单元寿命和系统的寿命都服从指数分布。

(3)由于0<Ri(t)<1,所以由公式(1)知,串联单元越多系统可靠度越低,有公式(3)知,串联单元越多系统的MTBF 值越小。

1.2 并联模型

在组成系统的所有单元中,当所有的单元发生故障(失效)时,才会导致整个系统故障(失效)或者只要有一个单元不失效,整个系统就能正常工作的系统为并联系统。其结构如图2。

假设串联系统中的n 个单元是相互独立的,每个单元的可靠度为Ri(t),其失效概率为Fi(t),根据并联结构定义,根据乘法规则,其数学模型为:

图1

图2

图3

图4

图5

式中,Fs(t)——系统累积失效率(系统不可靠度)

系统的可靠度为:

式中,Rs(t)——系统可靠度

Ri(t)——第i 个单元的可靠度

当系统中各个单元的可靠度相同时,系统的可靠度服从二项分布,即:

若n 个并联的系统不仅可靠度相同,而且寿命都服从指数分布,则数学模型为:

由此可见:

(1)并联系统中Fs(t)小于任一单元的Fn(t)。

(2)随着系统单元的增加,系统地可靠度与系统平均时间间隔MTBF 都增大,Rs 比MTBF 增长都快。

(3)并联系统中,若单元的寿命分布服从指数分布,则系统的寿命分布并不服从指数分布。

1.3 混合模型

把若干个串联结构和并联结构组合在一起的结构为混合结构,最简单的混合结构模型如图3。

为得到混合结构模型的数学表达式,先将混合结构化简为串联结构,在按串联结构分析。如图4。

2 云架构系统架构分析

在新的云平台架构下,原有的自动售检票系统的通信服务器、数据库服务器和应用服务器的架构被打破,代之以由一组服务器组成的计算资源池。服务器资源池需要两台固定的服务器作为资源池管理服务器,这两台服务器做冗余配置,为并联模型。

剩余的服务器做集群,在服务器上开启虚拟机或者容器来运行各个程序。由于单台服务器的存储资源和计算资源具有有限性,为了支撑整个系统的后台业务,往往至少需要不止一台服务器才能覆盖系统的业务。而且,因为资源池的特性,一台物理机在失效后可以在剩余服务器的虚拟机或者容器中重新建立失效物理机中的虚拟机或者容器。系统业务最少需要的物理机可以是资源池剩余服务器中的任意的指定台数。因此,服务器资源池中除了两台冗余的资源池管理服务器外的服务器并不是并联模型,无法用并联模型的计算方法来估算整个服务器资源池的可靠性指标。

服务器资源池的架构示意图如图5。

3 估算方法详解

假设某个服务器资源池,共有服务器m 台,其中,资源池管理服务器为2 台,做冗余配置。支撑整个业务最少需要的服务器数量为n 台,其中n ≤m。

单台服务器的失效率=λ服务器

则两台资源池管理服务器的失效率

当资源池中失效的服务器数量超过支撑业务最少需要的服务器数量(n)时,整个服务器资源池将失效。即这n台服务器为串联模型。

但是这n 台服务器不是固定的,有可能是剩余的m-2 台服务器中的任意n 台,在这m-2 台服务器中选择任意n 台服务器的组合数量p 为:

n 台固定服务器的失效率:

则这n 台不固定服务器的失效率:

剩余的m-n-2 台服务器如果是固定的,可以认为是并联模型,其失效率:

在m 台服务器中选择m-n 台服务器的组合数量:

则,剩余的不固定的m-n-2 台服务器的失效率:

故,整个资源池服务器的失效率:

服务器资源池的MTBF:

对于MTBSF 而言,服务器资源池的核心设备为两台资源池管理服务器和支撑业务的最少数量的n 台服务器。

故,服务器资源池的MTBSF:

服务器资源池的MTTR:

式中,λi为系统各个模块的失效率

Ri为系统各个模块的MTTR

由于服务器资源池的组成部分都是同型号的服务器,MTTR 为定值,故,服务器资源池的MTTR=MTTR服务器

服务器资源池的可用性:

4 结论

本文通过组合学的方法对服务器资源池硬件的可靠性指标估算提出了一种估算的方法。该方法结合了传统的可靠性计算模型,未来需要结合云平台技术的发展对该算法进行进一步的优化和验证。

本文提出的服务器资源池可靠性指标的估算方法,地铁自动售检票系统的可靠性设计、验证和估算提供了一个参考方法。

猜你喜欢

失效率串联并联
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
深入理解失效率和返修率∗
基于改进龙格-库塔法反舰导弹贮存寿命研究
串联法写记叙文的概括
审批由“串联”改“并联”好在哪里?
我曾经去北京串联
并联型APF中SVPWM的零矢量分配
一种软开关的交错并联Buck/Boost双向DC/DC变换器
固体电解质钽电容器失效率鉴定