APP下载

电子元器件可靠性技术发展综述

2023-11-17魏莎莎李真

电子产品可靠性与环境试验 2023年5期
关键词:失效率元器件可靠性

魏莎莎,李真

(1.中国电科芯片技术研究院,重庆 400060;2.中国电子科技集团公司第二十四研究所,重庆 400060)

0 引言

在全球一体化的大趋势下,庞大的市场和参差不齐的产品质量使得竞争越来越激烈,同时随着我国军工事业的快速发展,保证产品质量才是提高核心竞争力的关键。电子元器件作为现在该领域研究的重点,不仅决定了整个系统的质量,还是我国军工事业发展的基石,由此可见,提高电子元器件的质量和可靠性研究至关重要。

在工程中,可靠性是指一个系统或电子元器件在规定的条件和规定的时间内履行其所需功能的能力。因此,定量可靠性预测与评估的基本任务是考虑电子元器件设计和工作环境,确定系统的失效时间分布函数和相关的可靠性需求。一些输出度量如平均失效时间(MTTF:Mean Time to Failure),失效率都可以由失效时间分布函数导出。一种有效的系统可靠性预测与评估方法不仅可以识别失效,还可以进行灵敏度分析,定量确定不同部件对系统失效的影响。

鉴于目前及未来电子元器件的可靠性分析都是各个系统必不缺少的一步,而电子元器件的失效率给研究人员的可靠性分析带来巨大的挑战,本文面向电子元器件质量与可靠性发展进行了综述。

1 国内外电子元器件可靠性发展现状

以前人们对质量的认知仅仅停留在质量检验上,通过有效的检验方法能够针对出厂之后的各项工序进行质量管理,不过随着可靠性和产品质量的发展、社会经济的发展,以及企业生产规模的扩大,传统的检验技术已无法满足产品可靠性的要求[1]。20 世纪50 年代后,美国提出质量管理的理念和技术,在产品研发和制作的过程中有效提高了产品的整体质量,也保证了技术的可靠性。Choi 等[2]通过加速寿命试验(ALT:Accelerated Life Test)研究了瞬变电磁法的寿命分布和形状参数,并讨论了如何通过失效物理来提高瞬变电磁法的寿命;Squiller 等[3]提出了基于POF 的系统级可靠性评估程序,该程序确定了3 个主要子系统的主要故障机制,即:电源模块、直流链接电容器和控制电路等。

我国电子元器件可靠性技术的发展较晚,20世纪70 年代,才开始在电子工业和航空工业中初步形成体系,并应用于军工产品[4]。21 世纪前,我国在过程缺陷影响分析与控制的基础上,研究了电子元器件PCM、REM 和SPC 的质量控制与可靠性测试与评价技术,使可靠性工程从测试阶段上升到设计和生产阶段,实现了从单纯的测试与评价向为可靠性而设计和过程控制的发展。21 世纪以来,在HEMT 器件的退化机理及寿命评估、CMOS 电路ESD/EOS 加固设计和验证、标准VDSM 加工平台的工艺可靠性评价、多层布线VISI 的故障诊断与缺陷定位、微电路抗辐射特性的测试与评价、KGD的可靠性保证、其他基于POF 的可靠性技术失效机理模拟、可靠性设计验证、加速应力测试和故障定位,以及微缺陷分析等方面取得了重要进展[4]。不仅如此,电子元器件、新材料、新工艺和软件技术等各项新技术在装备上的应用越来越普及,装备的可靠性技术也经历了跨越式的发展,从单一可靠性扩展到 “六性” 的范畴,包括可靠性、维修性、保障性、安全性、测试性和环境适应性。我国建立了电子元器件可靠性物理及其应用技术重点实验室、可靠性与环境工程技术国防科技重点实验室等国家级实验室,简称具备大型综合环境试验能力的试验室,标志着我国可靠性科研与应用水平进入了世界先进行列[5]。

2 电子元器件可靠性技术分析

2.1 可靠性预测方法

可靠性预测通常在产品开发生命周期的早期阶段对采用特定的系统设计起着重要的作用。与竞争者相比,提供更高的可靠性是当今电子产品行业取得成就的重要组成部分。可靠性问题的概念必须从设计过程的最早起点开始实施,以实现高项目可靠性。电子可靠性预测方法通常分两个阶段进行[6]。

a)零件数量分析

需要系统的次要信息,通常在设计阶段的初始阶段使用,以获得初步的可靠性估计。

b)零件应力分析

需要对系统有充分的了解,从而提高可靠性预测的准确性。选择正确的可靠性预测方法是可靠性工程中的难题之一。

严格的分析是必须的,以确保系统的可靠性。在设计阶段,系统设计者需要利用可靠性相关信息提前预测系统可靠性,以便在系统可靠性达不到目标可靠性时采取纠正措施。可靠性预测方法的需求性质根据系统开发生命周期的不同阶段而不同,因此每个阶段的预测方法也不同。可靠性预测的主要目的是:

a)检验可靠性要求是否可行;

b)找出一个特定的设计是否符合其规格;

c)对系统的不同设计和相应的可靠性评估进行比较;

d)评估保修费用和维修支持需求;

e)潜在危害评价;

f)为安全分析提供支持;

g)用于评估关键部件的保修期[7-8]。

2.1.1 自下而上的统计方法

自下而上的统计方法(BS:Bottom -up Statistical Methods)使用的预测模型来自于部件失效数据的统计曲线拟合,这些数据可能是在现场、实验室或制造商那里收集的。假设系统或设备的故障原因与故障相互独立的部件有内在联系。BS 方法所采用的模型主要有零件计数分析模型和零件应力分析模型两类。零件数量分析模型假设零件在典型的工作条件下工作,而零件应力分析模型需要输入零件失效率模型λ 中包含的参数[9]微电路。BS方法使用的模型实例如式(1)~(4)所示。

a)零件计数分析模型

b)零件数量分析模型

式(1)~(4)中:

λG,λa——一般失效率或平均失效率,根据设备的复杂性和技术而定;

ΠO——质量因素,取决于器件的质量;

ΠL——器件因素,取决于器件的制造时间;

C1,C2——故障率常数,取决于设备的复杂性(电路、技术、封装和引脚数);

ΠB——封装工艺因素;

ΠT——工艺与功能因素;

ΠS——封装引脚因素;

Πt——温度加速因子(稳态工作温度);

ΠV——电压应力因子,取决于施加电压与组件额定电压的比值;

ΠE——环境因子,取决于对环境的表格描述。

BS 方法的另一个发展是使用PRISM 软件[10],PRISM 包括了温度循环和焊点的失效率。该方法还可以进行简单的相似度分析,利用现场经验数据库,用工艺分级因子对整体质量因子进行加权。这些因素取决于零部件、设计、制造、供应链、机械疲劳、管理和分析工具。这是一种与自顶向下相似性分析方法(TD:Top-down Similarity Analysis Methods)相结合的方法。一旦计算出每个部件的失效率,就可以通过将所有λ 加起来计算出电路板的可靠性。

2.1.2 自顶向下的相似性分析方法

基于专有数据库的TD,使用已知可靠性水平的以前的系统或子系统与新设计的系统之间进行相似性分析。所有失效原因都要考虑,而不仅仅是部件的故障率,因此,失效原因分析是至关重要的。典型的TD 方法可概括为以下步骤[11-12]。

a)从字段中收集失效数据。

b)现场数据的评估(特别是设备/板失效原因,相关可靠性的计算)。

c)在电路卡组装(CCA:Circuit Card Assembly)级别上,根据每个设备唯一CCA 的数量来确定失效率。

d)根据每个CCA 的零件和互连数,确定零件和互连级别的失效率。

e)根据物理模型类别,使用所有之前的信息创建失效率数据库。

f)将现有的设计与拟议的设计或相似过程进行比较,步骤如下:

1)检查可获得现场数据的产品;

2)识别特征差异(例如设计、制造等);

3)量化特征差异对每个物理模型类别的影响;

4)合并现场数据(每个物理模型类别的百分比、整体终端项目或装配失败率);

5)计算新项目(单板、CCA 或设备)失效率:

式(5)中:λp——前一个项的字段失败率;

Da——物理模型的分布百分比;

Fa——新项目和以前项目之间的差异因子;

n——物理模型类别的总数量。

2.1.3 自底向上物理失效分析方法

自底向上物理失效分析方法(BP:Bottom-up Physics-of-Failure Methods)需要对热、机械、电气和化学生命周期环境,以及导致现场失效的过程有全面的了解,以便应用适当的失效模型。

一种方法是在部件级别使用制造商的可靠性数据测试结果(高度加速应力测试、温度湿度偏差和温度循环等)。部件失效率是所有失效率(热、湿度、电压和热循环)的总和,单板失效率是所有部件失效率的总和[13]。最高级别的BP 方法(CALCE软件)通过针对组件或装配的各个位置最常见的失效机制来预测板或组件的失效时间,所需信息包括材料特性、几何形状、环境和操作负载。同样,在组件级别也可以使用相同的方法。

2.1.4 预测方法总结

一般来说,数据来源和环境越一般越好。然而,每种方法考虑的环境不同。BS 方法根据失效模式使用环境和负载拟合因子(对于有存储或没有存储的操作模式),而BP 方法使用负载剖面。这是因为BS 方法的环境来自于失败数据库,可能会受到以下问题的阻碍:建立具有代表性的装置需要大量的实验数据;外在失效(如电气过应力(EOS:Electrical Over Stress))和内在失效(如氧化弱)混合在一起,在没有数学或物理论证的情况下被用来得到一个总体数据。

类似地,TD 方法需要定期更新他们的失效在役数据库,这取决于公司的政策和投资。最终,需要分析所有的排除,跟踪失效,并存储每个级别(项目、设备、电路板和组件)的每个失效原因的失效率。

就BS 方法而言,PRISM 略有不同,允许进行不同类型的进一步输入:可以在系统或子系统级别对设计、制造、供应和测试过程进行评估,以减轻总体结果(过程分级)。同样,PRISM 也允许直接输入环境和操作参数(温度循环、冲击、相对湿度和振动频率)。然而,在大多数情况下,BS 方法的结果反映的是组件的可靠性,由于质量的提高和系统复杂性的增加,组件不再是系统可靠性的主要贡献者(系统级失效被忽略)。

TD 方法的结果可以通过大量的测试和现场数据来完善。像CALCE 软件这样的BP 方法需要详细的信息知识,这些信息可能被制造商认为是专有的。这些方法也需要大量的时间资源。为了选择适合实际失效机制的模型,还需要预先了解失效产品的失效机制。同样,也有大量的操作参数和环境参数的选择,这也证明了定制方法的优势。

2.2 可靠性分析

元器件可靠性分析是指用物理或化学手段,从结构设计、原材料选用和制造工艺等方面对元器件进行深层次的技术分析,从而为评价元器件可靠性提供客观的证据。以下简单列举了几种元器件可靠性分析方法[14]。

2.2.1 破坏物理分析

破坏物理分析(DPA:Destruction Physics Analysis)是对电子部件进行拆卸、测试和检查,以验证内部设计、材料、结构和工艺的过程。这一样品检验过程用于帮助确保电子元件的制造符合要求的标准。DPA 也被有效地用于发现生产批量问题的过程缺陷。在DPA 中,零件要检查各种各样的设计、工艺和加工问题,这些问题可能不会在部件制造商之前进行的检查、测试和筛选活动中显示出来[15]。通过DPA 检测到的异常和缺陷可能会在以后的某一天导致设备所使用的系统的退化或故障。DPA 是在从批次中随机抽取的样品上进行的,根据组件和包装的类型,包括一系列不同的测试和检查。其中包括:外部目检、X 射线检查、检漏、粒子冲击噪声检测(PIND:Particle Impact Noise Detection)、内部气体成分分析、内部目检、扫描电子显微镜(SEM:Scanning Electron Microscope)、键合强度和芯片剪切强度等检查项目。

从已做DPA 试验不合格项目统计中表明:可通过筛选淘汰的不合格品项目如外部目检、PIND和检漏所占比例为36.9%,而通过筛选不能剔除的缺陷,如内部目检、剪切强度和键合强度等比例达到63.1%,由此可见无法通过筛选剔除的数量更多,这也进一步说明了开展DPA 的重要性[16]。

2.2.2 失效分析

失效分析是指进行调查以确定失效的原因,其目的通常是采取纠正措施来解决问题和减少进一步的失效。失效分析是在制造业的所有分支机构进行的,以防止未来的资产和产品失效,并保护人们和环境免受潜在的危险风险。

失效分析是收集和分析数据以确定失效原因的过程,通常以确定纠正措施或责任为目标。它在制造业的许多分支中都是一门重要的学科,例如:在电子工业领域,其是开发新产品和改进现有产品的重要工具。失效分析过程依赖于收集失效成分,使用各种各样的方法(特别是显微镜和光谱学)以进行后续的失效原因检查。

失效率(FR:Failure Rate),也称故障率,是一个工程系统或零件失效的频率,它以每单位时间内的失败次数来表示,是可靠度工程中的重要参数。图1 中展示了失效率曲线作为时间的函数,也称为浴缸曲线[17]。浴缸曲线在时间上分为3 个不同的区域,分别是:

图1 浴缸曲线

a)失败率下降的第一个区域称为婴儿死亡率或初期失败;

b)第二个区域,失效率相对不变,称为有效寿命;

c)第三个也是最后一个区域,失效率增加,称为磨损故障期。

然而实际上,报告中一般会使用平均失效间隔(MTBF:Mean Time between Failures)而不使用失效率来进行元器件的失效分析。若是失效率假设是定值的话,此做法是有效的(定值失效率的假设一般常用在复杂元件/系统,军事或航天的一些可靠度标准中的也接受此假设),但是只有在浴缸曲线中平坦的部分(这也称为可用生命期)才符合失效率是定值的情形,因此不适合将平均失效间隔去预估元件的生命期,因为会碰到浴缸曲线的损耗阶段,失效率会大幅提高,生命期会比失效率推算的时间要短。

首选使用MTBF 数字的原因是,使用较大的正数(如2 000 h)比非常小的数字(如0.000 5/h)更直观、更容易记忆。在需要管理失效率的系统中,特别是在安全系统中,MTBF 是一个重要的系统参数。MTBF 经常出现在工程设计要求中,并控制所需系统维护和检查的频率。在更新过程中,从失效中恢复的时间可以忽略,失效的可能性与时间保持恒定,失效率简单地是MTBF 的乘逆。

3 电子元器件可靠性发展趋势

3.1 高水平的失效分析

5G、车载电子和消费电子等模块的快速兴起,半导体和高可靠元器件市场需求迎来爆发式增长,不断进步的制程、材料和封装导致元器件失效分析的难度大大增加,技术更加复杂多样化。近几年,国内先进制程晶圆代工厂的业务蓬勃发展,带来了大量的失效分析需求。但由于目前国内相关能力严重不足,晶圆级芯片失效分析业务需求大量外溢。再者,随着电子元器件国产化的进程的展开,其整体水平上落后于国外的产品,因此提高失效分析水平也是可靠性分析的重中之重。因此,在未来对电子元器件的可靠性分析除了需要对晶圆级芯片的失效定位和故障排查技术,还包括帮助晶圆厂或设计公司确认芯片设计、工艺和制造设备参数设置问题,以及IC 芯片实际使用过程中功能性缺陷(如ESD 能力、抗闩锁能力等)[18]。

3.2 可靠性预测方法的验证

在研究可靠性设计与预测方法的同时,提高可靠性试验的能力也是我们当下关注的重点。可靠性预测只能通过结合使用不同的方法来实现,这取决于设计、开发或制造阶段。对在给定的产品开发阶段使用哪种方法的描述,使用这种方法的原因,以及在整个过程中与各种应用方法相关联的结果的交付,将确保满足可靠性要求。进一步地,我们需要开展可靠性试验[19],验证可靠性设计方案及可靠性预测,为不同的电子元器件的质量与可靠性提供试验数据。当下要全面推广目前已经成熟的仿真试验、强化试验、加速试验、安全性分析和工艺可靠性鉴定等相关工作;在未来,针对无人化和智能化等新型装备,开展新技术在可靠性工作中的研究与应用,如复杂环境适应性验证技术、高可靠性指标验证和临近空间环境模拟与试验等[20]。

4 结束语

科技不断发展,在智能集成化越来越普遍的趋势下,电子元器件的使用场景是无处不在的,提高电子元器件的可靠性必是大势所趋。近年我国建立的一系列的国家重点实验室使我国的科研和应用水平处在世界前列,因此,我们要不断增强电子元器件的质量与可靠性技术,在未来不断提高试验水平、攻克技术难关。

猜你喜欢

失效率元器件可靠性
PHMSA和EGIG的天然气管道失效率对比研究
元器件国产化推进工作实践探索
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
可靠性管理体系创建与实践
深入理解失效率和返修率∗
装备元器件采购质量管理与控制探讨
基于DSP+FPGA的元器件焊接垂直度识别方法
5G通信中数据传输的可靠性分析
炭黑气力输送装置主要元器件的选择
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究