APP下载

航天器系统设计的可靠性准则

2012-01-08谭维炽张伍

航天器工程 2012年2期
关键词:遥控航天器准则

谭维炽张伍

(1 中国空间技术研究院,北京 100094)(2 北京空间飞行器总体设计部,北京 100094)

1 引言

可靠性是航天器的生命线,提高可靠性要依靠设计、制造和管理,源头是设计。关于机械、电子等设备级的可靠性设计知识和方法,已经为广大航天工程师所熟悉,并且形成了许多相关的标准规范。但在航天器系统级(总体)设计中有哪些可靠性准则是必须遵循的?对此,无论在教科书或文献中系统的阐述都不多,使系统设计师们不能系统地去思考和核查,容易漏下设计隐患,这对于提高航天器总体设计水平无疑是不利的。

本文根据作者亲历的和搜集到的国内外航天器故障案例[1-3],在分析案例的基础上提炼出若干航天器系统设计的可靠性准则,其内容主要针对系统级,而不是设备级(虽然有的准则也可应用于设备级);主要讲的是设计,而不是管理(虽然不少故障既有设计原因,也有管理原因);不奢求全面,只希望能够实用。为了说明这些准则,各列举一个或几个典型案例,有故障案例,也有成功案例。对案例所涉及的机理仅是点到为止,未做详细论证,希望读者不要拘于案例本身,重在理解准则的含意。

2 设计准则

本文所述航天器系统级是指整星级(器/船级),它由分系统和单机组成,但立足系统工程全局,自身又是工程大系统的一个组成部分。在航天器系统内存在分系统接口、分舱接口等,在航天器系统外存在与工程大系统各组成(如运载、地面测控、空间中继、应用系统等)之间的接口,并且在工作寿命期内各任务剖面中,航天器系统与外界环境相互作用。

以下准则是我们认为在航天器总体设计中为了确保系统可靠性应当遵循的规则,也是衡量航天器总体设计可靠性水平的尺度之一。

2.1 系统整体可靠性准则[4]

做系统整体可靠性优化,不片面追求个别环节的高可靠。在满足任务需求的前提下,力求系统简单可靠,不片面追求先进性。除了合理分配各分系统可靠性指标,以满足全系统可靠性指标外,系统设计师要不断地在全系统范围内对可靠性问题权衡排序,重点关注系统的可靠性薄弱环节、系统级存在的“几不管”环节,以及没有规定可靠性设计指标的环节。

例如,国内外多次发生由于一次电源母线被短路而导致整星失败的案例,引发短路的原因既不是电源分系统故障,也不是用电设备故障,而是很难提出可靠性指标要求的输配电环节。

例如,光学遥感卫星的光学镜头被运载火箭末级排放剩余燃料所污染,从而使飞行任务完全失败。

以上故障及影响都需要系统设计师去设想、分析和采取规避措施。

系统设计师在决策系统配置时,并不一定让每个环节都采用多冗余或交叉冗余方案。要根据可靠性预计,有意识地加强可靠性较薄弱的复杂环节冗余设计,而对一些简单环节有时通过选用高可靠元件来保证可靠性,不采用冗余方案反而是优化的。

2.2 成熟技术与产品的采用和再分析准则[4]

在航天器上应当尽量采用成熟技术与可预测高可靠的产品,同时在继承他人经验时要关注其在本任务应用的特殊性;在选用新技术、新产品时要同时考虑有利于提高系统可靠性。

例如,欧洲航天局在设计第一个金星探测器——“金星快车”(Venus Express)时,直接继承了“火星快车”(Mars Express)和“罗塞塔”(Rosetta)探测器的结构和相当多的仪器。继承成熟技术和产品的研制思路,大大加快了项目的研制进程,该项目从提出最初构想到探测器准备发射仅用了4年,“金星快车”于2005年成功发射,其探测成果增补了人类对金星认识的空白。

例如,某细长体的卫星设计,未认真分析其在自身任务上的特殊性,照搬了另一卫星的设计,在安全模式中让不稳定轴指向太阳,但是却没有配置三轴陀螺和喷气控制,当受扰动后无法阻止平旋,结果不能定向太阳,星上电源很快耗完,导致任务失败。

例如,欧洲阿里安-5 运载火箭首发失败的原因,就是由于照搬了阿里安-4 的软件,而其中一个多余的校正飞行速度模块未被清除,该模块设计恰好不能适应阿里安-5的速度情况,在实际飞行中错误的计算破坏了正常控制。这是一个很典型的案例。

例如,某遥感卫星引进了国外先进和成熟的遥感相机,但装星后发现其成像精度远不能达到原设计指标,追究原因是由于本次任务星上实际的热环境与产品可适应的热环境差异较大,在引进过程中对此认识不充分,后来,只有大幅修改有关的热设计才可满足指标要求,为此推迟研制进度1年。

2.3 逆向设计准则

在航天工程中,相对于航天器功能、性能的正向设计而言,逆向设计是航天器可靠性设计最核心的理念。针对可能出现的各种故障、错误或误差,重要的硬软件、控制指令与数据均要容错容差。对每一项新的改进设计,一定要从正面效果与负面影响两方面仔细论证,防止潜藏设计缺陷。故障模式与影响分析(FMEA)是做好逆向设计的一种有效科学方法。

例如,虽然卫星遥控接收设备一般都是双热冗余的,常被视作高可靠分系统或设备,但其众多的指令输出电路,长期以来一直是采用单管集电极开路(OC)形式,这是一个系统的单点故障部位,对系统安全威胁极大。后来总体经FMEA,抓住遥控分系统的这个老大难问题不放,最终把双机输出合成电路更改为串并联冗余形式,彻底消除了发生单点失效的潜在缺陷。

例如,某卫星因为接收了一个由地面站注入的错误轨道数据,卫星姿态进入翻滚状态,险遭整星失败。如果星上在使用此数据前,能做一次物理合理性判断,这种危险就会被拒之门外。在天-地系统中,星地操作接口可视为人机界面,包括了人参与操作的众多环节,国内外多次发生地面注入数据错误,导致航天器进入异常状态的事件。以往在卫星系统与地面测控系统接口设计方面,存在忽视或缺少可靠性设计的情况,系统设计师应重视此部分的容错设计,天地双方设计上均应适当采取注入数据纠检错、阈值合理性、物理合理性、组合逻辑合理性等判断手段。

例如,早期的光学摄影遥感卫星,为了保证回收舱与留轨舱安全分离,设计了应急把胶片卷入回收舱的控制模式和把胶片切断的方案,这是十分必要的。但是,有一次发生了误动作,在不该回收时就使摄影提前中断。必须通过逆向论证认识到这种危险,切实加强应急卷片、切片动作的可靠性。

例如,某颗自旋稳定卫星为了入轨后达到和保持一定的自旋速率,设计了加旋喷气指令控制,但没有考虑到减旋控制和限制最大转速的可能,结果恰恰在轨发生了加旋多次误动作的事件而束手无策,最终由于转速太高导致卫星解体。

作为系统设计师,要通过系统级FMEA 去关注影响系统任务的分系统和设备的FMEA。航天器系统的故障模式有成千上万种,必须按照它们对系统危害度以及发生概率的大小排序,抓住主要矛盾。作者推荐先做故障树分析(FTA),从系统任务成败的顶事件出发,找到关键原因的模块底事件,然后重点再做这些底事件的FMEA。

例如,从系统有效载荷产生非正常动作的故障事件,分解原因之一是遥控系统产生误/虚指令,再查遥控系统的FTA-FMEA,误/虚指令原因之一是现场可编程门阵列(FPGA)上单元故障导致指令误译码,这是靠双机冗余不能抑制的单点故障,所以是遥控系统FMEA 的重点事件,也是航天器系统级的重点事件,最终落实在必须改进设计译码逻辑为容错译码。

2.4 余量和裕度准则

系统级设计应考虑必要的余量或裕度,保证系统对环境变化、制造工艺不稳定、寿命末期材料或部件性能变化等情况具有一定的适应性。在推进剂、供电能力、热控能力、测控能力、信息传输与处理能力等方面留有设计余量,可有效提高系统在故障情况下的生存能力和按要求完成使命的能力。

例如,某平台系列卫星应答机在轨工作寿命末期,当工作温度在正常范围偏低端时,出现下行信号微弱,地面无法跟踪的现象。在轨采取措施让附近设备持续工作,以辐射方式对该应答机进行加热升温,保持了该应答机工作的正常。

例如,我国在首次月球环绕探测器嫦娥一号卫星设计过程中,考虑了发射窗口可能延迟、设计模型描述与实际引力场存在差异等因素,卫星携带了具有一定余量的推进剂。在完成全部设计使命后,利用剩余燃料开展了大量在轨试验,为后续嫦娥二号任务预先进行了轨道、测控和热控等技术摸底试验,并最终实现受控落月。

2.5 安全导向准则[5]

对系统可能发生的各种危及整体安全的突发故障模式,应当设计安全导向措施,尤其要保证电源和推进剂的安全。安全模式应从系统角度综合设计,既要在短时间内实现安全导向,又要保证一定时间内系统运行稳定可靠,这可由与正常模式相对独立的、尽可能少的硬件与软件来实现。星上自主故障诊断机制应主要符合安全导向原则,包括及时谨慎地中断服务进入安全模式,暂时关闭或从系统中切除故障可疑设备,转入系统最小能耗状态、全向可测控状态等。

例如,某卫星在发生故障后,以姿态翻滚的状态飞出地面测控站可视范围,幸亏星上设计有对姿控发动机喷气限制的措施,在短时间内连续喷气超限后即把燃料上游阀门关闭,从而防止了推进剂的耗尽,同时关闭了大功耗的有效载荷设备,利用电池中储存的电能,将卫星维持到重返测控站的可控范围,致使挽救卫星成为可能。

2.6 空间环境影响因素逐个排查的准则[5-6]

系统必须能承受全部环境因素的合理变化,要对系统的各环节逐一进行环境因素影响分析。就严酷环境的适应问题应采取系统综合设计;除了重视在发射前必须普遍经过的试验验证(如真空热试验、力学环境试验等),系统设计师还要关注那些个性特异的、一般地面试验难以检验的环境影响,并预测其超常变化的可能影响。

例如,某航天器的可展开收拢太阳翼兼作防尘和热门使用,在尘埃较多的任务阶段,太阳翼收拢形成封闭空间,为其内部的光学设备防尘;在光照期间太阳翼展开为航天器供电,夜晚来临时太阳翼收拢减少航天器的热量散失,通过综合设计,以较少的资源解决了严酷环境的适应问题,降低了分系统的研制难度。

例如,某卫星在轨运行期间,由于空间带电粒子辐射使星体带电,导致电源分系统的充电控制器散热片连接螺钉顶端与太阳翼热辐射板之间的微小缝隙间形成放电,等效于充电控制器对地短路,太阳电池阵不能为蓄电池充电和给卫星供电,最后蓄电池耗尽而整星失败。

例如,在同一时段多个卫星因为遭遇超强空间高能粒子辐射流,频繁发生单粒子翻转效应,甚至导致姿态失控,这种效应影响是在地面测试中难以暴露的。而另一个卫星虽然使用了抗单粒子翻转阈值较低的存储器芯片,却因为在设计上考虑了空间环境影响可能造成单粒子翻转效应,采取了并列存储、错误监测与纠正(EDAC)和软件容错等多种抗错措施,虽然每天飞经南大西洋异常区域都要平均处理350次错误,但是没有出现过一次系统错误。

例如,某卫星姿控系统的重力梯度杆被运载火箭末级爆炸的碎片击断,幸亏系统设计了其它姿控方式,及时切换后仅损失了精度性能,但保证了整星的基本安全。这是难以模拟的小概率故障模式,只有在充分的FMEA 基础上才有可能主动采取预防措施。

2.7 全部任务剖面及其转换均可靠的准则[5-6]

系统设计师不仅要重视主任务剖面的可靠性,还必须全面考察不同任务剖面的可靠性,同时重点关注系统状态变换过程的可靠性。

例如,轨道器与着陆器在分离之后,有一段过程由于相对速度较大,多普勒频移超出了接收机同步频带而使两器不能正常通信。这是系统设计师制定任务书时,只顾及了两稳态阶段下的通信任务,而忽视了过渡段状态下通信任务要求所造成的。

例如,某月球卫星正常工作10年后,由于一次进入月球阴影时间不在预定的日落程序中,软件把黑暗误判为故障事件,启动了错误的控制对策,关闭了卫星的姿态控制系统,造成卫星非正常翻滚,加之卫星未处于地球测控站可控范围内,使得卫星没有得到及时抢救,提前失效了。

例如,某航天器首次使用氢镍蓄电池组,设计上采用了不可调整的涓流充电方式,目标是寿命末期涓流可补充自放电,但由于寿命初期太阳电池阵输出效率高,涓流充电电流过大,造成了电池组过充电,温度升高了近10 ℃,后经地面操作对充电采取有效控制才得以避免危险。后续任务采用了以电池组工作压力为参考的地面人工或星上自动控制手段的改进设计,有效地避免了该问题的发生。

例如,某返回式卫星仪器舱和返回舱分离后,返回舱通过制动发动机点火,离开原运行轨道返回地面,而仪器舱分离后仍留在原轨道运行,可用于开展其他留轨试验。但由于返回时制动发动机点火损坏了仪器舱的设备和电缆,导致后续留轨试验无法进行。

2.8 自主管理与测控操作的互补准则[5]

在航天器系统设计中应对天地任务做优化分工,优先考虑简化对星上硬软件的要求;星上自主管理应与基于测控的星地操作优化互补,星上自主管理应有安全导向设计,并具备地面人工(通过测控)干预途径。

例如,某两航天器做空间对接试验,对接过程需要从远距基于GPS的定位测距模式转换到近距基于激光测距模式,系统设计仅有自主转换一种手段,没有设计人工遥控干预途径。结果,恰遇自主转换失败,地面人员眼看着两航天器相撞却不能制止或规避。

例如,航天器返回着陆时需要做调姿和两舱分离的两个动作,为确保可靠性,这两动作都是用遥控与自主程控结合完成的。但在具体安排上,两者又是不同的。为了保证着陆的精度,两舱分离以精确时刻的自主程控为主,遥控为辅(它的执行时刻有一定随机误差);而调姿动作是着陆程序的启动和准备,需要有一定的机动性,则以遥控为主、自主程控为辅。这种结合设计是充分体现了自主管理与遥控不同长处的范例。

星上自主管理与基于测控的星地操作结合在不同场合的应用设计,一般准则如见表1所示。

表1 自主管理与测控操作的一般分工准则Table 1 General rules of job division between selfmanagement and telemetry-command

2.9 消除“灰色”问题的处理准则

系统设计中必须正视所有的“灰色”问题,即包括不可测试项、自身的或其它系统的未归零问题等,都要视为“黑色”问题予以严查和消除隐患,提出谨慎全面治理的可靠性对策。

例如,某卫星的姿态敏感器在装星时发生安装位置对称性错误,从而使卫星入轨后指向出现系统大偏差。因为在测试中光源往往与敏感器固定在同一支架上,所以这类错误很难暴露,在轨故障发生后亦难确定为唯一原因。但是,既然怀疑是故障原因之一,举一反三,在后来的卫星测试项目中,增加卫星射前最终状态的确认,就可以完全预防同类错误的发生。

例如,某卫星在轨由于频频发生遥控虚指令,破坏了正常的姿态控制而使整星任务失败。什么是发生虚指令的原因?据分析,可能是因为星体带电后放电脉冲干扰,也可能是因为其它设备的电磁干扰等等,难以完全归零。但是,无论干扰源是什么,遥控设备存在设计缺陷是内因,于是系统设计师下决心彻底改造遥控设计,从此再没有出现同类故障。

2.10 故障隔离准则[6]

系统中各分系统、独立模块间接口必须实现故障隔离;冗余单元相互保持完备的独立,包括供电、信号接口和软件模块的独立,以及有条件时采用异构硬件和不同版本的软件互为冗余备份,最大限度地防止共因失效与故障扩散。须特别注意,冗余切换是有可靠性代价的,必须设计有人工干预能力,最好能在轨把故障环节从系统中切除。

例如,某卫星上有相同的两台计算机,采用自主检错、自主切换的方案。入轨后,两台计算机的存储器芯片发生共因误码,这本不影响主任务。但自检策略不当,因为有错,不断切换值班机,而且其中没有设置地面人工干预机制,最终造成两台计算机均不能工作,酿成系统大错。

例如,星上有双热冗余的遥控设备,可是某卫星系统设计中,将两个遥控单元使用同一电源母线供电,而且该母线还向其它设备供电。当该母线电源被其它设备短路时,造成无法通过遥控挽救卫星的故障。

例如,某卫星有南北两电源母线,不仅功率相加,而且有一定的可靠性冗余备份作用。但在配电时把两母线电缆紧紧捆绑在一起,结果当一条母线被短路时,大电流过热把另一母线也毁损了,这是一个冗余而不独立的典型案例。

3 结束语

国内外航天器每一次的成功或发生故障、失败,只要认真分析原因,科学总结经验教训,都是人类从事航天活动共同的宝贵财富。积累和学习案例,形成并丰富设计准则,是航天工程师一生的必修课。

航天器系统设计师的一个重要责任,就是要站在系统高度与故障对抗,以优化的系统设计去最大限度地预防故障的发生以及消除故障的影响。人们常说,能提出问题就能接近预防和解决问题。所以,系统设计师要具有逆向思维的职业习惯,不断发掘自己设计中的弱点和潜藏的隐患,精益求精地做好可靠性设计,把措施做到故障的前面。

(References)

[1]D M 哈兰.R D 罗伦茨.航天系统故障与对策[M].阎列,邓宁丰,舒承东,译.北京:中国宇航出版社,2007 Harland D M,Lorenz R D.Space systems failures[M].Yan Lie,Deng Ningfeng,Shu Chengdong,translated.Beijing:China Astronautics Press,2007(in Chinese)

[2]戴维J谢勒.载人航天飞行中的事故与灾难[M].袁家军,郑敏,译.北京:中国宇航出版社,2005 Shayler D J.Disasters and accidents in manned spaceflight[M].Yuan Jiajun,Zheng Min,translated.Beijing:China Astronautics Press,2005(in Chinese)

[3]张宗美.航天故障手册[M].北京:中国宇航出版社,1994 Zhang Zongmei.Handbook of failures of launch vehicles’spacecraft and missiles[M].Beijing:China Astronautics Press,1994(in Chinese)

[4]王希季,李大耀.卫星设计学[M].上海:上海科学技术出版社,1997:218-310 Wang Xiji,Li Dayao.Satellite design[M].Shanghai:Shanghai Science and Technology Press,1997:218-310(in Chinese)

[5]谭维炽,胡金刚.航天器系统工程[M].北京:中国科学技术出版社,2009 Tan Weichi,Hu Jingang.Spacecraft systems engineering[M].Beijing:China Science and Technology Press,2009(in Chinese)

[6]Fortescue P,Stark J,Swinerd G.Spacecraft systems engineering[M].Third Edition.England:John.Wiley&Sons Ltd,2003:549-579

猜你喜欢

遥控航天器准则
2022 年第二季度航天器发射统计
“遥控”老师
IAASB针对较不复杂实体审计新准则文本公开征求意见
2019 年第二季度航天器发射统计
他是如何遥控引爆的
2018 年第三季度航天器发射统计
2018年第二季度航天器发射统计
内部审计增加组织价值——基于《中国内部审计准则》的修订分析
学学准则
新审计准则背景下审计教学面临的困境及出路