HXD2型电力机车牵引控制网关板电源监视功能优化
2022-04-18罗伟涛
罗伟涛
(中国铁路呼和浩特局集团有限公司 包头西机务段,内蒙古 包头 014010)
HXD2型新八轴电力机车牵引控制单元(以下简称TCU)是机车牵引的核心控制单元,通过微控制器(MCU+DSP)及其外围电路实现四象限整流器控制、牵引逆变器控制、直流母线过压抑制以及防滑/防空转控制等功能,能对牵引电传动系统主电路元器件进行保护,并显示、记录故障时间和代码等信息。其作用是:给定牵引力(再生制动力)的闭环控制;牵引变流器中间直流电压的闭环控制;牵引变流器控制信号(触发脉冲)生成;开关器件的触发;牵引变流器、牵引电机、其他牵引器件的监控;防滑及防空转控制;提供牵引相关的故障诊断数据;通过MVB与CCU或其他TCU交换数据。
机车正常进行牵引变流器试验时,发现在TCU上电后其维护接口板指示灯出现异常,导致TCU在机车TCMS网络拓扑上生命信号丢失,报出“TCUx网关通信故障”。
针对机车上电后报出的“TCUx网关通信故障”,现场通过反复试验,发现对TCU网口接口板进行重新烧写芯片程序可以消除故障。初步判断是NETM C8051F040芯片上电后程序代码被损坏或被修改造成程序不能正常运行。
1 原因分析
造成程序丢失问题的原因很多,最终可归结到一个基本原因,即对Flash的访问失败而造成Flash保存的代码出现错误。对于所有包含有Flash读/写/擦除代码的系统,当CPU工作在规定的VDD、系统时钟频率范围之外时,对Flash进行读/写/擦除操作,都有可能出现Flash数据错误的现象。
出现该问题可能存在三方面原因:①软件BUG导致程序丢失,即软件中对Flash进行了错误的读/写/擦除操作,导致可执行程序损坏或改变;②电磁干扰导致Flash存储的可执行程序损坏或改变;③芯片自身缺陷导致Flash存储的可执行程序损坏或改变。由于系统复位时需要从Flash读出代码数据,Flash电压不稳定会出现不可预测的错误。
1.1 软件测试及分析
针对该问题对C8051F040网关代码进行走查,代码中未发现对Flash的读/写/擦除操作。因此排除软件问题。
1.2 电磁兼容方面测试及分析
针对该问题,对单板进行了静电试验和空气放电试验。
1.2.1 测试描述。①该测试对TCU网关板单板(未插入机箱)面板进行静电放电试验。②该测试对TCU网关板单板(未插入机箱)裸板进行8 kV的空气放电试验。
1.2.2 测试结果。①对TCU网关板单板(未插入机箱)面板进行静电放电试验,MVB通信中断,重新上电后恢复。多次测试均是如此,故与现场情况不一致。②对TCU网关板单板(未插入机箱)裸板进行空气放电试验,多次测试,板卡运行正常。
1.2.3 结论。静电放电等电磁干扰不会造成此类故障。
1.3 芯片自身缺陷方面测试及分析
1.3.1 测试描述。将TCU网关板插入TCU机箱内,对其定时上下电,观察TCU在线情况。
1.3.2 测试结果。TCU离线,重启后不恢复,重刷程序后恢复,与现场情况相同。
1.3.3 分析。针对复现故障的板卡进行了程序回读分析。故障板卡Flash的个别bit发生了改变,原因锁定为芯片自身缺陷导致程序丢失。
2 优化措施及验证
2.1 电源板上电电压测试
2.1.1 测试描述。示波器连到背板5 V和GND上以及3.3 V和GND上,抓取上电时电压波形。
2.1.2 测试结果。5 V与3.3 V电压大概需要200 ms才能上升到稳定区域。3.3V电压由VRS上升到3.3 V的时间约为97 ms,已经接近芯片启动时间,这样导致芯片在启动过程中工作不稳定的现象。
表1 故障板卡C8051F040芯片批次统计
2.2 电源监视测试
2.2.1 测试描述。C8051F040芯片内部具有电源监视功能,管脚VDD直接与3.3 V电源连接,监视电压情况。当VDD监视的电压低于VRST时,芯片内部将会使C8051F040处于复位状态。VRST位于2.55 V~2.7 V之间。但是,C8051F040芯片自身存在VRST过低的缺陷,当供电电压位于VRST之上时(2.7 V~3.08 V),依然有可能使芯片工作在不稳定状态,导致芯片在不稳定的状态读取Flash,造成Flash内存储的可执行程序损坏或改变。
通过增加外部电源监视功能,提升C8051F040芯片RST管脚电压,当该芯片所监视的电压低于3.08 V时,将会发出低电平,使FPGA处于复位状态。如此可有效防止芯片在2.7 V~3.08 V之间的不稳定状态下工作,避免软件改变或丢失报出故障。
将优化外部电源监视功能后的板卡插入机箱,做上电保持30 s、下电保持30 s重启试验。
2.2.2 测试环境。系统联调实验室,利用八轴车网络系统(DDU+MPU+GW),将TCU机箱接入MVB网络,配置可编程电源,上电保持30 s、下电保持30 s,观察DDU网络界面中TCU的在线状态。
2.2.3 测试结果。测试约24 h×9未复现故障。拆除优化的电源监视芯片后继续测试,约24 h×3后,测试板卡均复现此故障。
2.2.4 分析。增加电源监视芯片,提升管脚RST电压后,可以有效地避免因芯片自身缺陷所导致的C8051F040的程序损坏。
2.3 单板重启测试
2.3.1 测试描述。该测试对TCU网关板进行单板测试,不插入机箱,将可调电源调至DC 5 V,连接背板对其定时上下电,观察TCU在线情况。
2.3.2 测试环境。系统联调实验室,利用八轴车网络系统(DDU+MPU+GW),将TCU网关板接入MVB网络,配置可编程电源,定时30 s上下电,观察DDU网络界面中TCU的在线状态。对TCU网关板进行了重启测试。
2.3.3 测试结果。结果:未复现故障。
2.4 统计复现故障的板卡上C8051F040芯片的批次
表1是复现故障的板卡上C8051F040芯片的批次统计,根据统计信息,2014年、2015年、2018年生产的机车均有涉及,故障车辆生产年份不连贯,可以排除C8051F040芯片的批次质量问题。
3 分析及测试结论
通过分析,C8051F040芯片内部具有电源监视功能,管脚VDD直接与3.3 V电源连接,监视电压情况。当VDD监视电压低于VRST时,内部将会给管脚RST低电平,使C8051F040芯片处于复位状态。如果实际电压跌落,很可能使芯片处于低电压供电的不定状态,容易损坏芯片内部Flash,继而导致软件发生改变或丢失。
措施:在TCU网关板EB-MVBCAN-01(B)上优化电源监视功能,使C8051F040的RST引脚通过外接电源监视芯片,将其允许工作时的电压提升到3.08 V,保护Flash中存储的内容不被损坏。
4 总结
笔者针对TCU上电后状态灯异常进行了排查和分析,通过改造NETM中芯片C8051F040的RST引脚电压,优化电源监视功能,且不对其他功能造成影响,同时在厂家例行试验中加入了网关板C8051F040芯片RST引脚启动电压测试项。
为了杜绝问题的再次出现,在后续TCU例行试验中加入了电源工作电压测试项,改造后的网关板再未出现类似问题。