基于LSTM 的K2CsSb 光阴极反射率预测模型

2022-12-06魏静雯钱芸生

应用光学 2022年6期

魏静雯，钱芸生，曹扬

（南京理工大学电子工程与光电技术学院，江苏南京 210094）

引言

K2CsSb 光阴极因其高灵敏度、低暗电流，能够在可见光波段内快速响应的特性，普遍使用在光电倍增管的制作中。采用该种阴极的光电倍增管广泛应用于高能物理、分析仪器、医疗仪器、石油勘探和核爆检测等领域。目前国内外生产K2CsSb光阴极光电倍增管的厂家包括日本Hamamatsu 公司、英国Electron Tube 公司和国内的多家公司，诸如北方夜视科技（南京）研究院有限公司、中国电子科技集团公司第五十五研究所和北京中核控制系统工程有限公司等。长期以来，人们普遍认为K2CsSb 光阴极量子效率的理论极限为26%。直到2010 年，日本Hamamatsu 公司改进的新型Ultra Bialkali（UBA）和Super Bialkali（SBA）光阴极问世，其中UBA 的量子效率高达42%[1]。近年来，国内对光电倍增管的需求逐渐增大[2]，促使其工艺提升，但相较于滨松公司的产品，其性能仍有一定差距，因此国内双碱阴极的制作水平亟待提高。

目前国内常用的K2CsSb 光阴极制备方式已实现自动化，且随着自动制备技术的不断完善，由计算机控制所带来的稳定性和精确度方面的提升已接近极限。同时，因其制备工艺仍为固定模式，自动制备的阴极性能也逐渐达到瓶颈。当前制备工艺优化仅依靠人工总结经验的方式进行，面对海量数据人工无法充分提取其中特征。且在制备过程中无法根据当前阴极生长状态动态调节工艺参数设置，因此K2CsSb 光阴极制备生产应向智能化转变。K2CsSb 光阴极的制作工艺复杂。自该种阴极被发现以来，国内外众多学者提出了多种制备方法，其大多为以沉积或蒸发的方式在清洁的玻璃基底上附着K、Sb、Cs[3-7]，并在此过程中采用人眼观察光阴极颜色或实时监控光电流、反射率变化的方式来判断当前光阴极生长状况[8]，并以此来指导下一步操作。在上述监控方式中，由于反射率可表征阴极膜厚以及膜层增长速率等特征[9]，能够直观反映光阴极当前的生长状态，故实时反射率值在制备高性能K2CsSb 光阴极的过程中十分重要。2017 年，孙建宁等人提出一种根据反射率理论指导K2CsSb 光阴极制备的方法[10]，并且通过实验证明了不同反射率曲线的走势会对K2CsSb 量子效率产生影响。

K2CsSb 光阴极制备中的反射率数据往往具有较强的时序特性，不同时刻之间的反射率数据相互联系，且联合碱源电流相关工艺数据随制备过程形成庞大的关联型数据集。这些时序数据为机器学习、深度学习的应用创造了条件。其中，用于捕捉时序变化特征的长短期记忆（long short-term memory, LSTM）网络与反射率预测问题高度契合。基于此，本文提出一种基于LSTM 的反射率预测模型，旨在根据前序制备过程工艺参数预测下一时刻反射率，以达到预判当前阴极生长状态并根据目标反射率曲线走势动态调整碱源电流等工艺参数的目的。该模型对日后建立完整性能导向的智能K2CsSb 光阴极制备奠定技术基础。

1 反射率监控原理

K2CsSb 光阴极制备工艺常见流程为先蒸K，当玻璃壳内充满K 蒸汽后再进行与Sb 的同步蒸发，形成K3Sb 膜层，最后蒸Cs 形成K2CsSb 膜层[11]。本文认为在Cs 蒸镀过程中，K3Sb 中的每3 个K 原子中有一个会被Cs 原子取代，形成K2CsSb 电子发射层/增透层/玻璃基底的3 层薄膜结构。

图1 给出K2CsSb 光电阴极结构模型。假设光束从折射率为n0的空气中垂直入射至K2CsSb 光电阴极系中，每个膜层的折射率分别记为n1、n2和n3，最后光束出射到折射率为n4的真空环境中。本阴极结构的反射率R计算公式由文献[12]给出：

图1 K2CsSb 光电阴极结构模型Fig. 1 Structure model of K2CsSb photocathode

由（1）、（2）式可知，透射式阴极的反射率只与入射光波长、入射角度、入射介质折射率、阴极复折射率以及阴极膜厚有关。制备过程中单色光入射角始终为 0◦，竖直照射在阴极表面；此外，在入射光波长单一的情况下，阴极折射率和消光系数为固定参数[13]。综上所述，K2CsSb 光阴极制备过程中的反射率变化仅与阴极厚度相关。

2 反射率预测模型

反射率预测模型共由3 个部分组成，分别为输入模型时的数据预处理、网络的训练以及模型输出的预测值。

整个预测结构如图2 所示。其中预处理模块主要对碱源电流数据与反射率相关数据进行筛选及处理，以适应网络的输入。模型训练模块用于实现网络的搭建、自适应学习网络参数和模型的保存；预测模块输出当前反射率的预测值，用于对比评估模型预测效果。

图2 反射率预测模型结构图Fig. 2 Structure diagram of reflectivity prediction model

2.1 模型输入

在搭建深度学习模型时，高质量的输入数据对模型的性能提升至关重要。由于原始数据采集时具有波动、信号丢失以及错误读取等情况出现，故需要对数据集进行数据清洗、筛选以及标准化等操作[14]。

本文使用的数据集由反射率监控系统采集得到，包括不同时刻碱源电流的设定值及真实值、反射率曲线斜率值、反射率值以及信号采集值，样本量为26 535 条。训练集和测试集按照7∶3 进行划分，首先用大批量的数据进行模型训练，之后用测试集进行验证。

2.1.1 数据清洗

对于数据集中数据缺失、数据异常的情况，需要分类进行处理。

1）数据缺失

由于反射率值为模型预测的目标特征，对于反射率值缺失的情况，该条数据采取直接删除的方式。对于其余特征缺失，若特征缺失数量大于2 条，则仍采用直接删除的方法；基于反射率时序变化高度相关的特征，若特征缺失数量小于或等于2 条则可直接填补为上一时刻的特征值。

2）数据异常

若异常值为反射率值，则直接删除该条数据；若异常值为其余特征，则直接替换为上一时刻特征值。

2.1.2 数据筛选

在模型训练的过程中，过多的输入特征会导致训练速度的降低，对无需关注的特征给予关注会对模型的预测精度造成影响，所以数据筛选亦是数据预处理中关键的一步。图3 为数据集特征热力图，各个特征的相关性系数显示在对应方格中。从图3 中可看出，碱源设定电流值和真实电流值高度相关，由于碱源蒸发真实电流值相比于设定值的离散程度更高，故舍去设定电流值，而反射光采集的信号值与反射率值的相关性系数较低可直接忽略。最终模型的输入参数包括：实际碱源电流值、反射率曲线斜率以及反射率参数。

图3 数据集特征热力图Fig. 3 Thermodynamic diagram of dataset feature

2.1.3 数据标准化

不同属性不同量级的数据若直接输入，会对模型造成一定程度的影响，主要表现为：量级较大的特性属性会占据主导地位且易导致迭代收敛速度的减慢。故需要对多维特征进行标准化操作，将数据缩放到某个指定范围。本文采用基于原始数据的均值和标准差进行的Z-score 标准化操作：

2.1.4 序列化重构

由于反射率数据之间存在时间相关性，故模型需要的输入数据需为时间序列。由上位机采集到的K2CsSb 光阴极制备中的过程参数已为时间序列，只需对数据集进行序列化重构即可。采用长度为L的滑动窗口对数据集D进行重构成为新数据集Dnew，每次向下滑动的时间长度为1，如图4 所示。实验发现L取值为5 时模型的准确率最高。

图4 数据集序列化重构Fig. 4 Diagram of dataset serialization reconstruction

2.2 LSTM 网络搭建

2.2.1 LSTM 模型概述

针对于反射率数据在时序上具有高度连续性的特征，本文采用LSTM 搭建反射率预测模型。传统RNN 网络虽具有时间特性，但存在长跨度依赖问题，后序节点对于时间跨度大的前序节点的信息感知能力较弱，多阶段的反向传播后会导致梯度消失、梯度爆炸[15]。而LSTM 利用门控机制很好地控制了信息的流通和损失[16]。如图5（a）所示，LSTM 引入了3 个门限：输入门it、遗忘门ft、输出门ot，其中，输入门it决定信息存入当前细胞态的比例；遗忘门ft选择性遗忘细胞态中的信息；输出门ot选择性地输出信息。此外，该模型还引入了表征长期记忆的细胞态Ct和等待存入长期记忆的候选态C～t。

图5 LSTM 计算原理及单元结构图Fig. 5 LSTM calculation principle and unit structure diagram

2.2.2 模型架构

数据经过预处理后，模型的输入参数需转化为张量以适应LSTM 的输入维度。表1 列出了LSTM模型的输入输出维度及参数量。数据集经过序列化重构后，5 条数据作为一个样本，每个样本包含5 列数据，初始输入维度为(5, 5)，模型输出为反射率预测值。由图5（b）可知，单层LSTM 网络中有4 个线性变换，包括3 个门控和1 个tanh层，而每个线性变换相当于2 层全连接网络。假设输入维度为dx，输出维度为dh，全连接网络第1 层的维度为dx+dh，第2 层即为输出层，维度为dh，则该网络的参数量为

表1 网络组成和参数量Table 1 Composition of network structure and the number of parameters

3 实验

3.1 实验装置

阴极反射流程监控装置可实现60 路反射率监控，为阴极制备过程中大量数据信息的采集提供便利。该装置由反射率监控光学系统、反射率监控探测组件、反射率信号控制处理系统、碱源电源系统以及机械结构件组成，图6 为系统结构图。

图6 反射率监控系统结构图Fig. 6 Structure diagram of reflectivity monitoring system

碱源电源系统向碱源提供恒流供电，光学系统中的光纤由2 簇组成，单色激光光源发出调制光经由其中一簇垂直入射至待测阴极表面，反射光经由另一簇光纤传导至对应的光电探测器接收。光电探测器在反射光的作用下，产生微弱的电信号，该信号经过信号控制处理系统放大后通过串口传输给上位机，在软件中实现采集和处理等操作。

3.2 实验环境

实验环境处理器为Intel(R) Core(TM) i7-10 710U，GPU 型号为NVIDIA GeForce MX350，显存为2 GB，深度学习开发环境为Pycharm+Tensorflow2.6.0，实验模型参数如表2 所示。

表2 实验模型参数Table 2 Parameters of experimental model

3.3 序列长度对准确率的影响

对于具有时间记忆特性的循环神经网络，序列长度对模型准确率的影响不可忽视。本节将讨论不同序列长度对模型准确率的影响，实验使用同一数据集。本文以8 个不同序列长度作为单一变量进行模型训练及预测，最终准确率如表3 所示。

通过对比表3 列出的相关数据可以发现，反射率预测准确率并不与序列长度呈简单正反相关趋势，步长为5 时准确率达到峰值。从图7 中可看出，在前期序列长度增加时，模型准确率总体呈上升趋势，达到峰值后准确率开始下降且此时训练时长大幅增加，随后训练时长趋于稳定，准确率呈上升再回落的趋势。

表3 序列长度对准确率和训练时间的影响Table 3 Effect of sequence length on accuracy and training time

图7 序列长度与准确率和训练时间趋势图Fig. 7 Trend chart of sequence length, accuracy and training time

小范围内的序列长度增加，可增加输入参数的维度，从而提高模型的学习能力；而时间序列过长后会导致训练时长的增加，且易造成数据冗余，对模型准确率产生负面贡献。综合表3 数据，序列长度取5 较为合适。

3.4 不同模型及不同网络层数对准确率的影响

本节将2 种模型下不同层数的训练结果进行对比，探讨其对模型准确率的影响。本节对比方式为：将同一数据集输入模型，采用BP 神经网络和LSTM 网络，每种模型分为3 种不同的网络层数对比预测准确率。

从表4 可看出，BP 神经网络由于不具有时间记忆特性，其预测准确率明显低于LSTM 网络。通常情况下，网络较为简单时，因其内部神经元层数较少，学习深度不够，此时的准确率较低；网络过于复杂时，网络层数偏多，学习能力增强的同时易造成欠拟合，准确率下降。对于BP 网络，模型预测准确率随着层数增加上升；而对于LSTM 网络这种复杂循环记忆网络来说，3 层叠加已足够复杂。从表4 中数据对比可知，随着网络层数的增加，训练时间亦会同时增加，层数为2 时，该模型的准确率更高；而层数为1 时，模型的准确率较低。由图8 可看出，3 种模型均在迭代次数为25 左右时趋于收敛。其中，层数为2 时，模型的损失值下降最快；层数为3 时，模型收敛后的损失值波动较大。综上，本文认为网络层数为2 时的LSTM 网络模型可达到最佳效果。

表4 网络层数对准确率和训练时间的影响Table 4 Effect of network layers on accuracy and training time

图8 LSTM 网络不同层数下的损失值对比Fig. 8 Comparison of loss values under different layers of LSTM network

3.5 模型泛化能力验证

模型的普适性是衡量一个模型是否合格的重要标准之一。本节使用3 种不同趋势的数据集与对应的模型预测集进行对比分析，验证该模型在不同数据集下的泛化能力。图9 为3 种不同趋势下的预测值和真实值对比图。

图9 不同数据集下模型预测效果对比Fig. 9 Comparison of model prediction effects under different datasets

由图9 综合对比可看出，本模型在3 种不同数据集下表现良好，但在急剧上升后的平稳阶段，模型预测值的波动较大。该问题可归因于此种变化特征的反射率数据在训练集中所占数量较少，模型未能完全学习变化的规律。此外，图9(b)和图9(c)在初始阶段的预测值也存在小幅度波动。

4 结论

为了实现K2CsSb 光阴极制备中根据当前阴极生长状态智能调整工艺参数以匹配高量子效率反射率曲线走势，提出了一种基于LSTM 的反射率预测模型。LSTM 算法可充分提取数据中的时间与空间信息，提高神经网络的学习能力。通过实验表明，反射率序列存在短期的时间相关性，序列长度为5、网络层数为2 时模型的准确率最高，为99.21%，过长的时间序列或过多的网络层数会造成训练时间的增加且导致准确率下降。本模型在不同数据集下表现良好，但仍存在部分阶段预测数据波动的情况，后续可考虑增加数据集、改进网络结构的方式对此问题进行优化。