基于先进光谱融合技术-特征优化的复印纸无损识别

2023-09-21王继芬刘津彤

分析测试学报 2023年9期

张震，王继芬，刘津彤

（中国人民公安大学侦查学院，北京 100038）

随着社会的发展，印刷文件的出现逐渐取代了笔迹文件，使得在日常工作和生活中出现了大量的印刷文件。印刷文件的载体就是复印纸［1］，复印纸是复印机中消耗量最大的一种材料，是复印质量的体现者，由于复印纸的使用频率很高，新的复印纸品牌层出不穷。在提高工作效率的同时也对当前的公安工作提出了更大的挑战。在当前的公安工作中，犯罪现场出现的带有血迹的复印纸、作为毒品包装物的复印纸、嫌疑车辆上存在的复印纸、包裹管制刀具的复印纸等大量涉及到复印纸的使用，对于这类案件中复印纸来源的区分可为侦查人员提供更多的侦查线索，从而快速查明案源。因此，如何对复印纸的来源进行认定成为法庭工作人员研究的焦点问题之一。

此前，已有许多专家学者对纸张检验［2-4］做了深入研究。这些方法虽然能检出纸张中的各种成分，但对检材均具有破坏性，无法满足证据保全原则。由于现场很多检材难以再次获取，使用破坏性技术［5］可能会造成检材中的某些微量成分发生变化，影响实验结果。一旦检材遭到损坏，就会对实验结果的复核产生影响，无法使用其他方法对检材进行检验鉴别。

拉曼光谱是基于非弹性散射的振动光谱，其反映了非极性分子的对称振动，如分子和芳族结构的骨架振动。其中显微共聚焦拉曼光谱仪是一种前瞻性的分析工具，因具有无损、无需使用有机试剂、无需复杂样品预处理的优点，受到了越来越多研究人员的关注。拉曼光谱对非极性基团敏感，但对极性基团不敏感。另一种振动光谱技术，即傅里叶变换红外光谱，是一种分子吸收特定波长的红外光并引起分子振动水平发生变化的方法［6］。红外光谱可用于研究极性基团的不对称振动，是拉曼光谱［7］的补充。

数据融合策略是对海量数据进行综合分析和处理的方法之一［8］。可通过光谱协同作用和融合策略以及两个或多个互补光谱的一系列分析、合成和叠加以获取有关分析物特征的更完整和准确的信息，建立更可靠和成熟的多元校准模型。数据融合技术在食品行业［9］、制药行业［10］、土壤科学［11］和其他领域中均具有广泛应用。已有专家学者研究了基于拉曼光谱和红外光谱的数据融合技术。Wu等［12］在确定黄酒中的总抗氧化能力和总酚含量方面，比较了红外光谱、拉曼光谱和融合光谱的实验结果。结果表明，基于融合光谱的模型的预测性能优于基于单一光谱的模型。Xing 等［13］使用拉曼光谱和红外光谱进行数据融合，结合PLS 准确定量土壤中的有机质含量，获得了良好的预测结果。同时数据融合［14］可分为3 个级别：低级数据融合、中级数据融合和高级数据融合。因此，从复杂光谱中准确提取特征信息以建立准确的定量分析模型已成为当前的研究热点之一。Izadi等［15］曾借助数据融合方法提高服务质量的同时，降低了传感器网络的能耗，且所提出的方法能区分和汇总所收集数据的真实值，从而减轻了整个数据处理的负担。但迄今为止，数据融合的使用研究较少。

鉴于此，本文使用红外光谱与拉曼光谱对复印纸进行检验，获取复印纸的红外与拉曼光谱图。借助主成分分析对获取的光谱图进行处理，从中获得样品的主成分。通过贝叶斯判别分析（BDA）方法对提取的主成分进行分析，并通过引入数据融合的方法，将红外光谱图与拉曼光谱图进行融合，建立了基于数据融合的贝叶斯分类模型，实现了“来源地-厂家-品牌”的三维特征刻画，以期为后期侦查破案提供帮助。

1 实验部分

1.1 实验样本

结合实际案件，实验收集了山东、河南、陕西、江苏4个来源地共计200份复印纸，其基本信息如表1所示。

表1 200份样本的基本信息Table 1 The details of 200 samples

1.2 实验设备与参数

使用设备为Nicolet Almega XR 显微共聚焦拉曼光谱仪和Nicolet 5700傅里叶变换红外光谱仪；集成时间：10．00 s；点数：6个；背景曝光时间：8次；激光器：532 nm；激光偏振：平行；样本定位：显微镜；相机温度：-49 ℃；空间分辨率：1 μm；共焦深度分析分辨率：2 μm；光谱分辨率：2 cm-1；光谱重现性：优于0．02 nm；激光功率：40 mW；集成时间：10 s；连续时间间隔：2 s；光谱采集范围：600～1 800 cm-1。

1.3 光谱数据预处理

由于采集过程中仪器背景或漂移以及颗粒大小不同造成的散射会对光谱信号产生影响。因此需对实验所采集的样本谱图进行自动基线校正（Automatic baseline correction）、多元散射校正（Multiple scattering correction）、Savitzky-Golay 平滑和峰面积归一化（Peak area normalization）等预处理［16-18］。自动基线校正用于扣除仪器背景或漂移对信号的影响，多元散射校正用于消除由于颗粒分布不均匀及颗粒大小不同产生的散射对光谱的影响，Savitzky-Golay 平滑处理用于消除光谱信号中的随机噪声，提高样本信号的信噪比。通过以上方法对样本谱图进行处理能够使光谱信号更加显著。

由于实验所采集的光谱信号具有不完整性，因此需对采集的光谱信号进行预处理，希尔伯特变换［19］能够把一维的信号变成二维复平面上的信号，从而得到更加完整的信息。

2 结果与讨论

2.1 基于不同预处理方法的分类结果

表2为原始数据、去卷积及希尔伯特变换3种不同预处理方法对复印纸分类准确率的影响。去卷积后的数据和希尔伯特变换后的数据相较于原始数据的分类准确率均有所提升，复印纸的总体分类准确率相比于原始数据增大，因此经过预处理获得数据信噪比更好，光谱信号更强。但去卷积后数据的分类准确率提升不明显，其中来源地为江苏的复印纸的分类准确率几乎不变。而经过希尔伯特变换后数据的分类准确率相较于原始数据有明显提升，来源地山东的复印纸的分类准确率从11．1%增至66．7%，总体的分类准确率也从48．0%增至66．0%。这表明通过希尔伯特变化把一维信号变成二维复平面上的信号，更能全面地表达所获得的光谱信息。

表2 不同预处理方法对分类结果的影响Table 2 Influences of different pretreatment methods on classification results

2.2 基于红外光谱数据的分类结果

从样本的红外光谱数据提取主成分，可达到快速分析的目的，表3 为主成分分析得分情况。特征值越大，该成分所代表的主成分越多。方差贡献率越大，该成分影响力越大。表3 共提取了11 个特征值大于1 的成分，其中，第1 个成分的特征值最大，为746．041，方差贡献率为79．876%，表明该成分的影响力最大。第11个成分的特征值为1．431，方差贡献率为0．153%，表明此成分的影响力最小，但也不可缺少。通过计算累计方差贡献率可得知所提取的主成分总体对数据的影响。实验结果显示，成分1～5 的累计方差贡献率达97．548%，成分1～11 的累计方差贡献率达99．378%，为了保证特征数据对样本原始信息的高效保留，本实验选择全部（11个）成分作为基础数据进行数据模型处理［14］。

表3 样本红外光谱数据的主成分分析得分情况Table 3 PCA scores of infrared spectral data

准确率作为一种评价指标经常应用于分类结果的考察，准确率越高，分类越好。结合图1A、B 可知，不同特征变量所得的准确率不同。对红外光谱主成分分析（PCA）后的结果进行贝叶斯判别分析，当使用1 种主成分进行分析时，其总体分类准确率只有22%，随着特征变量的增多，使用11 种成分进行分析时，对其来源地的分类准确率达68%。表明随着成分增加，各个来源地的复印纸的分类准确率整体呈上升趋势，模型准确率更高，分辨能力更强。当加入第5 个特征变量时，总体分类准确率上升最大（图1B）。而在对山东进行区分时，随着特征变量的增多，在6 个特征变量时达到最高，但继续增加特征变量，山东的分类准确率出现了下降（图1A）。这说明PCA在提取特征的过程中不但删除了无效信息，同时也删除了一部分有效信息，导致该项分类准确率极限为77．8%。因此，本实验选取前5个特征变量作为整体数据对其进行分类。

图1 基于不同变量的4个来源地样本的分类准确率（A）及总体分类准确率（B）Fig．1 Classification accuracy based on samples from four different source locations to various variables（A） and overall classification accuracy（B）

2.3 基于拉曼光谱数据的分类结果

根据表4的主成分分析得分情况可知，拉曼光谱图中成分1～5的累计方差贡献率达97．548%，成分1～14 的累计方差贡献率达99．366%，由于单个特征变量的方差贡献率较低，为了保证特征数据对样本原始信息的高效保留，选择14个成分作为基础数据进行数据模型处理［14］。

表4 样本拉曼光谱数据的主成分分析得分情况Table 4 PCA scores of Raman spectral data

图2A、B 显示了随着特征变量的变化，不同来源地样本分类准确率及总体分类准确率发生变化。对拉曼光谱PCA 后的结果进行贝叶斯判别分析，发现当使用1 种主成分进行分析时，其总体分类准确率只有36%。随着特征变量的增多，而当14 种成分全部进行分析时，对于其来源地的分类准确率达到70%。由于来源地与成分呈因果关系，随着成分增加，各个来源地的复印纸的分类准确率整体呈上升趋势，模型准确率更高，分辨能力更强。相比于红外光谱，拉曼光谱经过主成分分析后提取的特征变量比红外光谱更多，因此仅通过红外光谱或拉曼光谱对复印纸来源地进行分析时，拉曼光谱的分类准确率高出红外光谱2 个百分点。在特征变量增加到第3 个时，其整体分类准确率迅速上升，与此同时，来源地为山东的复印纸的分类准确率也从11．1%上升至44．4%。这都表明第3个特征变量准确删除了大量的无效信息，而在增加至第4个特征变量时，其整体分类准确率从48%下降至38%，且来源地为陕西的复印纸的分类准确率也从76．9%下降至23．1%。这再次表明利用PCA 主成分分析在删除无效信息的同时也会删除一些有效信息。

图2 基于不同变量的4个来源地样本的分类准确率（A）及整体分类准确率（B）Fig．2 Classification accuracy based on samples from four different source locations to various variables（A） and overall classification accuracy（B）

2.4 基于红外光谱与拉曼光谱融合数据的分类结果

直接对红外光谱和拉曼光谱的数据进行BDA 处理无法实现复印纸样本的精准分类，考虑到红外光谱和拉曼光谱的互补特性，将红外光谱与拉曼光谱的数据融合，由于两种光谱数据之间存在较大的数量级差，因此在执行数据融合之前，须对检测器获得的原始数据进行标准化，再导入贝叶斯判别公式进行分析［14-15］。图3为基于3种融合方式的特征变量与方差贡献率关系，其中柱状图代表每个特征值的贡献率，点线图为累计贡献率。图3A 为初级融合下，基于全谱数据的主成分得分情况；图3B 为初级融合下，基于特征峰数据的主成分得分情况；图3C为基于中级融合的主成分得分情况。

图3 基于3种融合方式的主成分得分情况Fig．3 Principal component scores based on the three fusion methods A：full spectrum fusion；B：feature band fusion；C：intermediate fusion

由图3 可知，全谱融合获得的数据集庞大，直接分析需要大量时间，对全谱融合的数据进行PCA主成分分析，仅提取能够充分代表原始数据的成分。选择特征值大于1的成分，从中得到24个主成分，其中成分1 的特征值最大，为1 143．492，方差贡献率为42．604%，表示成分1 在这组数据中具有很大影响力。将各主成分进行累加，其累计方差贡献率从42．604%增加到99．563%。通过贝叶斯判别公式分析获取的24 个主成分，从而得到复印纸的整体分类准确率。当加入1 个成分时，其整体分类准确率为28%；加入5个成分时，整体准确率为50%；将24个成分全部加入时，其整体分类准确率为96%。相比于单独光谱分析，全谱融合的整体分类准确率比红外光谱高28 个百分点，比拉曼光谱高26 个百分点。这也证明光谱融合在优化贝叶斯判别的准确率方面具有很大贡献。

通过对比3种融合后累积方差贡献率与特征变量的关系，可得到以下结论：（1）随着特征变量的增多，全谱融合谱图在特征变量增加至17 时，其方差贡献率达到99%（图3A）；（2）筛选特征谱段融合谱图在特征变量增加至14时，其方差贡献率达到99%（图3B）；（3）中级融合谱图在特征变量增加至20时，其方差贡献率仅达到85%（图3C）。这说明全谱融合和特征谱段融合更大程度地保留了谱图本身的信息，而中级融合由于对其进行了两次PCA主成分分析，导致大量信息丢失。

利用贝叶斯公式对融合后的谱图进行分析，将所获得的特征值进行累加，全谱融合的整体分类准确率显著提升，在1 个特征值时，其分类准确率仅为28%，而加入全部（24 个）特征值后，其整体分类准确率提升至96%。特征谱段的整体分类准确率随着特征值的增加从26%提升至74%，但提升幅度不大，这是由于在选取特征谱段的过程中只保留了部分明显出峰的特征谱段，删除了其他谱段，导致部分信息丢失。例如在加入第6 个特征值时，整体分类准确率从50%下降至42%，丢失了部分有效信息，导致分类出现偏差。中级融合的总体分类准确率随着特征值的累加从32%提升至72%，随着特征值的增多，其分类准确率虽有提升，但与其他两种融合方法相比，对整体的分类准确率相对较低。

表5为基于3种融合方式的样本来源地分类结果。由表5可知，全谱融合方式的整体分类准确率最高（96．0%）。其中3 个来源地的样本分类能力较强，其准确率均达到100%。对山东来源地的样本的分类准确率为77．8%。特征谱段融合方式的总体分类准确率最低（74．0%）。其对山东来源地的样本识别准确率最低（55．6%）、对江苏来源地的样本识别准确率最高（81．8%）。中级融合方式对河南来源地的样本识别准确率最高（88．2%），对山东来源地的样本识别准确率最低（66．7%）。综合比较发现，全谱融合方式具有充分保留样本信息的特点，能够实现对不同来源地的各个样本准确识别与分类，可作为最佳分类模型。

图4 为4 个来源地200 份样本的分布图，由图可知，河南、陕西、江苏3 个来源地能够明显分开，河南、陕西、江苏3 个来源地的复印纸能够准确分类，其分类准确度达到100%。图中山东与陕西部分存在重叠，来源地为山东的复印纸的分类准确率为77．8%，其中一部分复印纸错误分类到陕西中。

图4 基于最佳模型的来源地空间分类图Fig．4 Spatial distribution map of source area based on the optimal model

2.5 基于最佳模型的不同厂家样本分类结果

为进一步实现对不同厂家样本的识别与分类，实验借助最佳模型，开展对各样本的分类识别。对3 种来源地厂家复印纸的光谱数据进行全谱融合，借助PCA 主成分分析对所得实验数据进行降维，通过贝叶斯判别分析对各样本开展分类工作。结果表明，该方法对不同厂家样本均实现了100%准确分类。这表明，借助红外和拉曼融合光谱技术开展对同一来源地不同厂家样本的识别与区分是可行的，通过借助希尔伯特变换对光谱数据开展预处理工作，同时构建BDA 分类模型，可实现对其准确分类和归属。

2.6 基于最佳模型的不同品牌样本分类结果

依据实验收集样本，对西安迅捷公司生产的两种品牌复印纸，即中华品牌（28份）和富丽华品牌（24份）开展分类工作。基于最佳模型可成功实现对52 份样本92．3%的准确分类，其中中华品牌和富丽华品牌的24份样本均实现了100%的准确区分，但有4份中华品牌样本被预判到富丽华品牌，这表明利用最佳分类模型能够准确地区分不同品牌的复印纸，从而实现“来源地-厂家-品牌”的三维特征刻画和识别。该方法对于当前公安工作中，通过包含复印纸在内的诸多物证多特征刻画和线索提取具有一定的应用价值，有望未来应用到公安实战中。

3 结论

本文采用先进的光谱融合技术和数据建模方法对不同来源地、厂家和品牌的复印纸样本进行了识别和分类。结果表明，经过预处理的数据比原始数据的信噪比更好，光谱信号更强，模型分类精度更高。光谱融合方式在模型精度和识别能力方面具有一定优势，其中全谱融合是最佳分类模型，能够对不同来源地的样本进行准确分类。研究结果表明数据预处理和光谱融合方式是数据分析中不可或缺的阶段和方法，可为复印纸的分类和归属提供可靠的技术支持。