APP下载

深度学习在天文大数据处理中的应用

2018-12-05徐龙于学鑫颜毅华

数据与计算发展前沿 2018年3期
关键词:网络结构频谱卷积

徐龙,于学鑫,颜毅华

中国科学院国家天文台太阳活动重点实验室,北京 100012

引言

近年来,随着高性能观测设备的逐步投入使用,例如明安图射电频谱日像仪(Muser)[1][2],国际紫外-极紫外光谱成像空间望远镜 SDO/AIA[3],平方公里阵列(SKA)[4],以及观测数据不断地累计,例如明安图射电频谱日像仪每天采集约 3-4TB 数据量,天文数据已经进入了大数据时代。传统的数据处理方法难以对目前的天文大数据进行快速、高效的处理与分析。因此天文大数据处理是一个迫切需要解决的问题,其主要表现在以下两个方面,第一如何对每天采集的数据进行高效、准确的分类,实现数据的快速归档;第二如何充分利用海量的历史数据,解决天文领域中关键的科学问题甚至为新的发现提供可能。

最近几年,深度学习在计算机领域中的图像分类[5–9]与检测[10–11]和自然语言处理[12]以及视频分析[13]等方面取得突破性进展。深度学习主要依赖于大规模的训练数据、计算资源和学习算法。互联网的发展产生了海量的数据,为深度学习提供了数据基础;图形处理器 GPU 或高性能处理器 TPU等硬件的发展和成本的不断降低为深度学习提供了计算资源;以全连接神经网络、卷积神经网络、循环神经网络等为基本模块构成的AlexNet[5]、GoogleNet[6]、VGGNet[7]、ResNet[8]、DenseNet[9]等著名的深度模型和深度学习框架(例如 Tensorflow,Pytorch,Keras,MXnet等)为快速实现深度学习算法提供了便利。与传统方法相比,深度学习算法具有以下特点:(1)它是一种数据驱动方式的算法,即需要大量的数据为基础;(2)能够根据任务目标从训练数据中自动提取特征,无需人工干预,并且不要科研人员具备充足的专业知识,只需要了解相关基础知识;(3)具有很好的学习迁移的性质,即用一个训练好的模型解决不同问题时,只需要用相关数据对该模型进行微调即可。

综上所述,深度学习具有解决天文大数据所面临的问题的潜能。最近几年,一些研究者已经尝试将深度学习应用到天文大数据中。本文主要结合中国科学院国家天文台太阳重点实验室的相关工作,讨论深度学习在天文大数据中太阳射电频谱图分类任务和太阳耀斑预报以及电离层总电子含量预报任务中的应用。

1 深度学习在分类任务中的应用

高性能太阳观测设备每天采集到大量的观测数据,对于这些数据的校准、分类、成像等初步分析通常需要人工干预。在天文大数据时代,这种方式不仅消耗了大量的人力,而且数据处理的效率低,严重阻碍了数据的快速归档和后期的深入分析。如何实现观测数据快速、高效的自动分类和归档是太阳观测大数据急需解决的首要问题。本节以太阳射电频谱图分类为例,讨论深度学习在大数据分类、归档任务中的应用。

传统的分类方法通常采用有监督学习的方式,利用已标记太阳频谱图数据训练分类器,例如支持向量机(Support Vector Machine,SVM)。在 SVM 分类中,输入到分类器的图像特征需要凭借先验知识从图像中进行人工提取,分类效果也会因图像特性的效率而受到抑制;然而,深度学习能够根据具体任务目标从训练数据中自动提取特征,无需人工干预,是一种端到端的模型,从模型优化角度讲可以获得最优的效果。目前,深度学习在计算机领域中图像处理、自然语言处理和视频分析等方面都取得了成功。在本节将讨论几种深度学习模型在太阳频谱分类中应用,具体包括深度置信网络(Deep Belief Network,DBN)[14]、多模态网络(Multimodal Network)[15]和深度多模态网络(Deep Multimodal Network,DMN)[16]、卷积神经网络(Convolutional Neural Network,CNN)[17]和长短时记忆网络(Long-Short Time Memory,LSTM)[18]。

1.1 太阳频谱图数据库

太阳射电频谱图分类任务用到的数据是由太阳射电宽带动态频谱仪(Solar Broadband Radio Spectrometer,SBRS)采集的频谱图数据。SBRS 由5个光谱仪构成,工作频率分别在 0.7-1.5GHz,1.0-2.0GHz,2.6-3.8GHz,4.5-7.5GHz和5.2-7.6GHz,能够监测太阳爆发的频率范围 0.7-7.6GHz,时间分辨率1-10ms。

实验中的太阳射电频谱图数据如图1所示,其横轴代表采集的持续时间 8ms,纵轴代表120个不同的频率通道,其像素的强度值表示太阳射电在某一个频率上和某个时间点的辐射强度。整幅图像表示太阳射电在 8ms 时间内,120个频率上的辐射强度的变化。整个频谱图包含了左旋和右旋独立的两部分,每部分大小为 120×2520 像素。为了使用深度学习对太阳射电频谱图进行分类研究,需要首先建立一个数据库,数据库包含太阳射电频谱图和其相应的分类标签,表1列举了本文所使用的数据库。

根据对任务目标和数据含义的理解,不同的研究者选取不同的深度学习模型,同时对于数据预处理也会采用不同的处理方式。文献 [14–16] 对太阳于频谱图的预处理方式相同,最终形成的频谱图数据库如表2所示。文献 [17–18] 对于太阳频谱图采用了相同的预处理方式,其形成的频谱图数据库如表3所示。

图1 太阳射电频谱图Fig.1 The solar radio spectrum

1.2 深度置信网络

深度置信网络(Deep Belief Network,DBN)是一种由多层受限玻尔兹曼机(restricted Boltzmann machines,RBMs)构成的随机生成模型,既可以用于非监督学习,也可以用于监督学习。RBM是一种典型的图形模型,由可见层和隐含层构成,可见层与隐含层间是一种双向的全连接,而其层内是不连接的。当 DBN 用于分类监督模型时,只需要在顶层增加一个分类层即可。

文献 [14] 使用 DBN 对太阳频谱进行分类,网络由一个隐含层以及一个分类层构成,其网络结构如图2所示。实验中进行了DBN 与传统方法 PCA+SVM(Principal Components Analysis,PCA)对比,DBN 分类性能优于 PCA+SVM。为了进一步提高网络的分类性能和避免网络过拟合或者陷入局部最优,文献 [14]首先对 DBN 使用无标签的频谱图数据进行预训练,然后使用训练数据进行微调方式的训练网络。同时对隐含层神经元数据量对分类性能的影响进行了实验研究,部分相关的实验结果如表6所示。

表1 太阳射电频谱图数据库详细信息Table1 The details of the solar radio spectrum database

表2 训练和测试数据的详细信息Table2 The details of the training and test data

表3 训练和测试数据的详细信息Table3 The details of the training and test data

图2 深度置信网络的结构Fig.2 The architecture of deep belief network

1.3 多模态网络与深度多模态网络

文献 [15] 对于太阳频谱的分类设计了多模态网络(Multimodal Network,MN),它是由自编码器和正则化以及分类层构成,其网络结构如图3所示。自编码器一种自监督网络,即网络的标签就是网络的输入。具体来说,网络的编码器首先将输入数据进行压缩,解码器再将其进行重构,网络的目标是使得输入和输出之间误差尽可能的小。

文献 [15–16] 认为太阳频谱图的每个频率能够独立表示太阳活动,但频率之间应该存在关联性。所以,将每个频率视为一个模态,同时在网络设计中采用稀疏连接和正则化的方式,学习模态内与模态间的特征,从而提高分类性能,部分相关的实验结果如表6所示。与文献 [15] 相比,文献 [16] 在 MN 的基础上通过增添全连接层加深网络的深度构成深度多模态网络(Deep Multimodal Network,DMN),其网络结构如图4所示。同时,文献 [16] 对于不同深度的多模态网络的分类性能进行了实验研究,以及隐含层数相同时其神经元数量的不同对于分类性能的影响,部分相关的实验结果如表6所示。

图3 多模态网络的结构Fig.3 The architecture of multimodal network

1.4 卷积神经网络

文献 [17] 受到卷积神经网络 Convolutional Neural Network,CNN)在计算机领域中图像处理方面取得成功的启发,将太阳频谱图视为一般的自然图像,最终将 CNN 应用到太阳频谱图分类上,期待能够获得较好效果。

CNN是受到生物视觉启发而设计出的网络。它通常由卷积层(Convolutional layer)和线性整流层(Rectified Linear Units layer,ReLU)以及池化层(Pooling layer)构成。一般根据任务的复杂度,适当地增加网络深度。在分类任务中,一般在其顶端增加全连接层和分类层构成分类网络。

文献 [17] 设计的CNN 分类网络的有四个卷积层和一个全连接层以及一个分类层,具体网络结构如图5所示。文献 [17] 将频谱图视为自然图像,同时分析了在自然图像中卷积核大小的设计并根据频谱图表示一段时间内在多个频率上的太阳辐射强度变化的特点,将一般正方形的卷积核改为矩形卷积核,例如3×3 改变为 1×3,具体网络参数如表4所示。同时,文献 [17] 进行了不同网络深度对于分类效果影响的实验研究,其相关结果如表6所示。

图4 深度多模态网络的结构Fig.4 The architecture of deep multimodal network

图5 卷积网络的结构Fig.5 The architecture of convolutional neural network

1.5 长短时记忆网络

文献 [18] 根据频谱图是一段时间内在多个频率上的采集的数据的特点,认为每个频率本质上是一个序列数据,同时每个频率都能独立代表太阳活动(是否爆发),所以同一频率内的时序关系是分类的有效特征。受长短时记忆网络(Long-Short Time Memory,LSTM)善于处理序列数据并在自然语言处理方面取得显著进展的启发,选用 LSTM 提取频谱图同一频率内的特征,进行分类。

LSTM是一种记忆网络主要由输入门、输出门、遗忘门和记忆单元构成,具体的结构如图6所示。

LSTM 分类网络由输入层、一个 LSTM 层和一个全连接层以及一个分类层构成,具体的网络结构如图7所示。太阳射电频谱图经过预处理后,将每一列按不同时间点依次输入 LSTM 网络,待整个频谱图最后一列输入结束后,将其对应的输出经过全连接层后输入到分类层,实现最终分类,其部分相关的验结果如表6所示。

表4 卷积网络的网络参数Table4 The parameters of convolutional neural network

1.6 实验结果分析

根据深度模型的选择和太阳频谱数据的理解不同,对于数据的预处理方式会存在差异。文献 [14][15][16] 采用相同的频谱图预处理方式,其数据库的详细信息如表2所示;文献 [17][18] 对于频谱图的预处理方式相同,其数据库的详细信息如表3所示。各个深度模型经过训练,最终测试的实验结果表6所示,从中可得出深度模型优于传统 PCA+SVM;与MN 行比较,DMN 的性能有所提高,通过适当增加网络深度能够提升分类性能;LSTM 与 CNN 的性能相当并都优于 DMN,尤其是爆发类型的FPR。对于CNN 而言,能够获得这种结果主要原因是利用 CNN能够提取频谱图的空间特征以及根据频谱图数据特点更改了卷积核;对于 LSTM 而言,获得这样的分类效果主要是将 LSTM 善于提取序列数据特征的优势与频谱图自身的时序特点相结合的结果。

图6 LSTM 的基本结构Fig.6 The basic structure of an LSTM

图7 长短时记忆网络的结构Fig.7 The architecture of long-short time memory network

图8 太阳耀斑预报的网络结构Fig.8 The network architecture for solar flare forecast

2 深度学习在预报任务中的应用

持续的天文观测可以获得海量的时序数据,时序数据可以表示某种物理活动的过程,利用时序数据来可以获得关于某个物理现象的发展过程的认识,特别是基于这些时序数据和认识对各种物理现象的未来发展方向进行预测。本节主要讨论深度学习在天文领域中预报任务中的应用。

2.1 太阳耀斑预报

文献 [19] 使用 CNN 网络结构进行太阳耀预报,即通过 CNN 对当输入磁图进行处理,最终预判是否发生耀斑。所以将太阳耀斑的预测问题转化成了一个二分类问题。具体的CNN 网络由两个卷积层和两个全连接层以及一个分类层构成,其网络结构如图8所示。

文献 [19] 在实验中对于耀斑进行未来 6h,12h,24h,48h 的预测,并与目前相关的预测模型比较表现出很好的预测性能。同时,将卷积层滤波器提取的特征图进行可视化分析,如图9所示。图9是网络输入的磁图,红色区域是某一个特征图经过变换在原图上的投影,这个区域与天文领域研究者手动提取相关的物理参数的区域是吻合的,这说明 CNN 网络提取的特征具有一定的物理含义,同时部分证明了卷积网络用于耀斑预报的有效性。

图9 特征图的可视化分析Fig.9 The visualized analysis of feature map

2.2 电离层总电子含量预报

电离层总电子含量(Total Electron Content,TEC)的预报在空间天气非常重要,文献 [20][21] 利用过去5 天的TEC 数据及其相关参数预测未来 24 小时内的TEC 的含量。由于数据自身存在时序关系,同时受LSTM 在序列数据处理方面取得优势的启发,最终选择 LSTM 网络预测 TEC 含量。

(1)长短时记忆网络

文献 [20] 使用的LSTM 预测网络由一个 LSTM层和一个全连接层构成,具体的网络结构如图10 所示。将连续五天的历史数据按照时序关系依次输入LSTM 网络。待输入完成时,将第五天的输入对应的输出输入全连接层,全连接层输出的向量即为预测的TEC 值。

图10 TEC 预报的 LSTM 网络结构Fig.10 The LSTM network architecture for TEC forecast

图11 TEC 预报的Bi-LSTM网络结构Fig.11 The Bi-LSTM network architecture for TEC forecast

(2)双向长短时记忆网络

为了进一步提高 TEC 值的预报性能,文献 [21]选用双向长短时记忆网络(Bidirectional Long Short-Term memory,Bi-LSTM)。与 LSTM 相比,Bi-LSMT通过向前层和向后层结构,不但能够利用历史信息,而且还能利用未来信息,这非常有益于预测。Bi-LSTM 预测网络由一个 LSTM 向前层、一个 LSTM 向后层以及一个全连接层构成,其具体的网络结构如图11 所示。将连续 5 天的历史数据按时间正序依次输入Bi-LSTM 前向层,再将上述 5 天的数据按时间逆序输入 Bi-LSTM 后向层,待两次输入完成后,将两层的最后一时刻输入对应的输出经过全连接层,输出的向量即为 TEC 预测值。

文献 [20][21] 对 TEC 预报分别采用 LSTM和Bi-LSTM 进行 TEC 值的预报,将预测的TEC 值与真实TEC 值之间的均方根误差(Root Mean Square Error,RMSE)作为性能指标进行衡量,在实验过程中还对比了MLP 网络和双层 LSTM(Multi-LSTM)网络,实验结果如表5所示,表明模型的预测性能为 Bi-LSTM > LSTM >Multi-LSTM >MLP;与 MLP 相比,三种 LSTM 的模型对于序列数据的预测表现出较为理想的结果;Multi-LSTM 性能低于 LSTM 可能原因是 Multi-LSTM 网络相对于 TEC 预报任务网络参数太多,发生了过拟合;Bi-LSTM 相对于 LSTM 的性能提升可能是对于未来信息利用的结果。

表5 TEC 预报的实验结果Table5 The experimental results of TEC forecast

3 结论

随着天文领域进入大数据时代,深度学习已经在天文领域广泛地应用,尤其是数据的归档中的分类应用和充分利用海量的天文观测数据解决相关的科学问题,例如太阳耀斑和 TEC 预报等任务。就目前的研究成果而言,深度学习在天文大数据处理应用中表现出较为理想的效果。在未来,深度学习在天文大数据处理中的应用将会受到更多的关注并能够解决更多的科学问题。

猜你喜欢

网络结构频谱卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种用于深空探测的Chirp变换频谱分析仪设计与实现
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
频谱大师谈“频谱音乐”——法国作曲家缪哈伊访谈记
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
沪港通下A+ H股票网络结构演化的实证分析
复杂网络结构比对算法研究进展