机器学习算法在金融行业中的应用

2020-05-21戴璞

时代金融 2020年11期

戴璞

摘要：当今时代，人工智能的浪潮席卷而来，给各个行业注入一种无与伦比的活力。金融领域也不例外，人工智能给这个行业提供了非富多彩的新型技术，对其进一步发展带来新的契机。本文从底层机器学习算法的角度，介绍了几种基础的机器学习算法，揭示了较流行的技术所使用的底层算法，阐释了他们在金融领域中的使用方式和使用前景。

关键词：机器学习算法金融行业人工智能

与机器相比，大脑容量和计算能力对人类的行为和思考有严重的限制。而机器学习算法是用来给计算机设计一种方法，使计算机能够自行学习后对同类问题自动的决策，且具有远超人类的速度。因此金融领域中存在一些数据量巨大、大海捞针式的任务都适合使用机器学习来完成。

机器学习算法可以划分为有监督学习和无监督学习两种类别。有监督学习在金融领域的使用尤为广泛，大致步骤如下。在学习与训练阶段，机器对一类问题进行学习从而训练出模型。在这个阶段首先需要已经有答案的测试集，已经做好正确决策的样本来供计算机来学习。在测试阶段，测试集用来对已经训练出的模型进行测试，进一步修改模型以得到更好的结果。最后输出完善的模型。下文介绍了几种具有各自的特点和优势的几种算法，同时展示了他们在金融行业可能的应用。

一、决策树算法与随机森林

决策树算法是基于‘树数据结构的分类算法。‘树是由节点和分支组成的，其中节点用来储存信息和数据，分支用来表示各信息和数据之间的相互关系。

在此算法中，如何科学合理的构造一个决策树是本算法的关键。在选择非叶子节点的特征和特征划分方式时考虑信息增益，从决策树的顶端到底部依次选择信息增益最大的特征和特征划分方式作为非叶子节点，这样能够尽可能的利用特征的多样性构造出最准确的决策树。

树聚成林，随机森林是在决策树的基础上发展来的一种集成算法。随机森林算法构造了多个决策树，然后用特定的集成方法将这些决策树进行集成，使多个决策树共同完成样本的分类和决策。经过大量现实任务的检验，随机森林凭借着简单且容易实现的算法思想展示出来了强大的性能，在数据挖掘领域取得优秀表现。

在金融行业，决策树算法与随机森林的用武之地十分广阔。首先，这种算法可以用来对一些有选项问题进行决策。由于其算法自动决策，时间成本人力成本较小，特别适用于超高频率的数据量巨大的决策。例如，在目前金融市场上有一种特殊的买卖行为，计算机使用超高性能的硬件和软件快速买卖资产，或者以超高频率和速度交易个人证券，以期望在以秒为数量级的时间内得到收益。由于速度过快数据量巨大，完全超出了人力能及的范围。使用上述决策树算法，只需针对特定的交易类型建立决策树和随机森林，计算机完全自主选择买进与卖出，从而实现收益。

决策树还可以用于银行对客户进行产品推荐。针对不同的客户，他们各方面的条件不同，他们的需求也是千变万化。使用决策树算法，将不同的产品放置在根节点上，客户的条件作为特征通过非叶子节点进行判断后选择分支，最终每个客户都会对应到适合自己的产品。如果构造出的决策树和随机森林合理，被推荐给用户的产品最能俘获客户的心，银行与客户之间的业务也将更便捷与高效。

二、神经网络

近些年，人工智能在金融行业的应用愈演愈烈。神经网络作为人工智能和深度学习的基石，应用广泛且愈发成熟，现在已经演变成一个很大的多学科交叉的学科领域。因此我们有必要了解神经网络的算法思想，来更好的将其应用于金融领域。

神经网络最基本的单元是是由神经元。其仿照了生物模型设计，按一定的逻辑顺序将神经元连接成网，相邻的神经元能够接收到互相传递的信号，这些信号作为神经元的输入，通过神经元自设的权重、阈值和激活函数计算后进行传递和输出。神经网络的结构千变万化，不同结构的神经网络组合神经元的方式不同，所能模拟和解决的问题也不同。在金融行业，各种神经网络也正在发挥着重要作用。在银行中，手写签字识别与人脸识别已经是用于识别身份的关键性技术。而这类的图像识别问题就是基于一种特殊的神经网络结构，称为卷积神经网络。人眼对图片的每个像素的视觉不是独立的，和周围的像素有着很大联系。卷积神经网络中包含了卷积层，图像的矩阵数据在卷积神经网络中向前传输通过卷积层时，会将像素矩阵成块的分割后做卷积运算，运算得到的结果继续向前传递最后输出。这样卷积神经网络将图片中的每个像素与其周围的像素结合，运算后共同形成符合人眼观察的特征，大大提高了图像的识别和处理能力。

目前，一些银行已经提供了财务机器人、聊天机器人等设施来帮助客户了解和选择理财产品，甚至可以自动处理客户请求。这些产品显著的特点是可以进行语音识别、与人类自主对话。在神经网络中，循环神经网络这一类神经网络擅长自然语言处理和语音识别问题。人类的语言是由词语组成，且词与词之间有着先后顺序的联系。因此在分词操作后，一句话可以转化为有时间顺序的特征序列。与其他神经网络不同的是，循环神经网络中位于同一层的神经元是有连接的，因此网络中的输入和输出不再是相互独立的，特征的传递不仅取决于当前时刻的输入，还受到之前时刻特征输入与输出的影响。因此循环神经网络擅长处理以时间序列为输入的问题，在识别与处理人类语言的问题上有着较好的表现。

三、支持向量机

支持向量机是一种有监督的非线性分类器。他的算法思想是找到能够正确划分训练数据集并且几何间隔最大的分离超平面的全局最优解。支持向量机算法具备着如下特点，使得其在金融行业能够得到很好的应用。首先，支持向量机的分类不是绝对的，他可以在一定程度上容忍较小误差，被称为软间隔。这种软间隔的设置有利于提高此算法的泛化能力。同时，支持向量机使用了核函数来确保分类超平面的存在。在复杂的现实任务中，线性平面很可能并不能很好的完成分类。此时使用核函数将非线性化的样本特征从原始空间映射到一个更高维的特征空间，使得样本在另外一个空间中线性可分。因此，支持向量机擅长复杂高维数据的分类问题。

支持向量机分类功能强大，在金融行业的应用十分广泛。由于数据泄露事件越来越常见，欺诈已成为银行和信用卡公司面临的主要问题。由于数据量巨大，人工手动鉴别欺诈行为显然不存在可行性，这时便需要求助机器学习算法。而欺诈检测实际上是一个将交易分为非欺诈行为和欺诈行为的分类问题，因此支持向量机算法特别适合用于进行欺诈检测。他的实现过程也很简单。首先，我们需要基于一个欺诈与非欺诈都存在的已知样本集训练出一个检测模型。接着将待检测交易的数据提取特征后输入基于支持向量机的检测模型中，计算机就可以以极快的速度进行大量交易的检测，完成人力所不能及的工作。

支持向量机在贷款判定和保险承保方面也大有用武之地。传统的银行与保险公司在对客户进行鉴定时，通常是线性思维且考虑的信息个数与种类较少。而在如今的信息时代，一个客户的信息可能达到成千上万条，对客户的线性分类也不再符合信息多元化的要求。此时支持向量机可以代替人工对客户进行快速鉴定。首先在分类方式上，将客户分类为忠诚客户和非忠诚客户。使用支持向量机方法，将原始空间中的信息映射到高纬特征空间后，根据已分类训练集找到能够尽可能将两种客户区分开来的结构模型。这样就可以实现计算机自动完成客户的精确分类与鉴定。

参考文献：

[1]严蔚敏，李冬梅，吴伟民.数据结构（C语言版）[J].计算机教育，No.168（12）.

[2]周志华，机器学习[M].北京.清华大学出版社，2016：73-95.

[3]吴玉轩.机器学习算法在金融市场风险预测中的应用[J].信息系统工程，2019（2）.

[4]李赟妮.神经网络模型在银行互联网金融反欺诈中的应用探索[J].金融科技时代，2018，No.276（08）：24-28.

[5]王雅静.银行个人客户信用评分模型研究——基于决策树算法[J].现代商贸工业，2015，36（19）：64-65.

[6]West D.Neural network credit scoring models[J].Computers & Operations Research，2000，27（11-12）：1131-1152.

作者單位：武汉大学党委研究生工作部