基于深度学习的智能交易Agent的交易行为研究

2018-03-21胡前芳李保坤

统计与决策 2018年2期

胡前芳，李保坤

（西南财经大学统计学院，成都611130）

0 引言

一个证券市场的表现是该证券市场的制度结构、市场环境以及交易者行为的综合结果。其中交易者行为的多样性使之成为市场发展变化最关键也是最复杂的因素，在不能实现对众多交易者进行实时调查的情况下，通过计算机程序模拟交易进行市场交易行为研究成为必然。关于证券市场最初的模拟市场研究是在一个给定的竞争市场环境下，市场中每个交易者给予一定的资本，根据不同的市场设置，研究怎样有效实现其资源分配功能（Davis（1993）等），但是模拟市场始终没有充分考虑市场交易者行为因素。

基于Agent的（仿真交易者）模型（ABM）可以克服模拟市场的一些理论和实验方案的局限性。第一个人工股票市场（SFI-ASM）是由Santa Fe研究所于1989年研究在复杂系统中具有自适应能力的Agent的交互能否形成市场中预期的均衡而建立的，随后研究员Arthur等在此基础上建立了一系列人工股票市场，扩展了研究范围。该系列市场的建立基于不完全理性、非线性、非均衡以及非有效等概念，在这系列模型中，只需要调整一个参数就可以自动得到股票市场的很多结论。自此以复杂自适应系统为理论基础的ABM在金融领域应用研究不胜枚举。

本文Agent的设定是在深度学习的基础上融合了行为金融学，比一般的agent更接近真实交易者。模型中Agent在决策过程中分别拥有个人学习和社会学习两种机制。设定的Agent之间的学习能力与学习速度并不完全一样，不同的学习能力、不同的学习速度、不同的社交网络的组合构成完整的股票市场交易人员。对于第二个问题的研究，本文将在人工股票市场中得到的结论运用于中国股票市场，在人工股票市场中将完全按照中国股票市场的交易机制与市场环境设置，将相应的结果与真实市场的股票价格变化情况进行对比。

1 实验设计

本文的实验设计包括如下部分：整体市场结构、交易机制、Agent类型及其学习算法。

1.1 市场结构与交易机制

本文模拟一个撮合交易市场，该市场包含两类资产：无风险的现金和有风险的股票。其中现金的供应无限，且现金利率为rt,cash。股票总量等于所有Agent初始禀赋之和，每股交易成本率为ct，只要交易活动发生，双方均产生交易费用，股票无股息或红利等，Agent只能根据股票的买卖获取收益，现金利率与交易成本率提前公布。模拟期内包含1000个交易日，每个交易日分为80个小交易区间，相邻交易日相隔3个小交易区间。任何交易都只能在交易时段内进行，市场信息通过市场价格的变化或Agent之间的关系传递。

本文采用中国股票市场的交易机制：集合竞价与连续竞价。在价格方面遵循“价格优先时间优先”原则，在交易量方面采用“逐笔交易处理”原则。在每个交易期结束,Agent根据自身对下期收益率的预测决定自己下期股票的买入或卖出量。在该市场中，没有借贷与卖空机制。在每一次的实验中，交易者的禀赋只在初始交易时设置，在之后的交易中不再重新设定，每次实验进行1000次模拟，根据该系列实验逐步得到结论。

1.2 Agent

市场中的Agent都智能，他们都是用策略集来表示，不同之处在于各自的学习方式以及学习能力的不同。本文考虑三种不同的学习方式，在预训练过程中都采用去噪自编码器（DAE），在微调过程分别采用Logistic回归模型、决策树、神经网络。通过DAE的训练层数、最后一层特征数以及微调模型参数的不同可将每大类学习方式分为多个小类，至此Agent之间的学习能力与学习速度并不完全一样，不同的学习能力、不同的学习速度组合构成完整的股票市场交易人员。

1.3 深度学习

自动编码器网络结构如图1所示，包含以下主要部分：

图1 自动编码器（AE）网络结构图

x：无标签的输入样本集。

f：编码器，输入样本集在编码器的作用下转换成隐藏层的变量。

h：隐藏层变量，h=fθ(x)=sf(Wx+b)，编码网络的激活函数为sf，参数θ={W,b}，W是一个m×n的矩阵，b是一个含n个元素的向量。

g：解码器，隐藏层的变量通过解码器转换成一种重构的输入样本集。

r：输出层变量，r=g0,x=sg(W′x+b′)，解码网络的激活函数为sg，参数θ′={W′,b′}，W′是一个n×m的矩阵，b′是一个含n个元素的向量。

DAE的核心思想是在AE的基础上，训练数据加入噪声，通过学习去除这种噪声而获得真正的没有被噪声污染过的输入。这使编码器去学习输入信号的更加鲁棒的表达，也是DAE泛化能力比一般编码器强的原因。具体过程是先对输入样本集x按照二项随机隐藏噪声qD分布加入随机噪声变成含噪声的输入样本集x′，即x′～qD(x′|x)，然后通过损失函数完成DAE的训练。详细过程如图2所示。

图2 去噪自动编码器（DAE）网络结构图

如图3所示，深度学习由预训练过程与微调过程形成，在预训练过程中，本文使用的DAE，多个DAE经过层层训练之后得到最后的特征提取向量hN。在微调的时候，将特征提取向量hN作为训练的输入变量，经过微调之后得到最后的输出值y′。将深度学习输出与原始输出不断对比，然后调整，如此循环得出最接近原始输出的深度学习输出规则。

图3 深度学习网络结构图

1.4 市场参数设置

表1列出了前述基于人工智能Agent模型的股票市场运行时的参数具体设置。

表1 市场参数设置

2 仿真实验分析

2.1 相关度量的界定

为了更好地研究市场交易行为变化，本文提出上涨力量、下跌力量、集中趋势以及离散程度指标分析市场交易者以及整体市场的交易行为。

上涨力量即整个市场中Agent提交的买入订单促使股价上涨的综合力量，下跌力量即整个市场中Agent提交的卖出订单促使股价下跌的综合力量。集中趋势在统计学中是对频数分布资料的集中状况和平均水平的综合测度，即一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在，采用算数平均数进行测度。离散程度与集中趋势相反，是实验分析上表达误差大小的参数，在统计学上描述观测值偏离中心位置的趋势，反映了所有观测值偏离中心的分布情况，采用标准差计量。本文将分析市场每时每刻的上涨力量以及下跌力量的集中趋势与离散程度，通过对比两种力量的两种指标的变化趋势分析市场整体交易趋势的具体情况。其计算步骤如下：第一步，记录所有Agent在每个交易日的订单提交情况，假定每个交易日只有5个交易时段，第i个Agent在第j个交易日的订单提交情况是Aij=[0,0,10,0,]，表示该交易者在该交易日的第3个交易时段以市价提交了10单位的买单，Aij=[0,-21,0,0,0]表示该交易者在该交易日的第2个交易时段以市价提交了21单位的卖单。第二步，记录每个交易日的每个交易时段市场价格变化量，如第j个交易日的价格变化情况为△pj=[-2,3,2,-1,2]表示在第1、4个交易时段内股价分别下跌了2、1个单位，第2、3、5个交易时段内股价分别上涨了3、2、2个单位。第三步，加总所有Agent在相应交易日的订单提交情况，根据订单的方向确定订单力量，如果对应时间内的订单为正表明整体力量向上涨方向移动，记为上涨力量，反之向下跌方向移动记为下跌力量。如在第j个交易日所有Agent订单加总为Aj=[-100,50,58,-46,91]。那么该交易日的上涨力量为Uj=[0,3,2,0,2]，下跌力量为Uj=[-2,0,0,1,0]，整个交易日的上涨下跌综合力量分别是9和-3。第四步，通过以上三步记录所有交易日的上涨下跌综合力量，与一般的统计方法相似，集中趋势用相应数据均值代替，离散程度用方差表示，根据设定交易期的长短分别计算上下跌的集中趋势与离散程度。

上涨综合力量与下跌综合力量表示市场在Agent的不同订单作用下的市场面结果：上涨综合力量的值一般情况下为正，其值越大表示市场Agent通过买单将股价向上推得越高；下跌综合力量的值一般情况下为负，其绝对值越大表示市场Agent通过卖单将股价下拉越低。理论上每个交易日股价是整个交易日上涨综合力量与下跌综合力量的较量结果，即股价变化量与上涨综合力量和下跌综合力量都相关。在两种力量的基础上计算出的集中趋势是市场Agent订单运行方向，上涨集中趋势向上表明市场买单运行在上升通道，下跌集中趋势向下增加表明市场卖单趋势运行在上升通道。订单运行趋势一旦形成，将在一段时间内继续保持。而离散程度越大表明市场Agent在决策时摇摆不定，在这种情况下市场很容易出现大的波动，要具体确认市场变化情况需要综合市场上涨下跌的集中趋势与离散程度。

2.2 人工股票市场训练样本结果

仿真实验首先随机产生200个交易期内的交易数据，随后仿真Agent根据“历史数据”进行分析与决策，在Agent的决策下得到仿真股价的变化情况。每个实验经过1000次仿真，得到如下结果，由于篇幅有限，图4是具有代表性的实验一的实验结果，实验二到实验六的结果类似，在此不一一描述。图4中(a)表示实验一中具有代表性的股价时间序列，(b)是通过跟踪市场所有Agent交易记录所得的市场总上涨力量与下跌力量的时间序列，(c)表示相应股价收益时间序列图，通过市场总力量与市场收益之间的差值得到实验误差时间序列图(d)，(e)与(f)分别表示市场中两种力量的集中趋势与离散程度的对比图，通过该图可以了解市场Agent整体交易行为的变化情况。

图4 具有代表性的实验一的结果

（1）Agent整体交易行为与股市一般风险的关系

第一，当市场中上涨力量大于下降力量的绝对值时，下一交易日的收益为正，即股价上涨；反之当市场中上涨力量小于下降力量的绝对值时，下一交易日的收益为负，即股价下跌。理论上，每个交易日的收益是该交易日上涨力量与下跌力量的综合对比，因此当上涨力量大于下跌力量时，相应时期内的收益为正，反之为负。在实验一中得到的结果符合预期，图4中(d)的误差值为(b)中的上涨综合力量与下跌综合力量之和与(c)中市场收益时间序列之差，误差基本在±6内，极少数误差超出6，但都在±8之内，该结果与理论很一致，由于实验一的市场设定相对于实际市场更“理想”，该结论的实用性需要实际市场交易数据的进一步实证检验。

第二，相邻几个交易日的上涨力量与下跌力量的变化趋势相反。图4(a)中实验一的股价变化序列可以看做连续变化，相应地，市场Agent在买卖单的决定上也应该是平缓变化，所以买单、卖单的趋势变化应该相反。而实验一也正好验证了这一理论，图4(b)中上涨力量增大时，下跌力量的值越来越小，反之亦然，图4(b)中该现象很明显。

上涨力量与下跌力量的变化在实验一设定的理想环境下的变化相反，但在实际市场中，条件并没有实验中理想，比如存在股价操纵、内幕交易等现象，买单卖单的变化并不完全相反变化。因此在实际中，买单卖单的变化出现不一致的情况一般情况下可以判断为市场出现了异常，该结果可由真实市场数据检验。

（2）Agent交易行为与牛市风险的关系

无论在长期还是短期，股票市场都是上涨与下跌更替出现，不断循环反复，即牛市与熊市不断更替。在股市自然发生的状态下，Agent最大的损失主要发生在每次牛市到顶后的下坡阶段，其次是爬坡阶段的转换也可能发生较大损失，造成这类损失的风险就称为牛市风险。

如图4（e）与（f）所示，在上涨和横盘的过程中，当市场中Agent上涨力量与下跌力量的离散程度变大，且各自的集中趋势越来越小时，牛市风险越来越大。如从（f）图看出上涨力量与下跌力量的离散程度同时变大的时段有6处：第40～50个交易日；第112～120个交易日；第201～213个交易日；第331～350个交易日；第600～610个交易日；第770～780个交易日。（e）图中两股力量的集中趋势同时越来越小的交易时段有：第201～213个交易日；第331～350个交易日；第600～610个交易日；第770～780个交易日。集中趋势递减的阶段与离散程度递增的阶段重合期间共5个，刚好对应人工股票市场中股价牛市阶段的重要转折点（对应图4(a)）。在理论上这与真实市场行情一致。在牛市行情的操作犹如刀口舐血，暴涨暴跌的现象屡有可见,如果短线操作成功的话会大有斩获。但是一般投资人大多在此阶段惨遭亏损,甚至落得倾家荡产的局面，因此在该阶段如果能识别出股市风险的变化至关重要。在牛市阶段很多Agent手中大多拥有股票,以期待着股价进一步上升，但是股价的涨升却显得步履蹒跚，即集中趋势慢慢减弱。此情此景很多投资者开始摇摆不定，造成市场两股力量离散程度越来越大。由于实验一的市场设定相对于实际市场更“理想”，该结论的实用性需要实际市场交易数据的进一步实证检验。

（3）Agent交易行为与熊市风险之间的关系

在股市自然发生的状态下，Agent想要得到最大收益，就必须把握住熊市底部阶段，其次是爬坡阶段的转换也可能得到很大收益，需要把握住的这类风险变化就称为熊市风险。如图4(a)与(e)所示，Agent交易行为与熊市反弹之间的关系是：当市场处于熊市一段时间之后，如果基于Agent的上涨力量与下跌力量的集中趋势都慢慢变大，那么熊市开始反弹。理论上，在熊市的行情时持续屡创低价，在该阶段愿意投资的Agent甚低。当该低迷期持续一段时间之后，股价已跌至不合理的低价了，在此时买进的Agent因成本极低再跌有限,大多不轻易卖出,而高价套牢未卖的Agent,因亏损已多,也不再追价求售,市场卖压大为减轻。部分Agent开始较积极的买进股票进行短线操作,但也有不少自认精明的Agent及尝到未跌段做空小甜头的Agent,仍予套现卖出。该期股票上涨的速度虽嫌缓慢,但却是真正可买进作长期投资的时候,即为一般认为熊市开始反弹了。如图4(e)中的两股力量的集中趋势由小变大的阶段分别为：第40～50个交易日；第240～250个交易日；第550～560个交易日；第640～650个交易日；第730～740个交易日。集中趋势递增的阶段刚好对应人工股票市场中股价熊市阶段的重要转折点（对应图4(a)）。由于实验一的市场设定相对于实际市场更“理想”，该结论的实用性需要实际市场交易数据的进一步实证检验。

3 实证分析

在人工股票市场模拟部分，分别模拟了四种实验中不同比例下Agent决策行为对市场趋势的影响。为了验证四个不同实验条件哪个能更符合真实市场具体情况，本文运用上证综指1999年3月17日到2015年12月31日的1分钟交易数据进行反向验证，其中1999年的市场交易数据是最开始的训练样本，因此得到的收益从2000年开始，得到下页表2的结果。

如表2的结果所示，在这16年中，上证综指的收益为2.59，而四种不同的实验设置下的收益分别是：15.24、3.21、5.89、4.09，三种实验环的设置在上证综指的运用上都能得到比大盘本身更好的收益。对于市场中只存在一大类投资者的情况，在不同的时间表现结果并不一致，没有一类实验能在每年都表现得最好。该结果说明现实市场中不止一类Agent存在，且每类Agent的比例一直在变化，因为只有Agent比例占绝对优势时，预测结果才能完全正确。实验一的三大类Agent比例为3：3：4，类似均分，正是因为在实验中固定了三大类比例，才得到了表3的结果。在16年内实验一的收益是15.24，远远大于2.59，这说明实验一相较于其他3个实验而言，能够很好地预测出市场趋势的变化，实验一的条件设置更接近真实市场情况。

表2 上证综指实证结果比较

为了更加直观地观察实验一在实际市场中的表现情况，通过图展示结果更加直观。图视的结果在交易时间越短越清晰。本文以上证综指为例，大盘行情是整个市场状态的反应，在细节上的变化没有单个证券多，但很具有代表性。样本数据是历史一分钟交易数据，该数据时间范围为：2013年1月1日到2016年12月30日，共971个交易日，233040个样本交易数据。之所以选择该段时间作为样本期间，因为中国股市在2015年牛市到来之前经历了长达7年的熊市，在熊市期间内市场总是不温不火，没有多大变化，将所有时间内的样本包含在内研究的意义并不大。本文选择的样本交易时间刚好包含了一个完整的牛熊转换，且在该样本期内还包含很多小波段的变化，很具有代表性。样本成交数据主要包括：开盘价、收盘价、最高价、最低价以及交易量。采用通信达的前复权数据。

图5(a)是2014年1月2日到2016年12月30日上证综指日收盘价，2013年整年的数据作为深度学习初始训练样本，因此能得到2014—2016年上证综指相关的上涨力量与下跌力量以及它们的均值、方差，如图5(b)至(d)。下面将一一验证人工股票市场得到的基本结论。

（1）牛市风险识别

上证综指在样本区间内的变化异常活跃，主要上涨及调整波段有：2014年1月直接上涨至2015年1月，经过一小段时间的调整后，在2015年4月有所动摇，随后一路上扬至2015年6月的最高点。而在所有前述上涨波段或者调整波段的后期，市场上涨力量与下跌力量的表现都与人工股票市场中的结论一致。如图5(c)与(d)中，在2015年1月时，上涨力量与下跌力量的集中趋势越来越大，对应的两股力量的离散程度非常明显地凸显出来。在2015年4月两股力量的集中趋势与离散程度都比1月时候更加明显，此时的离散程度，双方都突破1000，上涨力量集中趋势变小，下跌力量的集中趋势反方向变小形成汇合状态。2015年6月的两股力量离散程度突破5000，是样本期间内最高点，对应的上涨力量突然下降，下跌力量绝对值也变小。如图5所示，2015年8月与年底时，两股力量的变化依然是：上涨力量与下跌力量的离散程度变大，且各自的集中趋势越来越小。

图5 上证综指实证结果

（2）熊市反弹识别

除了上涨波段剩下的就是下跌波段，如图5(b)所示，在2015年3月底、6月以及8月的时候，上证综指的上涨力量与下跌力量的绝对值都明显处于上涨阶段，且两股力量的集中趋势也越来越明显，二者之间的变化趋势非常一致。这与人工股票市场得到的结论一致。

（3）市场一般风险的识别

在正常的股票市场中，如果上涨力量大于下跌力量，那么股价应该上涨。而且上涨力量集中趋势与下降力量集中趋势也应该相反。该结论也同样适用于中国股票市场，在上证综指的检验中可以看出。结合图5中(a)、(b)，相对于整个区间的上涨力量与下跌力量的大小变化情况而言，2014年1月与2014年7月之间，上涨力量与下跌力量相互纠缠，很少存在上涨力量持续大于下跌力量的情况，也很少出现下跌力量持续大于上涨力量的情况。同时在该段时间内，上涨力量与下跌力量的集中趋势、离散程度都小，整个上证综指的变化很微妙，基本处于盘整状态，市场很不活跃，上证综指收盘价几乎呈水平状态。2014年7月到2015年6月这段时间内，上证综指的上涨力量总趋势上慢慢变大，下跌力量也慢慢减弱，上涨力量与下跌力量之间的差异也越来越明显，特别是该段时间内两股力量的离散程度变化异常大。市场在该段时间越来越活跃，在交易意愿上上涨，因此在上证综指的收盘价上体现出上涨的趋势。2015年7月到2015年8月的时间内，初期下跌力量非常大，中期上涨力量很足，后期下跌力量与上涨力量不相上下，加之股价已上涨到很高水平，所以上证综指的收盘价下降幅度很大。在2015年8月到2016年1月之间，上涨力量大于下跌力量，但是上涨力量的相对大小并不明显，所以该段时间内，上证综指收盘价呈上涨趋势，但上涨非常缓慢。随后又下降，最后回到了震荡时期。综上分析，在长期趋势交易中，上证综指的上涨力量与下跌力量的变化关系与上证综指价格变化在大体上非常吻合。这符合模拟人工股票市场模型得到的结论。

4 结论

本文在深度学习算法基础上融合行为金融学理论模拟了采用集合竞价与连续竞价相结合的人工股票市场。一方面，不同投资者在面临各种信息冲击时会有各自特有的反应，不同投资者根据其自身反应做出不同的投资决策。而以上模拟结果是在没有任何假设条件下得到的，因此具有一般性。另一方面，将模拟结果用上证综指进行实证检验结果表明本文模型非常接近真实市场。

根据人工股票市场以及上证综指实际数据，可得市场主要表现与市场Agent交易行为密切相关，主要有：

（1）Agent交易行为与牛市风险的关系：在上涨和横盘的过程中，如果市场中Agent的上涨力量与下跌力量的离散程度变大，且各自的集中趋势越来越小，那么发生较大损失的概率非常高。

（2）Agent交易行为与熊市反弹之间的关系：当市场处于熊市一段时间之后，如果基于Agent的上涨力量与下跌力量的集中趋势都慢慢变大，那么熊市开始反弹。

（3）Agent交易行为与股市一般风险的关系：在正常的股票市场中，如果上涨力量大于下跌力量，那么股价应该上涨，而且上涨力量集中趋势与下跌力量集中趋势的变化结果也类似。

[1]Becker G S.Irrational Behavior and Economic Theory[J].Journal of Political Economy,1962,(70).

[2]Davis D D,Holt C A.Experimental Economics:Methods,Problems,and Promise[J].Estudios Económicos,1993,(8).

[3]Gode D K,Sunder S.Allocative Efficiency of Markets With Zero-Intelligence Traders:Market as a Partial Substitute for Individual Rationality[J].Journal of Political Economy,1993,(101)

[4]Chen S H,Liao C C.Agent-based Computational Modeling of the Stock Price-volume Relation[J].Information Sciences,2005,170(1).

[5]Anufriev M,Arifovic J,Ledyard J,et al.Efficiency of Continuous Double Auctions Under Individual Evolutionary Learning With Full or Limited Information[J].Journal of Evolutionary Economics,2013,23(3).

[6]Hommes C H.Chapter 23 Heterogeneous Agent Models in Economics and Finance[J].Handbook of Computational Economics,2006,(2).

[7]Bottazzi G,Dosi G,Rebesco I.Institutional Architectures and Behavioral Ecologies in the Dynamics of Financial Markets[J].Journal of Mathematical Economics,2005,(41).

[8]Chen S H,Yeh C H.Evolving Traders and the Business School With Genetic Programming:A New Architecture of the Agent-based Artificial Stock Market[J].Journal of Economic Dynamics&Control,2001,(25).

[9]Kluger B D,Mcbride M E.Intraday Trading Patterns in an Intelligent Autonomous Agent-based Stock Market[J].Journal of Economic Behavior&Organization,2011,79(3).

[10]Lebaron B.Agent-based Computational Finance:Suggested Readings and Early Research[J].Journal of Economic Dynamics&Control,2000,(24).

[11]Girvan M,Newman M E J.Community Structure in Social and Biological Networks.[J].Proceedings of the National Academy of Sciences of the United States of America,2001,99(12).