大数据与人工智能背景下的实验经济学未来展望*

2022-10-22王云

学术研究 2022年3期

王云

党的十九大报告指出，我国经济已由高速增长阶段转向高质量发展阶段。经济的高质量发展依托于市场有效运行的微观基础，政策制定者需要深刻理解市场主体的行为、选择与动因，亦需要在实证证据的支撑之下进行恰当的激励机制设计和政策评估。近五十年来逐渐成熟和兴盛的实验经济学通过拓展经典微观理论和利用随机可控实验方法，为政策制定者提供了重要的分析工具和决策辅助。随着数字经济的兴起与发展，基于人工智能技术、互联网和移动互联网的经济活动及其所产生的大数据，为经济学各领域的研究都带来了新的机遇与挑战，也为政策制定者和监管部门观测和分析微观市场主体的行为提供了更为完善的数据支持。在近年的文献中，大数据和机器学习算法对经济学、统计学等相关学科的影响亦得到了学者们的关注，首当其冲的是关注方法上的改进与数据科学的变革。aSendhil Mullainathan,Jann Spiess,“Machine Learning:An Applied Econometric Approach”,The Journal of Economic Perspectives,vol.31,no.2,2017,pp.87-106；洪永淼、汪寿阳：《大数据、机器学习与统计学：挑战与机遇》，《计量经济学报》2021 年第1 期。同时，人工智能技术的广泛运用也对金融决策、产业组织、创新与生产力变革、劳动力市场与就业、收入分配与不平等、经济增长等领域的研究产生了深刻的影响。bAjay Agrawal,Joshua S.Gans,Avi Goldfarb,“Artificial Intelligence:The Ambiguous Labor Market Impact of Automating Prediction”,The Journal of Economic Perspectives,vol.33,no.2,2019,pp.31-50;Aaron Chalfin,Oren Danieli,Andrew Hillis,Zubin Jelveh,Michael Luca,Jens Ludwig,Sendhil Mullainathan,“Productivity and Selection of Human Capital with Machine Learning”,The American Economic Review,vol.106,no.5,2016,pp.124-127;Isil Erel,Léa H.Stern,Chenhao Tan,Michael S.Weisbach,“Selecting Directors Using Machine Learning”,The Review of Financial Studies,vol.34,no.7,2021,pp.3226-3264.Camerer（2019）总结并讨论了人工智能对行为经济学研究的影响，aColin F.Camerer,“Artificial Intelligence and Behavioral Economics”,In Avi Goldfarb,Joshua Gans and Ajay Agrawal,The Economics of Artificial Intelligence:An Agenda,University of Chicago Press,2019,pp.587-608.但随着人工智能技术更广泛地被应用，相关的实验经济学研究有了更多进展，需要更为系统性的讨论。国内文献对这一前沿问题的讨论方兴未艾，本文拟立足于实验经济学形成与发展中的核心要点，评述近年来运用机器学习算法或人工智能技术的相关实验研究。

一、实验经济学形成和发展中的核心要点

在20 世纪70 年代前后，微观经济学研究开始系统性地将心理、认知、情绪等因素引入决策论的分析框架中，实验经济学则紧随其后，提供了可控环境下关于个人选择的大量实证证据。在此后几十年间的发展过程中，实验经济学帮助微观经济学者检验和拓展理论模型，使其能更全面地解释人们的真实行为尤其是人在经济或者其他形式的激励之下的选择模式。它也帮助应用经济学家和政策制定者观察人们对于经济社会政策的反应，促进有效的政策评估、市场设计和行为干预。

实验经济学的核心要点之一，是为经济理论提供实证检验和理论拓展。早期的实验主要是对新古典微观框架无法解释的行为偏离进行现象性的描述，学者们称之为“异象”（anomalies）。b那艺、贺京同：《行为经济学的兴起及其与新古典经济学关系的演变》，《中国社会科学》2019 年第5 期。而随着实验研究范式逐渐成熟，学者们更侧重从实验中观察到的系统性偏离中总结规律，并形成新的行为理论基础。在实验设计中，他们不是简单利用经典模型，而是根据所关注的问题来设定实验环境和激励方式，并依具体问题来分析处置效应。c包特、王国成、戴芸：《面向未来的实验经济学：文献述评与前景展望》，《管理世界》2020 年第7 期。比如，Kahneman 和Tversky 的一系列关于不确定性下个体选择与其系统性偏误的研究，开启了学界对于非期望效用函数（non-expected utility）的讨论，启发了决策论中包含参照依赖的个人损失厌恶偏好和以概率加权函数来描述的主观概率偏误，并最终成为前景理论的两个主要组成部分。dAmos Tversky,Daniel Kahneman,“Judgment under Uncertainty:Heuristics and Biases”,Science,vol.185,no.4157,1974,pp.1124-1131;Amos Tversky,Daniel Kahneman,“Prospect Theory:An Analysis of Decision under Risk”,Econometrica,vol.47,no.2,1979,pp.263-291.又比如，在大量博弈实验中研究者发现，基于“理性人”假设的个人收益最大化框架无法解释实验室数据中所观察到的偏离均衡的选择，如最后通牒博弈中被试拒绝收益不平等的分配方案、eWerner Güth,Reinhard Tietz,“Ultimatum Bargaining Behavior:A Survey and Comparison of Experimental Results”,Journal of Economic Psychology,vol.11,no.3,1990,pp.417-449.独裁者实验中独裁者往往选择不独占全部收益、fRobert Forsythe,Joel L.Horowitz,N.E.Savin,Martin Sefton,“Fairness in Simple Bargaining Experiments”,Games and Economic Behavior,vol.6,no.3,1994,pp.347-369;Elizabeth Hoffman,Kevin McCabe,Keith Shachat,Vernon Smith,“Preferences,Property Rights,and Anonymity in Bargaining Games”,Games and Economic Behavior,vol.7,no.3,1994,pp.346-380.信任博弈中双方更倾向于促进社会效益且更为公平分配的投资和回报行为、gJoyce Berg,John Dickhaut,Kevin McCabe,“Trust,Reciprocity,and Social History”,Games and Economic Behavior,vol.10,no.1,1995,pp.122-142;Ben-Ner Avner,Freyr Halldorsson,“Trusting and Trustworthiness:What Are They,How to Measure Them,and What Affects Them”,Journal of Economic Psychology,vol.31,no.1,2010,pp.64-79.线性公共物品博弈中成员的贡献值普遍性地高于均衡水平等。hMark R.Isaac,James M.Walker,“Group Size Effects in Public Goods Provision:The Voluntary Contributions Mechanism”,The Quarterly Journal of Economics,vol.103,no.1,1988,pp.179-199;James Andreoni,“Why Free Ride?:Strategies and Learning in Public Goods Experiments”,Journal of Public Economics,vol.37,no.3,1988,pp.291-304.这催生了社会偏好理论（social preferences）。学者们在传统微观理论的效用最大化框架中引入了表示亲社会性偏好的效用形式，涵盖了公平、友善、互利互损、不平等厌恶偏好、社会福利偏好等更为广泛的人们的社会性动机。i陈叶烽、叶航、汪丁丁：《超越经济人的社会偏好理论：一个基于实验经济学的综述》，《南开经济研究》2012 年第1 期；David J.Cooper,John H.Kagel,“Other-Regarding Preferences:A Selective Survey of Experimental Results”,In Alvin E.Roth,John H.Kagel,The Handbook of Experimental Economics,Elsevier,2017.这些理论拓展也为应用微观经济学的研究者们提供了理解市场主体行为、解释实证数据的实用性工具。

实验经济学的第二个核心要点，在于其对政策评估、政策设计和行为干预的辅助。这与20 世纪90年代以来实地实验（field experiment）的兴起与广泛应用密不可分，也为发展经济学的政策效果评估提供了重要的方法论革新。a罗俊、汪丁丁、叶航、陈叶烽：《走向真实世界的实验经济学——田野实验研究综述》，《经济学（季刊）》2015年第3 期；陆方文：《随机实地实验：方法、趋势和展望》，《经济评论》2017 年第4 期；Esther Duflo,Abhijit Banerjee,Handbook of Field Experiments Volume 2,Elsevier,2017。政策评估困难的一个原因在于参与者的自我选择导致的内生性。而通过随机控制实验（randomized controlled trial）得到的数据干净、可控，能够很好地避免内生性问题，有助于作出因果关系的科学推断。实地实验的范围和规模都可控，能够以较小的社会成本，与其他经济学实证方法相辅相成，在事前、事中、事后评估等政策评估的不同阶段有机结合并发挥作用。b洪永淼：《运用经济学新成果促进政策优化》，《人民日报》2019 年2 月25 日。除了政策评估，实地实验对政策设计和行为干预的作用也同等重要。现实中人们的决策受到认知、情绪、社会文化等因素影响而偏离“理性”选择，同时这些因素复杂多变，要衡量一项政策干预能否长期有效，则需要实地实验的帮助来观察重复性、系统性的行为和选择偏误，有针对性地进行助推（nudge）。cRichard H.Thaler,Cass R.Sunstein,Nudge:Improving Decisions about Health,Wealth,and Happiness.New Haven,CT:Yale University Press,2004;Michael Kremer,Gautam Rao,Frank Schilbach,“Behavioral Development Economics”,In B.Douglas Bernheim,Stefano DellaVigna,David Laibson (eds.).Handbook of Behavioral Economics:Foundations and Applications 1,vol.2,Amsterdam:Elsevier,2019,pp.345-458.比如，美国麻省理工学院的3 位经济学教授2003 年创建的贫困行动实验室（Abdul Latif Jameel Poverty Action Lab），是利用实地实验方法进行政策设计的一个典范。该实验室与政府机构和非盈利组织合作，围绕科学研究、研究成果向政策的转化、教育与培训等，采用随机可控实验的方法寻求不发达地区贫困问题的解决方案。再比如，Abhijit Banerjee 等研究者的一系列在发展中国家乡村的实地实验就通过改变物质激励的形式、大小、补贴模式等，来鼓励疾病防控和免疫性接种，鼓励村民通过小额信贷来经营生意。dAbhijit Banerjee,Rukmini Banerji,James Berry,Esther Duflo,Harini Kannan,Shobhini Mukerji,Marc Shotland,Michael Walton,“From Proof of Concept to Scalable Policies:Challenges and Solutions,with an Application”,The Journal of Economic Perspectives,vol.31,no.4,2017,pp.73-102;Abhijit Banerjee,Esther Duflo,Richard Hornbeck,“How Much Do Existing Borrowers Value Microfinance? Evidence from an Experiment on Bundling Microcredit and Insurance”,Economica,vol.85,no.340,2018,pp.671-700.这些实地实验为经济学家合理干预微观个体行为选择、改进激励机制设计提供了可信的实证数据，也为政策制定者从教育、健康、小微金融等方面有针对性地对特定收入群体进行精准扶贫提供了科学的方法论支撑。

二、实验经济学所面临的问题与局限

随着实验经济学的繁荣，其关注点从一开始侧重理论拓展，发展到近年来对应用微观、发展经济学等领域的广泛渗透。但Thaler（2016）认为，目前的实验经济学仍存在困境，研究者寄希望于只采用一种分析范式，即传统微观的“最优化分析”框架，去达到“刻画人们最优的选择”和“预测人们真实的行为”这两个截然不同的目的。“预测”这一目的本应通过对实证研究中观察到的行为数据进行统计学的假设检验而达到。eRichard H.Thaler,“Behavioral Economics:Past,Present,and Future”,The American Economic Review,vol.106,no.7,2016,pp.1577-1600.因此，如何关注影响行为的变量、所关注变量的稳定性与其效果的可复制性、大规模数据的可控性与噪音等问题，成为了研究者需要寻求突破的几个方面。

第一个问题是实验经济学家应如何处理心理、认知、情绪等因素并分析其对行为的影响，而不仅仅是将这些因素杂糅在一起，笼统地将之放入心理学因素的“黑箱”之中。fMagda Osman,“Behavioral Economics:Where Is It Heading?”Psychology,vol.6,no.9,2015,pp.1114-1124.在所谓的非均衡、非理性的选择背后起作用的心理和认知层面的内在机制需要得到研究者更细致的分析，而近年来兴起和发展的认知经济学（cognitive economics）和神经元经济学（neuroeconomics）关注人类决策过程的神经科学基础，就是在此方向上的一个成功的尝试。aColin F.Camerer,George Loewenstein,Drazen Prelec,“Neuroeconomics:How Neuroscience Can Inform Economics”，Journal of Economic Literature，vol.43,no.1,2005，pp.9-64；叶航、汪丁丁、贾拥民：《科学与实证——一个基于“神经元经济学”的综述》，《经济研究》2007 年第1 期。如通过大脑磁共振成像（fMRI）、经颅直流电刺激（tDCS）、经颅磁刺激（TMS）等技术，发现人脑神经系统对收益和损失的信息处理是非对称性的，揭示了损失厌恶和禀赋效应发生的脑神经学机理。b贾拥民、黄达强、郑昊力、罗俊、叶航：《偏好的异质性与一致性——基于损失厌恶和脑刺激的神经经济学研究》，《南方经济》2015 年第5 期；郭文敏、杨思佳、罗俊、叶航：《作为异质性偏好的禀赋效应：来自神经经济学的证据》，《南方经济》2017 年第4 期。又如应用电刺激和磁刺激技术，发现人脑的特定区域在处理社会互动中的信任与可信任行为、信念的形成、推断他人意图动机、道德判断时都发挥了关键作用。c叶航、郑昊力：《信任的偏好与信念及其神经基础》，《社会科学战线》2016 年第6 期；罗俊、叶航、郑昊力、贾拥民、陈姝、黄达强：《左右侧颞顶联合区对道德意图信息加工能力的共同作用——基于经颅直流电刺激技术》，《心理学报》2017 年第2 期。

第二个问题则涉及研究中发现的影响行为因素的稳定性与实验结果的可重复性。实验方法越来越多地被政策设计者使用，并成为干预和促进人们采用合意的行为方式的一种工具，干预效果的可靠性则决定了其是否真正值得推广。Sunstein（2014）将借助实验的助推政策称为“自由家长主义”（libertarian paternalism），即个人行为中表现出的“非理性偏离”如果需要被特定的政策干预，其前提是这些偏离具有系统性，影响它们的变量是清晰且有明确作用机制的。dCass R.Sunstein,Why Nudge:The Politics of Libertarian Paternalism.New Haven,CT:Yale University Press,2014.如果研究者不清楚个体选择是否受到特定环境或暂时性经济因素的影响，而仅仅将其决策偏差归结为个人“无意识的非理性”，那么这种实验并不能有效地解释行为，只是一种“辩解和敷衍”（Thaler，2016）。一个可行的解决方案是，通过大数据及相应的数据挖掘和建模技术来帮助研究者们更有效地利用大规模数据集，对不同时间、各类人群中的信念、偏好、概率判断、情绪等因素的影响进行分析，以此来提高对行为预测的稳定性。ePatrick J.Wolfe,“Making Sense of Big Data”,Proceedings of the National Academy of Sciences of the United States of America,vol.110,2013,pp.18031-18032;Einav Liran,Jonathan Levin,“Economics in the Age of Big Data”,Science,vol.346,no.6210,2014,p.715.

第三个问题是关于大规模线上实验的广泛应用后样本行为的可控性和实验结果的噪音。随着云端服务器的普及，以亚马逊MTurk（Amazon Mechanical Turk）为代表的线上实验平台为实验经济学研究者们提供了极大的便利，每个观测值所需要的成本也更低，但这种便利也带来了一些副作用。Fréchette 等（2021）分析了2010—2019 年间发表在经济学五大顶级期刊的164 篇实验文章，发现在2014 年之前仅有5%的文章涉及线上实验，而在2015—2019 年这个比例达到了23%。fGuillaume R.Fréchette,Kim Sarnoff,Leeat Yariv,“Experimental Economics:Past and Future”,Working Paper,2021.涉及线上实验的文章样本量成倍地高于线下实验的样本量，平均参加人数在2000—10000 之间。与之相应的是对实验设计的简化，线上实验的研究话题更多涉及非博弈互动的决策问题，同时实验中通过逐轮的反馈信息来探讨学习效应的文章也越来越少。实验形式和技术的改进也带来了被试群体异质性增大、被试对实验任务的注意力降低等问题，乃至影响到了实验结果的稳定性。虽然在一些不需要金钱激励的个人决策实验和最基本的博弈实验中，大学生被试和MTurk 上招募的被试表现没有显著差别，gDavid Hauser,Gabriele Paolacci,Jesse Chandler,“Common Concerns with MTurk as a Participant Pool:Evidence and Solutions”,In Handbook of Research Methods in Consumer Psychology.Routledge/Taylor &Francis Group,2019,pp.319-337.但新近的、更大规模的对比实验则发现，当存在金钱激励时，线下实验室的大学生被试、有代表性的美国公民被试和MTurk 上的被试的表现存在显著的差异，非学生群体的行为噪音较大。hEric Snowberg,Leeat Yariv,“Testing the Waters:Behavior across Participant Pools”,American Economic Review,vol.111,no.2,2021,pp.687-719.这种噪音被归因于线上被试的注意力不集中，在利用MTurk 的线上实验中，不同实验参数下的实验处置效应几乎完全不显著，而传统的实验室被试群体的行为则更容易随时间收敛到理论的均衡。aDrew Fudenberg,Alexander Peysakhovich,“Recency,Records,and Recaps:Learning and Nonequilibrium Behavior in a Simple Decision Problem”,ACM Transactions on Economics and Computation（TEAC）,vol.4,no.4,2016,pp.1-18;Nearaja Gupta,Luca Rigotti,Alistair Wilson,“The Experimenters’ Dilemma:Inferential Preferences over Populations”,Working Paper,2021.因此，在进行更低成本的线上实验时，研究者往往面临着收集到噪音更大的大样本、被试注意力不集中而导致的实验结果更不稳定的现实难题。最近几年应用于实验大数据的机器学习算法，在处理随机性较大、噪音较大的数据样本时，能够提高对行为的预测精度，也被认为是一种可行的解决途径（Mullainathan 和Spiess，2017；Camerer，2019）。

三、实验经济学未来可能的突破：来自大数据与人工智能的影响

将人工智能技术引入实验经济学的研究话题是学界最近五年逐渐兴起的热点。人工智能（AI）的概念非常宽泛，广义使用时不仅包括了机器学习、深度学习等算法，而且还包括了对各类大数据的处理。其对经济学实验研究的影响主要可以分为两点。一是相比于传统的以因果推断为目的的实验设计和数据分析，利用大数据和机器学习算法进行数据挖掘和建模的方法更侧重对个体行为的预测；二是人工智能辅助下的决策问题，比如基于个人特征而设计的推荐系统、帮助企业和金融机构进行的对特定人群的识别、帮助政府等公共管理机构进行的公共决策和政策执行等等。

（一）大数据和机器学习方法对影响行为的变量的挖掘

Camerer（2019）认为，机器学习算法对实验经济学的首要贡献是帮助寻找和挖掘影响个人选择的行为变量，以更好理解和预测现实中个体的决策过程。这些被找到的“新”的行为变量很有可能是尚未被微观或是行为理论的数理化模型刻画过的，因此机器学习应用下的实验研究也更加“基于证据”（evidence-based）且有“预测导向”（prediction-oriented）。机器学习模型对噪音较大的数据集往往有更高的预测精度，对数据变异度有更强的解释能力。Peysakhovich 和Naecker（2017）提出，同样是解释10%的变异度，如果针对的是一个较为干净的数据集，那么说明模型的解释能力相当差，但如果在有大量噪音的情况下能够解释10%的变异度，那么说明模型已经表现非常好了。bAlexander Peysakhovich,Jeffrey Naecker,“Using Methods from Machine Learning to Evaluate Behavioral Models of Choice under Risk and Ambiguity”, Journal of Economic Behavior &Organization,vol.133,2017,pp.373-384.

在对线上实验的数据处理中，机器学习模型的表现优于以往文献常用的行为经济模型。Epstein 等（2016）对在Amazon MTurk 平台收集的1067 位美国公民每人20 次独裁者实验的选择数据，利用逻辑岭回归方法（logistic ridge regression）对社会偏好模型的参数进行估计，并评估了经济学实验中常用的社会经济背景变量的样本外预测（out-of-sample prediction）的精度。cZiv Epstein,Alexander Peysakhovich,David G.Rand,“The Good,the Bad,and the Unflinchingly Selfish:Cooperative Decision-Making Can Be Predicted with High Accuracy When Using Only Three Behavioral Types”,Proceedings of the 2016 ACM Conference on Economics and Computation,2016,pp.547-559.估计结果表明，如果采用“代表性个体模型”（representative agent model），即所有被试共用一套社会偏好参数，估计结果的预测精度仅比完全随机猜测略好（AUC=0.69）。dAUC 是“观测者操作特性曲线以下的面积”（“area under the receiver operating characteristic curve”）的简写，用于评估机器学习算法的预测精度：Andrew P.Bradley,“The Use of the Area under the ROC Curve in the Evaluation of Machine Learning Algorithms”,Pattern Recognition,vol.30,no.7,1997,pp.1145-1159.而用每个个体各自有一套行为参数的完全异质性模型，或者先将所有被试分类为三种“行为类型”，再分别估计三套参数的聚类异质性模型，估计的精度都可以大幅提升（AUC=0.89，0.88），其中后者的复杂度显著降低。Epstein 等（2016）还利用个人背景变量来预测个人属于不同行为类型的概率，得到的精度也较低，这一结果也对实验问卷中所惯常使用的经济、社会、心理等测度是否具有行为上的预测性提出了质疑。

Peysakhovich 和Naecker（2017）基于在Amazon MTurk 平台收集的600 位被试的6000 次选择数据，将机器学习算法用于个人决策中风险偏好和模糊性偏好的分析和行为预测，并与几类常用的不确定性下的决策模型进行了比较。机器学习算法的特点是能够包含所有的决策相关的变量以及它们与个人虚拟变量的交乘效应，能够对超过55000 个参数进行估计，同时采用交叉校验和正则化回归的方法来避免过度拟合。估计结果显示，在针对风险偏好的估计中，所有个体共用同一套参数的“代表性个体”期望效用模型的精度较低，而如果考虑参数的个体异质性并引入非线性概率加权的期望效用模型，则其估计精度与机器学习算法相差无几。然而，在针对模糊性偏好的估计中，不论是考虑个体异质性的二阶期望效用模型还是极大极小偏好模型，其样本外预测的表现都不如机器学习算法。因此，Peysakhovich和Naecker 认为机器学习可以被用作实验数据中可解释的数据变异性的上限，尤其是更适用于噪音较大的线上实验数据集。Bourgin 等（2019）在上述方法的基础上更进一步利用已有的认知模型合成的数据集来预测训练神经网络（neutral networks），构造算法的“认知模型先验”（cognitive model priors），对13000 个彩票选择问题中240000 人次的行为进行预测。aDavid D.Bourgin,Joshua C.Peterson,Daniel Reichman,Stuart J.Russell,Thomas L.Griffiths,“Cognitive Model Priors for Predicting Human Decisions”,International Conference on Machine Learning,PMLR,2019,vol.97,pp.5133-5141.研究结果显示，利用已有的认知心理学理论来作为神经网络的先验概率，可以提升训练有效性和减少预测误差，进一步提升机器学习算法对行为的预测能力。

机器学习算法在分析更为复杂的博弈互动实验并预测博弈双方的策略时也有很大的优势。Hartford 等（2016）针对双人的矩阵博弈，提出利用多层次的深度学习网络(deep learning networks)，基于收益结构对个人行为反应层级中的策略概率分布进行预测。bJason S.Hartford,James R.Wright,Kevin Leyton-Brown,“Deep Learning for Predicting Human Strategic Behavior”，Discussion Paper,University of British Columbia,2016.Vazifedan 和Izadi（2021）则进一步提出了一种采用深卷积神经网络（deep convolutional neural networks），基于不同维度博弈矩阵的收益结构和博弈中的历史策略，对重复博弈中个人的策略选择进行预测的方法。cAfrooz Vazifedan,Mohammad Izadi,“Predicting Human Behavior in Size-Variant Repeated Games through Deep Convolutional Neural Networks”,Progress in Artificial Intelligence,vol.11,no.1,2021,pp.15-28.Camerer 等（2019）分析了Caltech 和UCLA 两所学校的线下实验室进行的110 位大学生每人120 轮的讨价还价博弈实验，利用机器学习算法预测了不对称信息下有期限的动态非结构性谈判中谈判陷入分歧和最终不能达成协议的可能性。dColin F.Camerer,Gideon Nave,Alec Smith,“Dynamic Unstructured Bargaining with Private Information:Theory,Experiment,and Outcome Prediction via Machine Learning”,Management Science,vol.65,no.4,2019,pp.1867-1890.无法达成协议这种无效率的结果不符合理论分析中的任何一种均衡，在实际的选择中却经常发生，甚至在总收益金额很大、多轮互动的谈判之后也仍然很常见，被试间对于收益的划分也并不符合理论均衡的刻画。与旧有的实验文献对这种现象背后的原因用行为偏好等理论解释不同，Camerer 等（2019）利用被试在谈判中的过程数据（process data）直接对谈判失败是否会发生、何时发生作出了预测。通过对过程数据中出价先后、间隔时长、变化模式等特定行为模式构造的34 个特征变量进行的逻辑LASSO 罚函数回归（logistic regression with LASSO penalty）发现，具有信息优势的谈判方的当前出价、谈判双方地位的差距、初始谈判地位等变量对最终能否达成协议的预测力最强。机器学习能够量化地估计出这些影响因素对于谈判结果贡献的大小，这些是质化的博弈论均衡分析所无法做到的。据此，Camerer 等（2019）建议，机器学习算法可以用于更多类型的过程数据，如谈判中的沟通模式、动作和手势、眼动和其他生理反应等的处理，从而进一步提升预测的准确性。

机器学习算法在处理高维大数据中的优势也为研究者们提供了更方便的工具来对实验中产生的大量非选择数据（non-choice data）进行分析，并对行为作出预测。Halko 等（2021）利用被试在自然状态下由可穿戴设备产生的生物学特征数据，尤其是衡量心脏功能的心率变异性数据，对被试在薪酬实验中会选择计件工资、竞争性激励还是基于团队竞争的薪酬激励方式进行预测。eMarja-Liisa Halko,Olli Lappalainen,Lauri Sääksvuori,“Do Non-Choice Data Reveal Economic Preferences? Evidence from Biometric Data and Compensation-Scheme Choice”,Journal of Economic Behavior &Organization,vol.188,2021,pp.87-104.Halko 等（2021）利用线性LASSO 回归和嵌套交叉校验（nested cross validation）的结果显示，采用非选择数据的样本外预测和利用性别与过往决策数据的预测，其对个体选择行为的预测能力相差无几。Li 和Camerer（2021）则利用图像的倒置视觉突出性特征（bottom-up visual salience），来预测被试在摘水果游戏、地点匹配游戏和矩阵博弈中的选择。aXiaomin Li,Colin Camerer,“Predictable Effects of Bottom-up Visual Salience in Experimental Decisions and Games”,Working Paper,2021.该研究使用了预训练的卷积神经网络，并引入视觉突出的注意力模型（salience attentive model algorithm）算法，发现视觉突出性在合作型的地点匹配游戏中的预测能力较强，而在其他决策的预测上则精度一般。同样地，机器学习模型能够处理的人体生物学特征数据还包括大脑磁共振图像、脑电波等高维数据集，通过正则化回归、卷积神经网络等算法，在大量的候选变量中寻找对人的风险选择、博弈互动、道德行为等最有预测性的特征变量，为传统的神经元经济学提供精度更高、预测能力更强的分析工具。

当然，学者们也指出，不能完全依赖机器学习的数据挖掘算法来预测行为，而应与现存的微观经济理论相结合，促进理论建模更加完善。Fudenberg 和Liang（2019）使用袋装决策树算法（bagged decision tree algorithm）对被试在矩阵博弈中的初始策略进行预测发现，基于算法的一层策略模型与传统博弈论中帕累托占优的纳什均衡模型结合而成的混合模型的预测能力最强。bDrew Fudenberg,Annie Liang,“Predicting and Understanding Initial Play”,American Economic Review,vol.109,no.12,2019,pp.4112-4141.Fudenberg 和Karreskog（2021）也提出了一个基于初始决策的学习模型，并利用17 篇已有的无限次重复囚徒困境博弈实验的文章数据进行估计发现，预测的精度并不比几种机器学习模型差。cDrew Fudenberg,Gustav Karreskog,“Predicting Cooperation with Learning Models”,Working Paper,2021.因此，以Drew Fudenberg 为代表的行为经济学家认为，采用“拥有算法结构”（algorithmically structured）的微观行为理论模型，才能够避免机器学习模型复杂度高、变量过多、难以解释的问题，使预测结果更具有经济学含义。

（二）人工智能辅助（AI Assistance）下的决策质量提升

很多重要的个人、企业和公共决策都建立在精准的预测基础上。Kleinberg 等（2015）提出，传统微观经济学的因果推断方法面临重大变革，经济学家应充分利用机器学习算法的预测能力来辅助微观主体和公共部门的政策设计，关注直接基于大数据分析提出政策建议的“预测政策问题”（prediction policy problems）。dJon Kleinberg,Jens Ludwig,Sendhil Mullainathan,Ziad Obermeyer,“Prediction Policy Problems”,The American Economic Review,vol.105,no.5,2015,pp.491-495.而应用于大数据的算法也为经济学家们带来了新的对微观个体决策偏误的理解。在经济、政治和社会活动中，好的算法能够客观中立地作出预测，帮助人们对现实市场作出更准确的判断、对海量的信息作出更有效的鉴别，从而提高决策质量。不同群体间的异质性使得对算法的接纳和信任、从算法辅助中的获益都因人而异，因此设计有针对性、透明且易于理解的算法，进行个性化的行为干预，也有着重要的现实意义与应用价值。

首先，以机器学习算法为核心的人工智能技术在理论问题上的高预测精度，是否能够帮助现实中的企业和金融机构在经营中作出更准确的决定？Chen 等（2021）的实验研究了真人被试和人工智能在利用借贷人的面部信息对是否应批准其放款申请时的准确度差异。eZeyang Chen,Yu-Jane Liu,Juanjuan Meng,Zeng Wang,“What's in a Face? An Experiment on Facial Information and Loan Approval Decision”,Working Paper,2021.该研究基于一个现金借贷公司的借贷人偿还贷款的历史数据，在给真人被试提供借贷人基本财务背景、月账单和申请贷款期限等信息的基础上，改变所提供的借贷人面部信息的详细程度。Chen 等（2021）发现，提供面部信息对真人被试放款决策的正确率影响不大，但如果用上述面部信息和历史还贷数据训练一个多层神经网络（multilayer neural network）来对每个借贷人能否按时偿还贷款进行预测，那么其样本外预测的精度可以达到80.5%。进一步的分析表明，面部信息无法帮助真人被试提高决策质量，是由于其在观看和评价借贷人照片时存有各类偏见，又过度依赖自己从照片中得到的有偏印象，忽略了借贷人的基本财务信息和过往偿还贷款记录等背景数据。机器学习算法则能够客观和全面地利用这些数据，大幅提高了决策准确性。Bertomeu 等（2020）基于包含了财务状况、资本市场、公司治理状况和审计分析等多变量的会计数据库，利用梯度提升回归树（gradient boosted regression tree）算法来调查公司会计信息的不实披露情况，并提前一到两年对未来有更大风险出现不实披露的公司进行预警。aJeremy Bertomeu,Edwige Cheynel,Eric Floyd,Wenqiang Pan,“Using Machine Learning to Detect Misstatements”,Review of Accounting Studies,vol.26,no.2,2020,pp.468-519.Erel 等（2021）则采用LASSO、岭回归、神经网络和梯度提升回归树等几种算法对公司经理人的表现进行评估和预测，并据此识别了表现不佳的经理人的特征变量，为公司应如何选择经理人提出建议。bIsil Erel,Léa H.Stern,Chenhao Tan,Michael S.Weisbach,“Selecting Directors Using Machine Learning”, The Review of Financial Studies,vol.34,no.7,2021,pp.3226-3264.

人工智能辅助决策的优点也被用于税收、司法等公共管理事务中的决策评估和建议，从而帮助政策制定者达到更有效率的政策目标。Andini 等（2018）分析了意大利当局2014 年起开展的一项应对经济萧条、促进消费的大规模退税政策，提出如果利用机器学习算法来挑选该政策的目标受益人群并进行有针对性的退税，那么政策的有效性可以得到显著提高。cMonica Andini,Emanuele Ciani,Guido de Blasio,Alessio D'Ignazio,Viola Salvestrini,“Targeting with Machine Learning:An Application to a Tax Rebate Program in Italy”,Journal of Economic Behavior &Organization,vol.156,2018,pp.86-102.该研究基于意大利银行的家庭收入和财富调查，采用决策树算法（decision tree）识别退税政策所应针对的“消费受限”的人群，发现实际上29.5%的退税被分配给了并不需要这项政策帮助（即消费并未受限）的人群。而相比于该政策的实际受益群体，如果退税被分配给算法挑选出的受益人群，那么食品消费的增加会比实际的政策效果高出41.8%。Andini等（2018）还发现，采用K-最邻近分类（k-Nearest Neighbors,kNN）和随机森林（random forest）算法的预测效果差异不大，但决策树算法变量更少、更加透明，方便政策制定者简单明了地向公众解释其选定目标人群的原则，是更好地辅助政策实施的工具。Kleinberg 等（2018）则讨论了利用机器学习算法提高法官判决质量的可能性。dJon Kleinberg,Himabindu Lakkaraju,Jure Leskovec,Jens Ludwig,Sendhil Mullainathan,“Human Decisions and Machine Predictions”,The Quarterly Journal of Economics,vol.133,no.1,2018,pp.237-293.该研究利用纽约市2008—2013 年间的犯罪、逮捕和司法判决数据，采用梯度提升决策树算法，对被捕者的再犯概率进行预测，并与实际中的判决做对比。结果显示，在收监率不变的情况下，以算法辅助判决，犯罪率能降低24.7%；如果保持再犯率不变，那么收监率可以下降41.9%。因此，Kleinberg 等（2018）认为，算法辅助在司法等公共管理领域的应用，是“预测政策问题”的一个典型例子，有着重要的现实意义。

其次，既然利用人工智能技术进行决策具有更高精确度和效率，那么在现实中人们是否愿意接受这样的决策辅助？哪些人群更乐于接受？算法应如何改进才更有可能被理解和接受？Chen 等（2021）的实验比较了基于历史贷款数据来作出放款决定时真人被试和人工智能的决策质量，发现真人被试在人工智能辅助下的决策准确性仍低于算法的预测精度，真人被试表现出“算法厌恶”（algorithm aversion），对自身判断力过度自信而轻视算法的建议。eZeyang Chen,Yu-Jane Liu,Juanjuan Meng,Zeng Wang,“Can All Humans Benefit from AI Assistance? Algorithm Aversion and Overconfidence”,Working Paper,2021.Grgić-Hlača 等（2019）研究了普通人被试在评估犯罪嫌疑人再犯的概率并作出监禁与否的决策时，是否能听从机器学习算法给出的建议。结果发现，算法的预测并不能显著改变被试的决策，且不随实验的金钱激励增加而改变。fNina Grgić-Hlača,Christoph Engel,Krishna P.Gummadi,“Human Decision Making with Machine Assistance:An Experiment on Bailing and Jailing”,Proceedings of the ACM on Human-Computer Interaction,vol.3,no.178,2019,pp.1-25.Horne 等（2019）则通过实验室实验探讨了人工智能辅助下人们是否能够判断虚假新闻，以及具有哪些特征的群体更乐于接受算法的建议。aBenjamin D.Horne,Dorit Nevo,John O’Donovan,Jin-Hee Cho,Sibel Adali,“Rating Reliability and Bias in News Articles:Does AI Assistance Help Everyone?”,Proceedings of the International AAAI Conference on Web and Social Media,vol.13,2019.该研究使用包含了主流媒体和不可靠来源的2017 年新闻报道数据库，并应用随机森林分类算法对每条新闻的可信性和偏向性做了概率预测。通过向在Amazon MTurk 上招募的654 位被试展示仅有文字的新闻、在新闻下方显示算法预测或同时给出算法预测背后所基于的对新闻特征的解释，Horne 等（2019）发现附有解释的算法预测能够显著改变被试对虚假新闻的认知，提高其判断假新闻和媒体偏向的准确率。同时，即使有人工智能的帮助，那些经常阅读主流报刊和对政治议题熟悉的被试更容易识别出虚假和有偏的新闻，而那些经常在社交媒体上阅读和分享贴子的被试则更不容易鉴别新闻的可信度和偏向性。

由于算法辅助对个人决策的帮助效果因人、因算法的呈现形式而异，故而设计更易于理解和操作的、针对个人特征的个性化辅助成为了使人们更愿意接受算法建议来提高自身决策质量的有效途径。Hamsa 等（2021）借鉴行为经济理论中“强化学习模型”的框架，构建了一个将人工智能的预测转化为人们可以接受的“小建议”的算法，并设计了一个线上“虚拟餐厅”游戏来检验这种设计的有效性。bBastani Hamsa,Osbert Bastani,Wichinpong Park Sinchaisri,“Improving Human Decision-Making with Machine Learning”,Working Paper,2021.该算法首先训练一个高性能的神经网络以强化学习模型为框架生成决策规则，继而将这种规则以易于理解的方式呈现给被试，以指导被试在需要较为复杂的人力配置序贯决策中的行为。研究结果表明，这一算法能够很显著提高被试在决策中有效配置人工的表现，随着游戏轮数增加，经验越丰富的被试越能够理解算法建议的重要性，并能结合算法的建议来尝试一些新策略。Poursabzi-Sangdeh 等（2021）通过一个预测纽约市公寓售价的实验考察了模型的“可解释性”（interpretability）对人们遵循不同的算法模型建议的影响，发现人们更愿意接纳特征变量更少、预测的原理更透明的模型所给出的建议。cForough Poursabzi-Sangdeh,Daniel G.Goldstein,Jake Hofman,Jennifer Wortman Vaughan,Hanna Wallach,“Manipulating and Measuring Model Interpretability”,Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems,2021.Chen和Yeckehzaare（2020）则研究了利用算法针对不同被试进行的个性化推荐是否更易于被接受，并用以促进特定的行为。dYan Chen,Iman Yeckehzaare,“Motivating Experts to Contribute to Digital Public Goods:A Personalized Field Experiment on Wikipedia”,Working Paper,2020.该研究选取了3974 位在RePEc 发文5 篇以上的经济学家，计算他们的文章摘要与维基百科上的经济学文章的相似度并进行匹配，邀请他们对这些文章作出评论，并告知维基的阅读量、本人文章被引用、贡献被广泛认可等潜在益处，进而采用随机森林的算法对收集到的评论长度和质量进行预测。结果发现，专家们的领域与推荐给他们以供评论的词条内容越接近，专家本人业内声望越高，回答后被引用的可能性越大，他们给出的评论质量就越高。Chen 和Yeckehzaare（2020）由此提出，机器学习算法的积极作用之一在于可以个性化地设计匹配和推荐系统，鼓励人们在互联网上对数字公益有所贡献。

四、结语与讨论

实验经济学通过借鉴心理学的研究发现和方法，尤其是利用可控的实验室对照实验方式来观测微观个体的行为，帮助理论经济学家们更全面地刻画人的偏好、风险决策、信念和合作互动等，提出包含了认知、行为和心理因素的新经济模型，并以此来重新认识人们在现实市场中的行为。实地实验中的应用则通过随机对照实验来观察人们的对经济或社会政策的反应，为政策制定者提供了重要的分析工具和决策参考。但与此同时，实证导向的行为实验方法也面临着对影响行为的变量缺乏心理和认知层面的内在机制的探讨、行为干预措施的外部有效性不明确、干预结果的可重复性存疑、大规模线上实验中个体行为的可控性较差、数据存在较多噪音等需要进一步探讨和解决的问题。

近年来，随着数字经济的兴起与发展，基于互联网和移动互联网的大数据、用于分析大数据的机器学习算法和人工智能技术的应用，给微观和实验经济学的研究对象和分析方法都带来了巨大的冲击。大数据与人工智能的作用也越来越被政策制定者所关注和倚重。李克强总理在2021 年的政府工作报告中指出，要“大力促进科技创新，推动产业数字化智能化改造”。经济的高质量发展依托于市场有效运行的微观基础，而大数据与人工智能在经济学领域的应用为政策制定提供了这样的微观基础和实证数据。高维大数据集为观察个人的决策影响因素提供了海量的素材，机器学习方法则为数据挖掘、模型选择和预测提供了非常便捷的工具，极大地提升了实证研究对现实中经济行为的预测能力。人工智能和大数据技术的应用拓展了实验经济学的技术可能，如基于机器学习个性化匹配与推荐算法、高维统计方法在分析非选择性数据时的应用、大规模线上实地实验的普及等，a翁茜、李栋：《在线实地实验研究进展》，《经济学动态》2020 年第5 期。但同时也对部分以因果关系识别为目的、为了解决实证数据的内生性问题而倚仗可控实验进行因果分析的应用性研究的基本逻辑构成了前所未有的挑战。如Kleinberg（2015）就提出了取代传统微观经济学的因果推断方法、直接基于大数据分析提出政策建议的“预测政策问题”。与此同时，人工智能对个体行为的指导性和预测性显著优于现实中的经济人决策者，这为我们带来了校正微观个体决策偏误的新手段。如何设计有针对性、透明且易于理解的算法，辅助微观主体对现实市场作出更准确的判断、对海量的信息作出更有效的甄别，帮助公共管理部门提高决策质量，达到更有效率的政策目标，成为了实验经济学所面临的新课题。

本文中所讨论的人工智能技术也有其局限性，并不能解决当前实验经济学研究中存在的全部问题。比如关于在行为发展经济学（behavioral development economics）中，随机对照实验的外部有效性问题也是近年来学者们关注的重要议题。b周业安、孙玙凡：《实验发展经济学：理论、方法和困局》，《中国人民大学学报》2021 年第2 期。其中一个比较典型的争议是，具体的助推措施只适合在小范围的实验地区试用，尤其是在不同的发展中国家/地区运用的某些具体激励政策未必在广泛的第三世界地区都具有促进公共健康、改善教育质量或减轻贫困的效果。这些助推政策所固有的问题，可能需要在目前人工智能技术的基础上，结合发展中国家具体地区不同的经济状况、社会文化习俗等，谋求更为有效的解决方案。