AI大模型：不只作画与聊天

2023-06-03孙杰贤

中国信息化 2023年5期

孙杰贤

ChatGPT自2022年11月横空出世以来，一路狂飙，将AIGC和AI大模型推到风口浪尖。

ChatGPT英文全称“Chat G e n e r a t i v e P r e - Tr a i n e d Transformer”，是由美国公司OpenAI基于GPT3.5版本开发的一个人工智能聊天机器人程序，是一款人工智能技术驱动的自然语言处理工具。

清华大学智能产业研究院院长、中国工程院外籍院士张亚勤这样评价ChatGPT： ChatGPT确实是一次跳跃和质变，是AI的一个里程碑。人机对话已经做了半个多世纪了，进步很大，但整体没有实质性的飞跃，不能通过“图灵测试”。而ChatGPT是第一個可以通过“图灵测试”的智能体，是通用人工智能的雏形。

A I G C的英文全称是“A I Generated Content”，是人工智能和内容创作的结合，能够让机器自动生成高质量、高效率的内容，在智能硬件、大数据分析等领域都有广泛应用。AIGC包括图像、视频、音频等多种类型，包括自动生成文本和音频。从目前AIGC的发展来看，其应用范围正在逐步扩大，并且已经从简单的文字内容生成发展到智能图片编辑、语音识别和智能写作等。

因此，从概念定义来看，ChatGPT是AIGC概念的一种产品形态或者说应用形态。而AI大模型则是两者背后的核心技术。

什么是AI大模型？

A I大模型即基础模型（Foundation Model），是基于海量多源数据打造的庞大神经网络。通过训练，AI大模型从大量标记和未标记的数据中捕获知识，并将知识存储到大量的参数中，以实现对各种任务进行高效处理的技术架构，是实现通用人工智能的重要方向。AI大模型包含自然语言类大模型、计算机视觉类大模型，以及统一整合的多模态大模型等，ChatGPT 是AI大模型在自然语言处理领域突破性的创新。

发展历程看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。相应的，AI大模型的发展也从以不同模态数据为基础过渡到与学习理论等方面相结合，并呈现出全面发力、多点开花的新格局。

AI大模型有两个核心要义：“预训练”和“大模型”，意味着模型在大规模数据基础上完成了预训练后无需调整，仅需要少量数据的微调，就能直接支撑各类应用。从应用领域来看，AI大模型可分为通用AI大模型和垂直AI大模型（也称产业AI大模型），两者在参数级别、应用场景、商业模式等方面差异正在显性化。通用AI大模型需要巨大的计算资源和数据量能够处理各种领域和场景的自然语言，但是不一定有深入的专业知识，比如ChatGPT。垂直AI大模型是针对特定行业或者应用场景而开发，比如医疗、金融、教育等，它能够利用行业的数据和知识，提供更精准和高效的解决方案。

垂直AI大模型可以更容易地与用户和行业进行有效的沟通和合作，也更符合行业的规范和标准，因此，垂直AI大模型将是重要发展方向。

数据、算法与算力

同人工智能一样，AI大模型背后也需要数据、算法与算力的支撑。

高质量的数据是助力AI训练与调优的关键，足够多、足够丰富、质量足够高的数据，是生成式AI大模型的根基。目前AI模型的数据来源包括以下几类：公共数据集、公共网站、自有数据、众包数据、合成数据等。除了合成数据外，其他数据都是通过采集互联网获得。

随着AI大模型的发展，数据量呈现指数级的增长态势。比如，2018年的GPT-1数据集约4.6GB，2020年的GPT-3数据集达到了753GB，而到了2021年的Gopher，数据集规模已经达到了惊人的10，550GB。由于企业的很多业务数据、物流数据、财务数据等都是非常核心的私域数据，很难把数据拿给别人去训练。这也是垂直AI大模型的一个发展瓶颈。

算法是 AI 解决问题的机制、方式和路径，算法的优劣直接决定了AI大模型的空间复杂度与时间复杂度。例如，GPT 是在Transformer 模型基础上发展的，相比于传统的循环神经网络或卷积神经网络，Transformer在处理长文本时具有更好的并行性和更短的训练时间。三要素中，算法的研发门槛相对较低，每家企业都有自己实现大模型的路径算法，且有众多开源项目可作为参考，我国企业也可以凭此缩短差距，甚至弯道超车。

算力是打造AI大模型态的必备基础，AI大模型所需要的计算量，大致上相当于参数量与数据量的乘积。大模型之所以“大”，就是因为庞大的参数量和海量数据。上文也提到AI大模型的指数级增长，而参数量亦是如此。比如，GPT-3的参数量达到了惊人的1750亿。因此，AI大模型的真正门槛在算力。数据训练需要较高性能的芯片完成对整体模型神经网络的训练构建。据悉，为了训练GPT-3，微软新建了一个搭载了1万张显卡，价值5亿美元的算力中心。模型在训练上则消耗了355个GPU年的算力，而成本超过460万美元。根据OpenAI公司的测算：全球AI训练所用的计算量平均每3.43个月便会翻一倍，远超摩尔定律。在可见的未来，算力不足将会是制约AI大模型发展的最大因素。

不只作画与聊天

应用AI大模型大概以下具体步骤。数据收集：收集和准备海量的数据；设计模型：设计模型结构和参数；模型训练：进行模型的训练，进行模型优化；模型测试：测试训练好的模型，同预期效果进行比对；模型部署：部署应用。

当然，AI大模型价值不仅仅是作作画、写写文章、聊聊天那么简单。AI大模型代表了人工智能技术向产品化、产业化落地的趋势，这个趋势的持续发展会深刻改变产业格局。同时，人们对AI的认知、行业对其能力的评估都将越来越体系化。

AI大模型的真正意义在于改变了模型的开发模式，将模型的生产由“小作坊”升级为工业化的“流水线”，而模型开发模式的转变，将使得AI技术能够更广泛地下沉到一些长尾场景。前面也提到，垂直AI大模型是AI大模型的重要发展方向。底层AI大模型的研发具有极高的研发门槛，面临高昂的成本投入，不利于人工智能技术在千行百业的推广。但是具有数据、算力、算法综合优势的企业可以基于第三方的AI大模型将复杂生产过程封装起来，通过低门槛、高效率的生产平台，向千行百业提供大模型服务。行业企业或者服务提供商只需要通过生产平台提出在实际AI应用中的具体需求，生产大模型的少数企业就能够根据应用场景进一步对大模型开发训练，帮助应用方实现大模型的精调，以更好满足各行业对于AI模型的需求。

举个例子，矿山行业有众多应用场景，除了挖矿本身，还有挖矿前的勘测规划，挖矿后的运输、通风、安全保障，以及过程中间的经营管理等。中国矿业大学便基于AI大模型，用机器视觉+机器人拣选的方式，以同步检测技术取代人工，实现高效预抛废，延长矿山设备寿命，减人提效。

我们在经历基于数据的互联网时代和基于算力的云计算时代之后，即将迈入基于大模型的AI时代。可以肯定，那些率先开发或者应用AI大模型的企业将会在AI产业布局中获得先发优势。