APP下载

论道AIGC:绘出未来世界新画卷

2023-05-16勒川

中关村 2023年4期
关键词:能力模型

勒川

2023年被称作ChatGPT元年。全世界惊叹之余,也给AIGC带来新动能和新思考。时代级机遇,中国企业应该如何把握?ChatGPT所引领的AI新纪元,又将如何改变我们生活的方方面面?且听业界专家如何给出答案。

这是全人类的机遇!全球性“AI再造”已经拉开序幕,跟不上的企业将彻底失去未来的竞争力。模型即服务将催生万亿级别的市场。与其说这是“iPhone时刻”,这波浪潮更像是PC互联网初期。

我们正处于一个关键节点。ChatGPT所引领的AIGC新纪元,正在重新定义我们的生产生活。这场全球风暴,每个人应该如何把握?中国企业又有什么样的新机遇和挑战?3月29日,首届中国AIGC产业峰会现场,业界大咖和专家群起激辩,深度探讨AIGC新世界,ChatGPT商业化的路径与思考,以及AI产业新价值。

AIGC新世界

周明(澜舟科技创始人兼CEO)

进入AI 2.0不代表一定要抛弃1.0的技术

ChatGPT和之前的大模型有什么区别?首先,ChatGPT对用户的意图理解非常清晰,也更加准确;其次,多轮对话的建模非常好,还有若干解析能力。但是,站在工业界角度,很多需要解析能力的任务用单独的引擎能比ChatGPT效果更好。所以,找到ChatGPT的应用场景非常关键。To C时,AGI能力越多越好,用户在简单界面完成所有调用;To B环境下,问题理解、多轮对话的能力,接上企业自己的核心引擎,会有更好结合。

ChatGPT出现后,涌现了单模型、单任务永远出不来的能力,于是迈入AI 2.0时代,它的特点是一个模型N个任务,未来甚至一个模型可以解决无穷个任务。

但是,企业内部使用时,会发现AGI很多功能用不上,一些能力反而还会出现捣乱的可能。

以此为背景,企业进行数智化转型时,不要追求必须用AI 2.0、一定要抛弃AI 1.0。企业应该试图把AI 1.0功能引擎和AI 2.0部分能力(如问题理解和多轮对话的能力)无缝对接起来,形成一纵一横的合力,练模型的团队和用模型的团队持续产生交互,共同提升效率。

澜舟在做大模型时,尤其考虑了企业落地的问题。不用非得做ChatGPT,在AIGC领域重点突出关键词生成、自定义模板、文图工作等能力,把模型做得又轻又好,再结合用户需求,企业数据就能巧妙利用起来。

徐元春

(小冰公司COO)

任何一项技术的诞生都为产生产业价值

AI内容生成的价值,不仅在于降本增效,更重要的维度在于解决问题、提高效率、创造场景。其中,提高效率是最显著,也最容易被理解的一点。比如视频领域,2022年卡塔尔世界杯期间,解说员刘建宏的节目,超过半数都是在他本人录制的基础上,由AI复刻形象、合成声音生成的。

提升效率关键在于高并发和稳定性,强调稳定性的原因,在于很多技术在实验室实现了算法价值,但最后一公里的落地非常艰难,所以技术的工业化应用标准要达到稳定性的要求。

在解决问题方面,所有的AI公司或科技公司都应该认识到,需要解决的问题应当是产业尤其是传统产业迫切需要关注和改变的真实痛点。

举例来说,利用AIGC能力创造和生成虚拟数字员工,就是在企业现有IP不改变和不稀释的情况下,能够在多时空、多场合创造更多内容——这是一个IP最主要的资产和核心生产力。

另外还有拓展新场景。除了利用数字孪生技术,用虚拟人生产、传播内容,获得更广泛的流量,让运营团队和IP解耦、内容和形象解耦,满足大量的内容输出需求。

比如,数字员工可以直播更多场次。这里提到直播不再局限于视频录播,还有实时直播,包括在海外利用当地语言、当地文字回复直播间问题,和用户产生实时互动和实际交流,最终触发购买行为。

在这个场景里,虚拟人和AIGC的融合达成交易、促成销售,从这个角度来讲,AIGC不仅产生内容,也产生了实实在在的销售收入。基于此,如何让模型更加适合推荐,是大模型里更加传统化的应用。

方汉

(昆仑万维CEO)

AIGC最大社会意义是提供低成本终极解决方案

首先AIGC商業模式落地这一方面,我观察到两大定律:第一,用户创作门槛降低,内容创作数量增加十倍;第二,C端工具商业逻辑是社区,B端实质则是功能的完备性。

其次是AIGC对生产者的影响。对于存量知识的理解和表达,AIGC将以低廉的成本做到80分的水准。如果我们人类也只能做到80分,那工作一定会被替代;只有80分以上的人,才能去管理“AIGC操作员”,完成曾经需要腰部工作者去完成的工作,并极大地提升产量,而腰部工作者将大概率被淘汰。

第一,开源大模型是商业闭源大模型的有力补充和替代。就像ChatGPT可以想象成早期的Windows。Windows的存在是整个电脑商业软件领域的一个基石,也是绝大多数人的生产工具,而Linux通过30年的努力把自己变成Windows替代。因此像“Linux”一样的开源大模型也一定会出现。

第二,只有开源模式才可以满足用户的长尾需求。比如Stable Diffusion,其质量、性能都低于DALL·E2、Midjourney,但用户增长很快,而且还催生了许多二次开发工具,解决刚性问题。可控生成作为 AI 创作最后一道高墙,极有可能在可预见的时间内有进一步突破。

第三,各种AIGC工具能力仍受到预训练大模型限制,这点在GPT-4出现之后更加突出。

未来AIGC对整个社会最大意义,是提供了低成本终极解决方案;其次是将彻底改变艺术创作生产方式,最后具体到内容生成,大量创作内容的涌现,让VR和元宇宙变得更加可行。

类ChatGPT商业化

关玮雅

(微软大中华区首席战略官)

每个应用程序都可以由 AI 来驱动

越来越多的组织和机构正向云原生、AI技术转型。可以畅想在人工智能时代,每个应用程序都能通过AI驱动,实现更高的效率、更好的用户体验。

OpenAI的成功可以归结为四个方面:强大的人才梯队,先进的技术底座,秉承长期主义的研究和投入,开放合作的文化。

除此之外,微软对于OpenAI的发展也做出了积极的贡献:10亿美金的战略投资以及打造了世界前五的超级计算机,同时提供多元化、商业化的路径。

通过企业联合,不仅训练出了震惊世界的多个大型AI模型,更将AI技术与微软的全线产品深度结合,让企业、个人都能享受AIGC带来的潜力与可能。

AIGC的创业路径,可以分成三个功能维度:

第一类是帮助企业降低运营成本,比如最近推出的Microsoft 365 Copilot。

第二类是提高客户满意度和产品体验,比如,通过语音交互技术,帮助不同类型企业为消费者提供个性化产品,这一点在数字人技术体现尤为明显。

第三类,AGI(通用人工智能)作为一种革命性的技术,也承担着非常重要的社会责任。比如为残障人士提供更加便捷的生活服务。

同样,AIGC在不同行业的商用想象,也是实实在在而具体的,比如制造业、智能车、金融、医疗、游戏、娱乐、教育等领域。

对于企业而言,如何将AI战略提升到CEO的级别?哪些场景应该作为首选开展试点落地?又如何定位在AI时代下企业的核心能力,以及人才素质模型?如何重塑企业的流程、组织、文化,来更好地迎接新一代生产力革命?这些是所有企业家需要深度思考的问题。

袁佛玉

(百度集團副总裁)

文心一言将改变云计算游戏规则

文心一言将根本性地改变云计算市场游戏规则。源于大模型和生成式AI的两大突破,全球性“AI再造”已经拉开序幕,跟不上的企业将彻底失去未来的竞争力。

首先,这是百度多年技术积累和敏锐洞察。一方面,如果没有长达13年、高达千亿元的技术研发投入,根本就不可能出现文心一言这个大模型。另一方面,去年就曾精准预测过技术层面的方向性改变,也就是生成式AI。今年文心一言将与百度搜索、小度、Apollo自动驾驶等业务融合,但更大的故事在云计算。百度智能云有信心成为引领者。

其次,生成式AI的兴起,将给生产经营效率与用户体验效果带来“双效”提升,将彻底改变所有行业,加速实现社会“智能化跃迁”。这一点从文心一言所释放出的能力就可以看出,可以帮助千行百业实现AI再造。

再者,今天IT技术栈已适配AI技术发展的四层架构(芯片、框架、模型、应用)。云计算的主流商业模式将从IaaS(基础设施即服务)变为MaaS(模型即服务)。

中国拥有全世界最先进、最完整的产业链,它能产生大量真实的行业需求、用户反馈,这会极大推动生成式AI快速发展,并且随着生成式AI在数字和实体经济落地,模型即服务(MaaS)将催生万亿级别的新市场。

高建清

(科大讯飞AI研究院常务副院长)

认知智能大模型将带来重大产业颠覆和机遇

整体而言,科大讯飞在AIGC三大模块,即音频创造、视觉创造和文本创造方面,都有积累和进展。以音频创造这一关键技术为例,我认为未来有两大关键趋势:一是交互领域实现更好的拟人化、情感化甚至口语化;二是内容生产领域,对音色、音律、口音等语义信息进行更好的控制。

目前,语音合成已经应用在新闻播报、纪录片旁白、游戏解说、广告直播等十多个领域。

在AIGC浪潮下,语音创造方面也有一些关键发展趋势:既可以利用大语言模型,如Audio LLM方案,对语音合成中的关键因素进行控制;也可以更好地利用AIGC追求声音艺术,通过插入音效、环境音,对语音合成感受进行改善。

视觉方面,科大讯飞积累了以虚拟人为核心的完整视频创造能力,包括虚拟人生成和复刻等。利用AIGC,虚拟人的发展趋势是以虚拟人为中心形成从文本到声音到图像的全栈视觉生成能力。

文本生成方面,2023年起,科大讯飞也开始将文本生成能力接入行业应用,尤其在医疗、教育领域。

高建清表示,认知智能大模型将带来重大产业颠覆和机遇:它将改变信息分发和获取的模式、内容生产的模式和人机交互的模式。科大讯飞将结合在场景、数据方面的理解,在教育、医疗、人机交互、办公等方向进行布局。预计今年5月,讯飞将发布在多个行业的大模型进展情况。

张鹏

(智谱华章创始人兼CEO)

预训练大模型成为AIGC时代的基座

代码生成插件CodeGeeX,它背后是130亿参数、20多种编程语言代码生成预训练模型,具有代码生成、翻译、注释等功能,每天帮程序员编写400万行代码。

还有前段时间启动第一阶段内测的类ChatGPT产品ChatGLM,有近2000人内测规模,生成Token量超过730万。它可以Cosplay聊天,在物理/数学类题目上求解。

除此之外,智谱还开源了其中的一个62亿规模的大模型ChatGLM—6B,支持在单张GPU运行,在第三方评测上,相当于70%ChatGPT能力水平。

基于这一模型,智谱探索了MaaS(Model as service)的商业模式,既可以从模型训练、到最后应用开发集成的端到端服务,也可以像OpenAI提供API调用,還可以直接以商用方式供用户使用。

具体实操即为大模型应用群BigModel.ai,包括解决方案、产品、Demo等,比如编程辅助工具CodeGeeX、大模型辅助写作应用写作蛙、个性化机器人小呆等。

AIGC产业基座是预训练大模型,原因在于两个方面:第一,通用泛化能力,为AI研发降本增效,这是非常关键的特性;第二,融入更多知识,让大模型能更好模拟人的智能。但与此同时也面临着一些挑战,比如成本高昂、训练数据巨大,周期长等。

时代新机遇

林咏华

(智源研究院副院长、总工程师)

大模型已经从语言模型上升成为认知模型

过去几年大模型频繁现身,有两个趋势可以总结,一个是模型尺寸越来越大,开始是1亿参数,现在已经超过了万亿参数;另一个是单语言模态变成多模态。由此,关注大模型新趋势时,不仅要在研究领域证明它的创新性,还要直视产业落地时带来的新挑战。

从ChatGPT、GPT-4身上爆发出的泛化能力出发,大模型已经从语言模型上升成了认知模型。

未来10年里,大模型面临最重要的大挑战:

超大参数量。到底多大参数可以支持应用需求?是盲目追求千亿模型,还是百亿模型就足够?

训练数据。具体多少训练数据能喂饱一个百亿或千亿模型?多少的信息和数据可以传递到下游任务?

评测任务。从单模态走向多模态,怎么评测已经走向认知的模型?

持续学习和定点纠错。如何进行低成本的知识和信息吸纳?发现错误时怎么做到定点纠错?

可以看到,水面之上的冰山,显露出文生对话式任务生成模型等AIGC应用,但水面之下还有厚厚的冰山技术栈,用以支撑水面上的冰山一角。因此,大模型评测方法摆到了更为重要的位置。

目前,智源研究院正在联合多个研究队伍、机构、厂商,一起打造AI基础大模型评测系统。另外,智源还在自建AI大模型智算平台,针对大模型训练进行多任务优化,并且还在研究跨芯片架构的下一代AI编译器技术。

过去10年,AI的快速发展离不开开源开放的推动。智源现在就围绕大模型从底向上的技术体系,打造了FlagOpen这样一个技术开源体系,把算法、数据、模型、评测系统等开源出来,让更多开发者企业加入,共同打造大模型的全栈技术。

杨帆

(商汤科技联合创始人、大装置事业群总裁)

技术突破和产业化之间的窗口期大大缩短

当全社会在关注ChatGPT和大语言模型时,不能忽视整个AI在最近几年的核心突破其实是全方位的。

ChatGPT的技术进展显露出一个特征,即技术突破和形成产业化应用之间的窗口期大大缩短,取而代之的是在这个环节更强的加速效应。不难看到现在的市场上,全世界都有非常多的具体应用在探索成熟。

这一切背后,不仅能看到暴力数据美学,譬如大算力、超大规模计算资源的聚集、超大规模模型结构的设计、海量数据汇聚,还能看到所有环节的强经验积累。也就是说,现在的大模型研究,离不开大量的软件工程系统问题,核心功耗需要持续地沉淀和积累。

这样的技术到底会给AI产业带来什么变化?

一是生产范式重大改变,再是因为核心能力有大量C端因素,天然能打造更符合AI技术迭代的数据闭环,形成很强的飞轮效应。这意味着产品具备长期持续性,商业壁垒门槛也更容易建立。

应对这样变化下的AI 2.0,AI 1.0的公司其实不会彻底被颠覆。商汤在2018年起就在做预训练大模型,它支撑着商汤整体业务的持续发展。

商汤平台内容“一平台四支柱”中的“一平台”,指的就是人工智能基础设施“大装置”。多年的持续投入,源于商汤坚持认为AI基础设施未来会支撑更加百花齐放的产业生态。而从基础设施层面讲开去,大量模型设计和系统调优经验能够支撑大模型服务,帮助更多人迭代自有模型。

总体而言,这件事的核心价值在于,整个AI基础设施会具备弹性和拓展性。通过提供全方位能力,商汤希望为整个人工智能基础设施、市场及产业,提供更加基础化的支撑能力。

袁泉

(启元世界创始人兼CEO)

AGI的中国式探索

启元视角下,AGI从游戏开始,向互联网、元宇宙破圈。首先是游戏世界中探索这个AGI,包括从零开始玩星际争霸。第二阶段则是往互联网世界破圈。尤其Transformer出来之后,AGI在互联网里面的商业价值比游戏大100倍。第三块就是元宇宙,这是未来5—10年很重要的事情之一。

元宇宙本质是互联网丰富的语料、丰富的交互,加上3D开放世界游戏的合体。AIGC如何催生元宇宙、在元宇宙中如何训练AGI,是未来非常有价值的命题。

最后一步可能是AGI虚实迁移,服务或者应用于现实世界中,这是启元对趋势的判断。

这一过程中启元的探索主要分为两个阶段,第一阶段主要以在各类游戏中训练决策大模型为主,参数级别在几千万或者一亿以内,能够让AI用小样本,甚至从零开始,探索这一类任务的边界。

第二阶段是我们从2021年开始做的10亿到100亿参数的语言模型。基于决策大模型技术平台,目前启元目标围绕能够启发人和陪伴人的AGI来展开,去年开始重点做陪聊NPC。这不仅是游戏领域,而是面向更广泛地虚拟世界,比如一些历史人物和二次元人物,用户也想跟他们深度互动。

比如我们基于刘备做了一个陪聊NPC,你问刘备为什么喜欢哭?怎么看待阿斗?他都能给出基于人设、基于事实的交互和对话。

启元世界认为,AGI服务任何场景,都离不开Understanding。启元的初心和愿景,就是更多启发人和陪伴人。

猜你喜欢

能力模型
消防安全四个能力
适用于BDS-3 PPP的随机模型
p150Glued在帕金森病模型中的表达及分布
幽默是一种能力
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
大兴学习之风 提升履职能力
你的换位思考能力如何
努力拓展无人机飞行能力
3D打印中的模型分割与打包