APP下载

国内外AI大模型比拼:禀赋各异

2023-06-03姜红德

中国信息化 2023年5期
关键词:模态文本语言

姜红德

数月来,以ChatGPT为首的AI大模型掀起了新一轮技术热潮,甚至被业内人士称之为信息革命的新拐点。“与AI大模型相比,谷歌、字节跳动等公司现在的业务模式或者正在做的事情可以被概括为搬运信息的工作”。原百度总裁、奇绩创始人兼CEO陆奇这样表示。对躬身入局的企业来说,他们的大模型定位各有差异,也具备不同的禀赋优势。《中国信息化》杂志对部分AI大模型进展进行了简单梳理,以“管窥全豹”。

OpenAI

OpenAI由数位硅谷大佬共同出资10亿美元于2015年在旧金山创立。自2018年起,OpenAI相继发布了大模型GPT-1、 GPT-2、 GPT-3。2022年12月公布的ChatGPT其实是在GPT-3基础上的3.5版本。

2 0 2 3年3月1 5日凌晨,OpenAI正式推出GPT-4。相比ChatGPT仅能在文字领域施展特长,GPT-4是多模态大模型,即支持图像和文本输入以及文本输出,拥有强大的识图能力。GPT-4在知识能力测试方面能够达到人类较高水平,业界普遍认为GPT-4将为AI产业带来更多机会,同时也引发了对AI伦理方面的一些担心。最新的消息显示,OpenAI于5月15日宣布向所有ChatGPT Plus用户推出联网和插件功能。位于Alpha和Beta通道的ChatGPT Plus用户都能使用联网功能以及70多个已上线的插件。此次更新意味着最后一道“封印”已被彻底解除,ChatGPT将利用最新的信息和资讯为使用者提供服务。

微软

2月11日,微软发布语言模型Turing-NLG(简称T-NLG)。该模型拥有170亿参数量。TuringNLG在各种语言建模基准方面的表现出众,并且在回答问题和摘要生成方面表现十分优异。这主要得益于以下突破:一是利用NVIDIA DGX-2硬件设置,使用InfiniBand连接,以便GPU之间实现比以前更快地通信。二是使用四个V100 GPU,在 Megatron-LM框架中应用张量切片分割模型。三是使用Deepspeed和ZeRO降低了模型的并行度(从16降低到4) ,将每个节点的批处理大小增加4倍,并且减少了三倍的训练时间。除了通過总结文档和电子邮件来节省用户时间,T-NLG可以通过向作者提供写作帮助和回答读者可能提出的关于文档的问题,来增强使用Microsoft Office 套件的体验,打造更强的聊天机器人等等。

Meta

2月24日,Meta宣布推出针对研究社区的“Meta人工智能大型语言模型”系统,简称“LLaMA”。在此之前,Meta也曾推出过大型语言模型 OPT-175B,这构成了其聊天机器人blenterbot 新迭代的基础。

Meta公司CEO扎克伯格在社交媒体上表示,LLaMA在文本生成、问题回答、书面材料总结,以及自动证明数学定理、预测蛋白质结构等更复杂的方面也有很大的发展前景。LLaMA可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者,目前正在接受研究人员的申请。

谷歌

当地时间5月10日,谷歌发布最新的人工智能语言模型 PaLM 2,这是谷歌去年推出的大语言模型 PaLM的进阶版——2022年4月,谷歌推出了 PaLM,参数规模为5400亿。相比之下,PaLM2在语言丰富度、推理能力、代码能力上比上一个版本有了提升:一是多语言性。 PaLM 2 在多语言文本方面接受了更多的训练,涵盖 100多种语言。在理解、生成和翻译细微差别文本 (包括成语、诗歌和谜语) 的能力上表现更好。PaLM 2 还通过了“精通”级别的高级语言能力考试。二是推理, PaLM 2的广泛数据集包括科学论文和数学相关信息,在逻辑、常识推理和数学方面表现更好。三是编码,PaLM 2 在大量公开可用的源代码数据集上进行了预训练。它擅长Python 和 Java 等流行的编程语言,也可以生成 Prolog、Fortran和 Verilog 等语言的专用代码。

华为

从华为云官网查询的消息得知,华为的盘古系列 AI 大模型即将发布。盘古大模型由 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型等多个大模型构成,通过模型泛化,解决传统 AI作坊式开发模式下不能解决的 AI规模化、产业化难题,可以支持多种自然语言处理任务,包括文本生成、文本分类、问答系统等等。其中 NLP 大模型是被认为最接近人类中文理解能力的 AI 大模型,而 CV 大模型首次兼顾了图像判别与生成能力。媒体评价,如果单纯从数据的角度来看,华为盘古的级别已经达到GPT-3.5的水平。

百度

3月16日,百度正式发布了生成式人工智能大模型“文心一言”,并展示了它在文学、商业、数理推理等方面的多模态表现。在实际演示中,该模型能够根据用户需求做到数理计算、资料查询、分析解答。同时,文心一言也能够根据用户需求,进行图片、语音甚至视频的智能生成。

阿里巴巴

在4月11日召开的阿里云峰会上,阿里巴巴正式宣布推出大语言模型“通义千问”。通义千问具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。具体到应用上,通义千问可以跟人类进行多轮的交互,也融入了多模态的知识理解,有着非常强的文案创作能力,能够续写小说、编写邮件等,可以极大提高工作效率。据阿里巴巴集团董事会主席兼CEO张勇透露,钉钉、天猫精灵将于不久后正式接入该模型,未来阿里巴巴全系产品都将用上该模型。

腾讯

据腾讯披露,其旗下“混元”AI大模型覆盖了NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业模型。2023年3月22日,腾讯总裁刘炽平回应称,公司将投入大量资源构建基础模型,并在未来将其应用到腾讯的每一个业务线中。同时,基础模型也会帮助腾讯开展新的业务,将用户与用户之间的优势带入到人机互动领域。

商汤科技

3月14日,商汤科技发布拥有30亿参数的多模态多任务通用大模型“书生2.5”。该模型实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。

科大讯飞

5月6日,科大讯飞星火认知大模型在安徽合肥发布。现场围绕讯飞星火认知大模型的七大核心能力,即多风格多任务长文本生成、多层次跨语种语言理解、泛领域开放式知识问答、情景式思维链逻辑推理、多题型步骤级数学能力、多功能多语言代码能力、多模态输入和表达能力,展开现场实测。目前首批来自36个行业的3000余家企业开发者将接入星火大模型,联合各行业合作伙伴共建大模型“星火”生态。

中国科学院

中国科学院自动化研究所5月6日宣布,该所正在和武汉人工智能研究院联合打造全模态大模型“紫东太初”2.0。有别于以文本为主的大部分语言大模型,中科院自动化所自2019年开始就在语音、文本、图像等单模态大模型研究和应用基础上,瞄准多模态大模型领域联合攻关,2021年7月正式发布全球首个千亿参数多模态大模型“紫东太初”。 “紫东太初”大模型已在手语教学、法律咨询、交通出行、广电、医疗机器人、医学影像判读等数十个行业场景领域,展现出广阔的落地应用潜力。

猜你喜欢

模态文本语言
语言是刀
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
让语言描写摇曳多姿
累积动态分析下的同声传译语言压缩
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
国内多模态教学研究回顾与展望
我有我语言
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度