APP下载

七大云计算数据仓库

2019-09-10林琳

计算机与网络 2019年20期
关键词:数据仓库引擎关键

林琳

顶级云计算数据仓库展示了近年来云计算数据仓库市场发展的特性,因为更多企业采用云计算,减少了自己的物理数据中心足迹。

云计算数据仓库是一项收集、组织和存储用于不同活动(数据分析和监视)数据的服务。

在企业使用云计算数据仓库时,物理硬件方面全部由云计算供应商负责对于大型仓库或数据仓库的最终用户来说,他们只看到大量抽象的可供处理的等待数据。近年来,随着越来越多的企业开始利用云计算的优势,减少物理数据中心,云计算数据仓库的市场不断增长。

云计算数据仓库通常包括一个或多个指向数据库集合的指针,在这些集合中收集生产数据。云计算数据仓库的第2个核心元素是某种形式的集成查询引擎,使用户能够搜索和分析数据,这有助于数据挖掘。

如何选择云计算数据仓库服务

寻求选择云计算数据仓库服务时,企业应考虑许多标准:

现有的云部署。每个主要的公共云提供商都拥有自己的数据仓库,该仓库提供与现有资源的集成,这可以使云计算数据仓库用户更轻松地进行部署和使用。

迁移数据的能力。考虑组织拥有的不同类型的数据和存储位置,有效地将数据迁移到新数据仓库中的能力至关重要。

存储选项。虽然数据仓库解决方案可以用于存储数据,但能够访问商品化的云存储服务,可以提供更低的成本选择。

在行业媒体Datamation列出的顶级公司列表中,重点介绍了几个可以提供顶级云计算数据仓库服务的供应商:

1. Amazon Redshift

随着亚马逊公司进入云计算数据仓库市场,对于那些已经在AWS工具和部署方面进行投资的组织来说,Redshift是一个理想的解决方案。

关键价值与差异:

Redshift的主要区别在于,凭借其Spe ctrum功能,组织可以直接与AWS S3云数据存储服务中的数据存储连接,从而减少了启动所需的时间和成本。

用户强调的优势之一是Redshift性能,得益于AWS基础设施和大型并行处理数据仓库架构的分布查询和数据分析。

对于S3或现有数据湖之外的数据,Redshift可以与AWS Glue集成,AWS Glue是一种提取、转换、加载工具,可将数据导入数据仓库。

数据仓库的存储和操作通过AWS网络隔离策略和工具(虚拟私有云)进行保护。

2. Google BigQuery

对于希望使用标准SQL查询来分析云中大型数据集的用户而言,BigQuery是一个合理的选择。

关键价值与差异:

作为完全托管的云计算服务,数据仓库的设置和资源供应均由谷歌公司使用无服务器技术来处理。

通过SQL或通过开放数据库连接(ODBC)轻松查询数据的能力是BigQuery的关键价值,使用户能够使用现有的工具和技能。

BigQuery中的逻辑数据仓库功能使用户可以与其他数据源(数据库甚至电子表格)连接以分析数据。

与BigQuery ML的集成是一个关键的区别因素,它将数据仓库和机器学习(ML)的世界融合在一起。使用BigQuery ML,可以在数据仓库中的数据上训练机器学习工作负载。

3. IBM Db2 Warehouse

对于处理分析工作负载的组织来说,IBM Db2 Warehouse是一个很好的选择,它可以从平台的集成内存数据库引擎和Apache Spark分析引擎中获益。

关键价值与差异:

集成DB2内存中的列式数据库引擎,对于正在寻找包含高性能数据库的数据仓库组织而言,可能是一个很大的好处。

Apache Spark引擎也与DB2集成在一起,这意味着用户可以针对数据仓库使用SQL查询和Spark查询,以获取见解。

DB2 Warehouse受益于IBM的Netezza技术以及高级數据查找功能。

可以在IBM云平台或AWS云平台中完成云部署,并且还有本地版本的DB2 Warehouse,这对于具有混合云部署需求的组织很有用。

4. Microsoft Azure SQL Data Warehouse

Microsoft Azure SQL数据仓库非常适合任何规模的组织,这要归功于与Microsoft SQL Server的集成,希望可以轻松地将基于云计算的数据仓库技术引入。

关键价值与差异:

微软公司在2019年7月发布了Azure SQL数据仓库的主要更新,其中包括Gen2更新,提供了更多的SQL Server功能和高级安全选项。

动态数据屏蔽(DDM)提供了非常精细的安全控制级别,使敏感数据可以在进行查询时即时隐藏。

现有的微软用户可能会从Azure SQL数据仓库中获得最大的收益,因为它跨Microsoft Azure公共云以及更重要的是用于数据库的SQL Server具有多种集成。

与仅在本地运行的SQL Server相比,微软建立在庞大的并行处理体系结构上,该体系结构可使用户同时运行一百多个并发查询。

5. Oracle Autonomous Data Warehouse

对于Oracle数据库的现有用户而言,Oracle自主数据仓库可能是最简单的选择,它提供了一个连接到云端的入口。

关键价值与差异:

Oracle的主要区别在于,它在优化的云计算服务中运行自主数据仓库,该服务运行Oracle的Exadata硬件系统,该系统专门针对Oracle数据库而构建。

该服务集成了基于Web的笔记本和报告服务,以共享数据分析并实现轻松的协作。

虽然支持Oracle自己的同名数据库,但用户还可以从其他数据库和云平台(Amazon Redshift)以及本地对象数据存储中迁移数据。

Oracle的SQL Developer功能是另一个关键功能,它集成了数据加载向导和数据库开发环境。

6. SAP Data Warehouse Cloud

SAP Data Warehouse Cloud可能非常适合那些希望通过预先构建的模板寻求更多交钥匙方法来充分利用数据仓库的组织。

关键价值与差异:

SAP Data Warehouse Cloud是该领域相对较新的参与者,它是在今年5月的2019SAPPHIRENOW会议上首次发布的。

SAP的HANA云服务和数据库是数据仓库云的核心,辅以数据治理的最佳实践,并与SQL查询引擎集成。

该平台的主要区别在于集成了预先构建的业务模板,这些模板可以帮助解决特定行业和业务线的通用数据仓库和分析用例。

对于现有的SAP用户,与其他SAP应用程序的集成意味着可以更轻松地访问本地以及云计算数据集。

7. Snowflake

对潜在买家的价值主张。对于需要为数据仓库功能选择不同的公共云提供商的任何行业的组织而言,Snowflake是一个很好的选择。

关键价值与差异:

关键区别在于Snowflake的列式数据库引擎功能,该功能可以处理JSON和XML等结构化和半结构化数据。

解耦的Snowflake架构允许计算和存储分别扩展,并在用户选择的云提供商上提供数据存储。

系统创建Snowflake所谓的虚拟数据仓库,其中不同的工作负载共享相同的数据,但可以独立运行。

通过标准SQL进行查询,以进行分析,并与R和Python编程语言集成。

猜你喜欢

数据仓库引擎关键
点燃企业发展的“引擎”
打造信息化建设的“党建引擎”
基于数据仓库的数据倾斜解决方案研究
车坛往事4:引擎进化之屡次失败的蒸汽机车
数据仓库系统设计与实现
清淡健康的饮食是预防橘皮纹的关键!
数据复用在存储数据仓库中的运用
数据仓库技术在档案管理领域的应用
鹏鹏猪
画与话