一、前言
MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。
随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute提供离线和实时的数据接入,支持大规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。
MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。
MaxCompute还深度融合了阿里云如下产品:
-
DataWorks
基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。 -
人工智能平台PAI
基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。 -
实时数仓Hologres
基于Hologres对MaxCompute数据进行外表查询加速,也可导出到Hologres进行交互式分析。 -
Quick BI
基于Quick BI对MaxCompute数据进行报表制作,实现数据可视化分析。
二、核心功能
功能分类 | 功能描述 |
---|---|
全托管的Serverless在线服务 |
|
弹性能力与扩展性 |
|
统一丰富的计算和存储能力 |
|
数据建模、开发、治理能力 | 借助一站式数据开发与治理平台DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks支持对MaxCompute项目进行管理以及Web端查询编辑。 |
集成AI能力 |
|
深度集成Spark引擎 |
|
湖仓一体 |
详细信息,请参见MaxCompute湖仓一体概述。 |
离线实时一体 |
|
支持流式写入和近实时分析 |
|
提供持续的SaaS化云上数据保护 | 为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等保三级超20项安全功能,兼具开源大数据与托管数据库的安全能力。 |
三、产品架构
MaxCompute的产品架构如下。
其中核心模块介绍如下。
模块名称 | 功能说明 |
---|---|
存储引擎 |
MaxCompute为您提供MaxCompute存储引擎(内部存储)用于存储MaxCompute表、资源等,同时您也可以通过外表的方式直接读取存储在OSS、TableStore、RDS等其他产品中的数据。
其中MaxCompute存储引擎主要采用列压缩存储格式,通常情况下可达到5倍压缩比。 |
计算引擎 | |
云服务层 | MaxCompute支持创建不同的任务队列,并为每个队列配置不同的资源和优先级,以便对任务执行进行更精细的控制,同时具备强大的调度系统,可以管理并优化计算资源的分配和使用,以提高系统的整体效率。MaxCompute也提供数据安全性的多层保护,包括项目空间隔离、权限控制、数据加密,确保数据的安全和隐私。 |
统一元数据及安全体系 |
MaxCompute的离线租户级别元数据信息会通过Information Schema提供服务,同时Information Schema也提供MaxCompute的使用历史日志数据查询等服务,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。
MaxCompute还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理。 |
用户接口与开放性 |
MaxCompute提供如下用户接口:
|
数据生态支持 | MaxCompute与阿里云DataWorks深度结合,可通过DataWorks实现一站式数据开发分析治理,同时也支持其他多种数据开发分析场景:
|
TopConsole(管理控制台) | 提供MaxCompoute项目管理、Quota管理、租户管理等基础配置管理能力,以及作业运维、资源观测基本运维能力,还有物化视图、成本分析优化等增强运维能力,详情请参见资源和作业管理。 |
四、产品优势
MaxCompute的主要优势如下:
-
简单易用
- 面向数据仓库实现高性能存储、计算。
- 预集成多种服务,标准SQL开发简单。
- 内建完善的管理和安全能力。
- 免运维,按量付费,不使用不产生计算费用。
-
匹配业务发展的弹性扩展能力
存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。 -
支持多种分析场景
支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。 -
开放的平台
- 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
- 支持与Airflow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用。
原文地址:什么是MaxCompute
1 Comment