什么是MaxCompute

内容纲要

一、前言

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效地分析处理海量数据。

随着数据收集手段不断丰富，行业数据大量积累，数据规模已增长到了传统软件行业无法承载的海量数据（TB、PB、EB）级别。MaxCompute提供离线和实时的数据接入，支持大规模数据计算及查询加速能力，为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。

MaxCompute适用于100 GB以上规模的存储及计算需求，最大可达EB级别，并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

MaxCompute还深度融合了阿里云如下产品：

DataWorks
基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。
人工智能平台PAI
基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。
实时数仓Hologres
基于Hologres对MaxCompute数据进行外表查询加速，也可导出到Hologres进行交互式分析。
Quick BI
基于Quick BI对MaxCompute数据进行报表制作，实现数据可视化分析。

二、核心功能

功能分类	功能描述
全托管的Serverless在线服务	对外以API方式访问的在线服务，开箱即用。预铺设大规模集群资源，可以按需使用、按量计费。无需平台运维，最小化运维投入。
弹性能力与扩展性	存储和计算独立扩展，支持企业将全部数据资产在一个平台上进行联动分析，消除数据孤岛。支持实时根据业务峰谷变化分配资源。
统一丰富的计算和存储能力	MaxCompute支持多种计算模型和丰富的UDF。采用列压缩存储格式，通常情况下具备5倍压缩能力，可以大幅节省存储成本。
数据建模、开发、治理能力	借助一站式数据开发与治理平台DataWorks，可实现全域数据汇聚、融合加工和治理。DataWorks支持对MaxCompute项目进行管理以及Web端查询编辑。
集成AI能力	与人工智能平台 PAI无缝集成，提供强大的机器学习处理能力。您可以使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。
深度集成Spark引擎	内建Apache Spark引擎，提供完整的Spark功能。与MaxCompute计算资源、数据和权限体系深度集成。
湖仓一体	集成对数据湖（OSS或Hadoop HDFS）的访问分析，支持通过外部表映射、Spark直接访问方式开展数据湖分析。在一套数据仓库服务和用户接口下，实现数据湖与数据仓库的关联分析详细信息，请参见MaxCompute湖仓一体概述。
离线实时一体	与实时数仓Hologres深度融合，支持外部表关联查询，支持存储层直读，查询效率相比其他类型外部表高5倍以上。 Hologres针对MaxCompute支持查询加速，数据无需移动，查询加速10倍以上。 Hologres支持MaxCompute元数据的批量导入，无需手工创建外表。
支持流式写入和近实时分析	支持流式数据实时写入并在数据仓库中开展分析。与云上主要流式服务深度集成，轻松接入各种来源的流式数据。支持高性能秒级弹性并发查询，满足近实时分析场景需求。
提供持续的SaaS化云上数据保护	为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等保三级超20项安全功能，兼具开源大数据与托管数据库的安全能力。

三、产品架构

MaxCompute的产品架构如下。

其中核心模块介绍如下。

模块名称	功能说明
存储引擎	MaxCompute为您提供MaxCompute存储引擎（内部存储）用于存储MaxCompute表、资源等，同时您也可以通过外表的方式直接读取存储在OSS、TableStore、RDS等其他产品中的数据。其中MaxCompute存储引擎主要采用列压缩存储格式，通常情况下可达到5倍压缩比。
计算引擎	MaxCompute为您提供MaxCompute SQL计算引擎和CUPID计算平台。 MaxCompute SQL引擎：可直接运行MaxCompute SQL任务。MaxCompute SQL任务的命令及函数语法要求及开发示例可参见开发参考：SQL。 CUPID计算平台：可运行Spark任务、Mars任务等三方引擎的任务，多引擎的开发要求及示例请参见开发参考：多引擎。
云服务层	MaxCompute支持创建不同的任务队列，并为每个队列配置不同的资源和优先级，以便对任务执行进行更精细的控制，同时具备强大的调度系统，可以管理并优化计算资源的分配和使用，以提高系统的整体效率。MaxCompute也提供数据安全性的多层保护，包括项目空间隔离、权限控制、数据加密，确保数据的安全和隐私。
统一元数据及安全体系	MaxCompute的离线租户级别元数据信息会通过Information Schema提供服务，同时Information Schema也提供MaxCompute的使用历史日志数据查询等服务，您可以对作业的运行情况，例如资源消耗、运行时长、数据处理量等指标进行分析，用于优化作业或规划资源容量。 MaxCompute还提供了完善的安全管理体系，例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息，请参见安全管理。
用户接口与开放性	MaxCompute提供如下用户接口： Tunnel：MaxCompute数据传输服务集群，目前包括共享集群与独享集群。 API与SDK： Restful API Java SDK、Python SDK JDBC：JDBC Connector：给第三方产品封装的连接器，目前包括Flink、Spark、Kafka等，详情请参见使用Flink（流式数据传输-新版）、使用Kafka（离线与实时）。
数据生态支持	MaxCompute与阿里云DataWorks深度结合，可通过DataWorks实现一站式数据开发分析治理，同时也支持其他多种数据开发分析场景：数据湖数据集成数据治理三方引擎的数据开发数据可视化分析
TopConsole（管理控制台）	提供MaxCompoute项目管理、Quota管理、租户管理等基础配置管理能力，以及作业运维、资源观测基本运维能力，还有物化视图、成本分析优化等增强运维能力，详情请参见资源和作业管理。

四、产品优势

MaxCompute的主要优势如下：

简单易用
- 面向数据仓库实现高性能存储、计算。
- 预集成多种服务，标准SQL开发简单。
- 内建完善的管理和安全能力。
- 免运维，按量付费，不使用不产生计算费用。
匹配业务发展的弹性扩展能力
存储和计算独立扩展，动态扩缩容，按需弹性扩展，无需提前规划容量，满足突发业务增长。
支持多种分析场景
支持开放数据生态，以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。
开放的平台
- 支持开放接口和生态，为数据、应用迁移、二次开发提供灵活性。
- 支持与Airflow、Tableau等开源和商业产品灵活组合，构建丰富的数据应用。

原文地址：什么是MaxCompute

一、前言

二、核心功能

三、产品架构

四、产品优势

林清杨

1 Comment

Leave a Comment 取消回复