什么是MaxCompute

内容纲要

一、前言

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute提供离线和实时的数据接入,支持大规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

MaxCompute还深度融合了阿里云如下产品:

  • DataWorks
    基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。

  • 人工智能平台PAI
    基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。

  • 实时数仓Hologres
    基于Hologres对MaxCompute数据进行外表查询加速,也可导出到Hologres进行交互式分析。

  • Quick BI
    基于Quick BI对MaxCompute数据进行报表制作,实现数据可视化分析。

二、核心功能

功能分类 功能描述
全托管的Serverless在线服务
  • 对外以API方式访问的在线服务,开箱即用。
  • 预铺设大规模集群资源,可以按需使用、按量计费。
  • 无需平台运维,最小化运维投入。
弹性能力与扩展性
  • 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。
  • 支持实时根据业务峰谷变化分配资源。
统一丰富的计算和存储能力
  • MaxCompute支持多种计算模型和丰富的UDF。
  • 采用列压缩存储格式,通常情况下具备5倍压缩能力,可以大幅节省存储成本。
数据建模、开发、治理能力 借助一站式数据开发与治理平台DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks支持对MaxCompute项目进行管理以及Web端查询编辑。
集成AI能力
  • 与人工智能平台 PAI无缝集成,提供强大的机器学习处理能力。
  • 您可以使用熟悉的Spark-ML开展智能分析。
  • 使用Python机器学习三方库。
深度集成Spark引擎
  • 内建Apache Spark引擎,提供完整的Spark功能。
  • 与MaxCompute计算资源、数据和权限体系深度集成。
湖仓一体
  • 集成对数据湖(OSS或Hadoop HDFS)的访问分析,支持通过外部表映射、Spark直接访问方式开展数据湖分析。
  • 在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析

详细信息,请参见MaxCompute湖仓一体概述

离线实时一体
  • 与实时数仓Hologres深度融合,支持外部表关联查询,支持存储层直读,查询效率相比其他类型外部表高5倍以上。
  • Hologres针对MaxCompute支持查询加速,数据无需移动,查询加速10倍以上。
  • Hologres支持MaxCompute元数据的批量导入,无需手工创建外表。
支持流式写入和近实时分析
  • 支持流式数据实时写入并在数据仓库中开展分析。
  • 与云上主要流式服务深度集成,轻松接入各种来源的流式数据。
  • 支持高性能秒级弹性并发查询,满足近实时分析场景需求。
提供持续的SaaS化云上数据保护 为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等保三级超20项安全功能,兼具开源大数据与托管数据库的安全能力。

三、产品架构

MaxCompute的产品架构如下。

其中核心模块介绍如下。

模块名称 功能说明
存储引擎
MaxCompute为您提供MaxCompute存储引擎(内部存储)用于存储MaxCompute表、资源等,同时您也可以通过外表的方式直接读取存储在OSS、TableStore、RDS等其他产品中的数据。
其中MaxCompute存储引擎主要采用列压缩存储格式,通常情况下可达到5倍压缩比。
计算引擎
MaxCompute为您提供MaxCompute SQL计算引擎和CUPID计算平台。

  • MaxCompute SQL引擎:可直接运行MaxCompute SQL任务。MaxCompute SQL任务的命令及函数语法要求及开发示例可参见开发参考:SQL
  • CUPID计算平台:可运行Spark任务、Mars任务等三方引擎的任务,多引擎的开发要求及示例请参见开发参考:多引擎
云服务层 MaxCompute支持创建不同的任务队列,并为每个队列配置不同的资源和优先级,以便对任务执行进行更精细的控制,同时具备强大的调度系统,可以管理并优化计算资源的分配和使用,以提高系统的整体效率。MaxCompute也提供数据安全性的多层保护,包括项目空间隔离、权限控制、数据加密,确保数据的安全和隐私。
统一元数据及安全体系
MaxCompute的离线租户级别元数据信息会通过Information Schema提供服务,同时Information Schema也提供MaxCompute的使用历史日志数据查询等服务,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。
MaxCompute还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理
用户接口与开放性
MaxCompute提供如下用户接口:

  • Tunnel:MaxCompute数据传输服务集群,目前包括共享集群与独享集群。
  • API与SDK:
  • JDBC:JDBC
  • Connector:给第三方产品封装的连接器,目前包括Flink、Spark、Kafka等,详情请参见使用Flink(流式数据传输-新版)、使用Kafka(离线与实时)。
数据生态支持 MaxCompute与阿里云DataWorks深度结合,可通过DataWorks实现一站式数据开发分析治理,同时也支持其他多种数据开发分析场景:

  • 数据湖
  • 数据集成
  • 数据治理
  • 三方引擎的数据开发
  • 数据可视化分析
TopConsole(管理控制台) 提供MaxCompoute项目管理、Quota管理、租户管理等基础配置管理能力,以及作业运维、资源观测基本运维能力,还有物化视图、成本分析优化等增强运维能力,详情请参见资源和作业管理

四、产品优势

MaxCompute的主要优势如下:

  • 简单易用

    • 面向数据仓库实现高性能存储、计算。
    • 预集成多种服务,标准SQL开发简单。
    • 内建完善的管理和安全能力。
    • 免运维,按量付费,不使用不产生计算费用。
  • 匹配业务发展的弹性扩展能力
    存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。

  • 支持多种分析场景
    支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。

  • 开放的平台

    • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
    • 支持与Airflow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用。

原文地址:什么是MaxCompute

1 Comment

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

close
arrow_upward