阿里云大数据计算服务MaxCompute 使用教程
https://edu.aliyun.com/course/312644
课程介绍
云原生大数据计算服务 MaxCompute是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。
了解MaxCompute https://www.aliyun.com/product/odps
本课程带你了解
- MaxCompute产品介绍
- 安装MaxCompute客户端odpscmd
- MaxCompute客户端odpscmd使用说明
- MaxCompute Studio安装配置说明
- MaxCompute SQL基本操作介绍
- MaxCompute SQL与Hive对比分析
- 基于MaxCompute的大数据BI分析最佳实践
- MySQL/RDS数据如何同步到MaxCompute
- Hadoop数据迁移至MaxCompute
- Hive数据如何同步至MaxCompute
- Kafka 数据如何同步到 MaxCompute
课时列表
- 第0章:学习资源领取
- 课时0:免费领取云资源额度
- 第1章:基本操作 共6课时
- 课时1:MaxCompute产品介绍
- 课时2:安装MaxCompute客户端odpscmd
- 课时3:MaxCompute Studio安装配置说明
- 课时4:MaxCompute SQL基本操作介绍
- 课时5:MaxCompute SQL与Hive对比分析
- 课时6:基于MaxCompute的大数据BI分析最佳实践
- 第2章:数据迁移
- 课时7:MySQL/RDS数据如何同步到MaxCompute
- 课时8:Hadoop数据迁移至MaxCompute
- 课时9:Hive数据如何同步至MaxCompute
- 课时10:Kafka 数据如何同步到 MaxCompute
课程详情
第1章:基本操作 共6课时
课时1:MaxCompute产品介绍
该对话主要讨论了企业在数字化转型过程中面临的挑战,以及飞天大数据maxim Q产品如何解决这些问题。企业面临的挑战包括数据孤岛、IT平台敏捷创新能力、数据开发效率、资源成本和运维困难等。飞天大数据maxim Q产品通过提供智能化的数据开发和应用产品建设能力,满足不同业务团队的需求,同时提高开发效率和用户体验。此外,该产品还解决了自建平台存在的资源成本和运维成本过高、IT人才短缺、资源利用率不高以及安全管理等问题。 其次,对话还介绍了阿里云提供的多种大数据产品组合的解决方案,其中 maximum是核心的数据仓库产品。mysql作为阿里云的大数据核心组件,采用sars模式,提供高弹性和低成本的数据平台扩展性。此外,mysql还融合了数据库的探索能力,支持数据仓库和数据库的联邦查询。通过与派的无缝集成,mysql提供了BI加AI的一体化产品能力。最后,对话还强调了云原生系统的弹性需求和容量规划问题,以及mysql service的价值和优势。
课时2:安装MaxCompute客户端odpscmd
讲解了在Windows环境下配置和使用MaxCompute客户端的步骤。客户端是一个Java运行程序,需要JRE运行环境,并从0.28.0版开始支持JDK 1.9。解压下载的文件后,需要编辑conf文件夹中的OTPS下划线confine点ini文件进行客户端配置。配置完成后,可以使用ODPS cm t点BAT登录到ODPS客户端,查看版本信息,并使用各种命令进行操作,如who am I命令获取当前登录用户信息,help IS获取与LS相关的命令,show tables命令显示在项目空间下的表等。退出命令为quit。建议参考文档进行相关操作。
课时3:MaxCompute Studio安装配置说明
本文介绍了阿里云数加max computer studio的安装配置和说明。首先,通过几个步骤来认识max computer studio的功能和外观。在安装前,需要满足一些准备条件,如本地环境和IDE版本。安装完成后,可以通过配置项目连接来管理已有的在线项目资源。max computer studio是一个本地的集成开发环境,可以管理数家线上的项目空间,并集成了数据上传和下载工具。在这个环境中,可以进行Java开发,管理表和UDF,并查看日志和进度。通过插件库在线安装max computer studio,并通过五个步骤快速搭建本地开发环境。最后,可以通过连接资源来与在线项目进行互动。文章还提供了max computer产品详情页和帮助文档的访问途径。
课时4:MaxCompute SQL基本操作介绍
介绍了一些常用的SQL基本操作命令,包括登录ODPS CMD客户端、查看表、删除表、创建表、上传CSV文件数据、查看表信息和读取表中记录等。还展示了如何使用join操作命令连接两张表的查询结果。同时提醒读者可以参考maxcompute产品文档用户指南目录下的SQL章节进行更深入的学习和实践。
课时5:MaxCompute SQL与Hive对比分析
本文对比了max computer和have在内容介绍、功能介绍、使用注意事项等方面的特点和功能,并详细介绍了max computer的系统架构、支持的计算类型以及用户只需关注作业和数据的设计思路。此外,还介绍了max computer和have在文件系统、客户端、项目空间、建表语句、数据上传下载、分区分桶、外部表、MapReduce、权限授权、数据操作等方面的对比。文章还提出了使用max computer可以节省运维和开发成本的优势,以及加入max computer开发者社区群的方式和讨论提出建议的途径。
课时6:基于MaxCompute的大数据BI分析最佳实践
本文介绍了基于Maximumputer的大数据BI分析最佳实践,包括业务场景、数据处理流程以及产品介绍。通过使用Maximum ter、ADB和Quick BI等产品,能够快速搭建数据分析平台,降低大数据建设门槛,解决海量数据的计算问题。同时,介绍了日志服务的功能和与其他产品的无缝对接,以及最佳实践文档的提供。此外,还介绍了在数据开发中创建业务流程、数据集成以及数据同步的步骤,以及使用maxoncomputer的ETL数据节点对数据进行清洗和处理的方法。最后,还介绍了使用Quick BI进行数据分析和报表展示的最佳实践。
第2章:数据迁移
课时7:MySQL/RDS数据如何同步到MaxCompute
本次讲解主要分为四个部分,介绍了RDS数据同步到max computer的操作步骤和注意事项。首先,实验方案的概述中指出了本次实验的目的是将RDS中的数据同步到max computer,并介绍了方案一和方案二的流程。接下来介绍了RDS的概念和数据集成的功能,以及DTS的含义和操作步骤。最后,提到了实验中需要注意的事项,如配置RDS的白名单和快速批量配置的方法。总结了数据集成和DTS同步的操作流程,并提供了技术交流群的二维码。
课时8:Hadoop数据迁移至MaxCompute
本文介绍了将Hadoop迁移到Max Sport的常用方法,包括数据迁移和任务迁移。在任务迁移方面,可以使用data叉、数据集成和data works等工具。其中,data叉需要用户自定义任务调度,而data works可以设置任务周期等属性。数据集成则需要根据网络情况选择调度资源。此外,还介绍了影响数据迁移选择方案的因素,包括网络、数据量和迁移周期。对于不同的网络情况,如混合云、本地机房和阿里云集群,需要采取相应的迁移方法。数据量和迁移周期会影响选择迁移方式,网络带宽和gateway资源也会影响迁移效率。本文还介绍了数据迁移的三种方式,以及在迁移过程中可能遇到的问题和需要进行的改动。此外,还讨论了HDFS的配置文件和数据集成的配置差异,以及对HDFS的支持和数据源的配置。对于使用data AKS时需要注意的数据源连通性支持情况,包括从hadoop到ODPS到my computer的连接方式。在专有云的ODPS中,还需要考虑数据同步端口问题。最后,讨论了数据迁移方案的选择因素,如网络情况、效率和成本等。
课时9:Hive数据如何同步至MaxCompute
本文介绍了MySQL迁移工具MMA的技术架构和功能,包括批量迁移、数据结构映射兼容性评估、自动化建表和数据同步、工作流迁移等。同时,还介绍了MMA与阿里云大数据服务的关系以及与data works的对接。此外,还介绍了使用hadoopplanner进行数据采集的方法,解压工具的使用方法和参数说明,以及在ODPS平台上批量创建表的操作步骤和数据迁移的方法。最后,介绍了一个数据迁移工具的工作流和迁移方式,以及其他作业类型的迁移方式和Spark的使用方法。
课时10:Kafka 数据如何同步到 MaxCompute
本文介绍了卡夫卡同步数据到max compute的操作流程,包括实验目的、数据集成方案、消息队列使用原理、资源组配置、同步过程注意事项以及开发测试与生产部署。通过自定义资源组和独享资源组两种方案,卡夫卡的数据可以顺利同步到max compute并在quick bi中展示。此外,还对卡夫卡产品进行了简单介绍,并强调了其低成本、弹性和可靠的优势。对话还涉及了卡夫卡消息队列的购买方式、地区选择、实例类型和消息存放时间等参数设置,以及部署和命名规范的注意事项。对于访问卡夫卡的白名单配置也进行了说明。另外,还介绍了自定义资源组和独享资源组的使用背景、配置和添加方法,以及独享资源组的使用步骤和注意事项。最后,还提供了卡夫卡同步到mexico computer的一个脚本模式编写,在Data Work中进行数据同步的步骤,以及在开发阶段中进行业务流程的开发和SQL节点的设计。