阿里云大数据计算服务MaxCompute 使用教程

内容纲要

阿里云大数据计算服务MaxCompute 使用教程
https://edu.aliyun.com/course/312644

课程介绍

云原生大数据计算服务 MaxCompute是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。
了解MaxCompute https://www.aliyun.com/product/odps

本课程带你了解

MaxCompute产品介绍
安装MaxCompute客户端odpscmd
MaxCompute客户端odpscmd使用说明
MaxCompute Studio安装配置说明
MaxCompute SQL基本操作介绍
MaxCompute SQL与Hive对比分析
基于MaxCompute的大数据BI分析最佳实践
MySQL/RDS数据如何同步到MaxCompute
Hadoop数据迁移至MaxCompute
Hive数据如何同步至MaxCompute
Kafka 数据如何同步到 MaxCompute

课时列表

第0章：学习资源领取
- 课时0：免费领取云资源额度
第1章：基本操作共6课时
- 课时1：MaxCompute产品介绍
- 课时2：安装MaxCompute客户端odpscmd
- 课时3：MaxCompute Studio安装配置说明
- 课时4：MaxCompute SQL基本操作介绍
- 课时5：MaxCompute SQL与Hive对比分析
- 课时6：基于MaxCompute的大数据BI分析最佳实践
第2章：数据迁移
- 课时7：MySQL/RDS数据如何同步到MaxCompute
- 课时8：Hadoop数据迁移至MaxCompute
- 课时9：Hive数据如何同步至MaxCompute
- 课时10：Kafka 数据如何同步到 MaxCompute

课程详情

第1章：基本操作共6课时

课时1：MaxCompute产品介绍

该对话主要讨论了企业在数字化转型过程中面临的挑战，以及飞天大数据maxim Q产品如何解决这些问题。企业面临的挑战包括数据孤岛、IT平台敏捷创新能力、数据开发效率、资源成本和运维困难等。飞天大数据maxim Q产品通过提供智能化的数据开发和应用产品建设能力，满足不同业务团队的需求，同时提高开发效率和用户体验。此外，该产品还解决了自建平台存在的资源成本和运维成本过高、IT人才短缺、资源利用率不高以及安全管理等问题。其次，对话还介绍了阿里云提供的多种大数据产品组合的解决方案，其中 maximum是核心的数据仓库产品。mysql作为阿里云的大数据核心组件，采用sars模式，提供高弹性和低成本的数据平台扩展性。此外，mysql还融合了数据库的探索能力，支持数据仓库和数据库的联邦查询。通过与派的无缝集成，mysql提供了BI加AI的一体化产品能力。最后，对话还强调了云原生系统的弹性需求和容量规划问题，以及mysql service的价值和优势。

课时2：安装MaxCompute客户端odpscmd

讲解了在Windows环境下配置和使用MaxCompute客户端的步骤。客户端是一个Java运行程序，需要JRE运行环境，并从0.28.0版开始支持JDK 1.9。解压下载的文件后，需要编辑conf文件夹中的OTPS下划线confine点ini文件进行客户端配置。配置完成后，可以使用ODPS cm t点BAT登录到ODPS客户端，查看版本信息，并使用各种命令进行操作，如who am I命令获取当前登录用户信息，help IS获取与LS相关的命令，show tables命令显示在项目空间下的表等。退出命令为quit。建议参考文档进行相关操作。

课时3：MaxCompute Studio安装配置说明

本文介绍了阿里云数加max computer studio的安装配置和说明。首先，通过几个步骤来认识max computer studio的功能和外观。在安装前，需要满足一些准备条件，如本地环境和IDE版本。安装完成后，可以通过配置项目连接来管理已有的在线项目资源。max computer studio是一个本地的集成开发环境，可以管理数家线上的项目空间，并集成了数据上传和下载工具。在这个环境中，可以进行Java开发，管理表和UDF，并查看日志和进度。通过插件库在线安装max computer studio，并通过五个步骤快速搭建本地开发环境。最后，可以通过连接资源来与在线项目进行互动。文章还提供了max computer产品详情页和帮助文档的访问途径。

课时4：MaxCompute SQL基本操作介绍

介绍了一些常用的SQL基本操作命令，包括登录ODPS CMD客户端、查看表、删除表、创建表、上传CSV文件数据、查看表信息和读取表中记录等。还展示了如何使用join操作命令连接两张表的查询结果。同时提醒读者可以参考maxcompute产品文档用户指南目录下的SQL章节进行更深入的学习和实践。

课时5：MaxCompute SQL与Hive对比分析

本文对比了max computer和have在内容介绍、功能介绍、使用注意事项等方面的特点和功能，并详细介绍了max computer的系统架构、支持的计算类型以及用户只需关注作业和数据的设计思路。此外，还介绍了max computer和have在文件系统、客户端、项目空间、建表语句、数据上传下载、分区分桶、外部表、MapReduce、权限授权、数据操作等方面的对比。文章还提出了使用max computer可以节省运维和开发成本的优势，以及加入max computer开发者社区群的方式和讨论提出建议的途径。

课时6：基于MaxCompute的大数据BI分析最佳实践

本文介绍了基于Maximumputer的大数据BI分析最佳实践，包括业务场景、数据处理流程以及产品介绍。通过使用Maximum ter、ADB和Quick BI等产品，能够快速搭建数据分析平台，降低大数据建设门槛，解决海量数据的计算问题。同时，介绍了日志服务的功能和与其他产品的无缝对接，以及最佳实践文档的提供。此外，还介绍了在数据开发中创建业务流程、数据集成以及数据同步的步骤，以及使用maxoncomputer的ETL数据节点对数据进行清洗和处理的方法。最后，还介绍了使用Quick BI进行数据分析和报表展示的最佳实践。

第2章：数据迁移

课时7：MySQL/RDS数据如何同步到MaxCompute

本次讲解主要分为四个部分，介绍了RDS数据同步到max computer的操作步骤和注意事项。首先，实验方案的概述中指出了本次实验的目的是将RDS中的数据同步到max computer，并介绍了方案一和方案二的流程。接下来介绍了RDS的概念和数据集成的功能，以及DTS的含义和操作步骤。最后，提到了实验中需要注意的事项，如配置RDS的白名单和快速批量配置的方法。总结了数据集成和DTS同步的操作流程，并提供了技术交流群的二维码。

课时8：Hadoop数据迁移至MaxCompute

本文介绍了将Hadoop迁移到Max Sport的常用方法，包括数据迁移和任务迁移。在任务迁移方面，可以使用data叉、数据集成和data works等工具。其中，data叉需要用户自定义任务调度，而data works可以设置任务周期等属性。数据集成则需要根据网络情况选择调度资源。此外，还介绍了影响数据迁移选择方案的因素，包括网络、数据量和迁移周期。对于不同的网络情况，如混合云、本地机房和阿里云集群，需要采取相应的迁移方法。数据量和迁移周期会影响选择迁移方式，网络带宽和gateway资源也会影响迁移效率。本文还介绍了数据迁移的三种方式，以及在迁移过程中可能遇到的问题和需要进行的改动。此外，还讨论了HDFS的配置文件和数据集成的配置差异，以及对HDFS的支持和数据源的配置。对于使用data AKS时需要注意的数据源连通性支持情况，包括从hadoop到ODPS到my computer的连接方式。在专有云的ODPS中，还需要考虑数据同步端口问题。最后，讨论了数据迁移方案的选择因素，如网络情况、效率和成本等。

课时9：Hive数据如何同步至MaxCompute

本文介绍了MySQL迁移工具MMA的技术架构和功能，包括批量迁移、数据结构映射兼容性评估、自动化建表和数据同步、工作流迁移等。同时，还介绍了MMA与阿里云大数据服务的关系以及与data works的对接。此外，还介绍了使用hadoopplanner进行数据采集的方法，解压工具的使用方法和参数说明，以及在ODPS平台上批量创建表的操作步骤和数据迁移的方法。最后，介绍了一个数据迁移工具的工作流和迁移方式，以及其他作业类型的迁移方式和Spark的使用方法。

课时10：Kafka 数据如何同步到 MaxCompute

本文介绍了卡夫卡同步数据到max compute的操作流程，包括实验目的、数据集成方案、消息队列使用原理、资源组配置、同步过程注意事项以及开发测试与生产部署。通过自定义资源组和独享资源组两种方案，卡夫卡的数据可以顺利同步到max compute并在quick bi中展示。此外，还对卡夫卡产品进行了简单介绍，并强调了其低成本、弹性和可靠的优势。对话还涉及了卡夫卡消息队列的购买方式、地区选择、实例类型和消息存放时间等参数设置，以及部署和命名规范的注意事项。对于访问卡夫卡的白名单配置也进行了说明。另外，还介绍了自定义资源组和独享资源组的使用背景、配置和添加方法，以及独享资源组的使用步骤和注意事项。最后，还提供了卡夫卡同步到mexico computer的一个脚本模式编写，在Data Work中进行数据同步的步骤，以及在开发阶段中进行业务流程的开发和SQL节点的设计。

阿里云大数据计算服务MaxCompute 使用教程

课程介绍

课时列表

课程详情

第1章：基本操作共6课时

课时1：MaxCompute产品介绍

课时2：安装MaxCompute客户端odpscmd

课时3：MaxCompute Studio安装配置说明

课时4：MaxCompute SQL基本操作介绍

课时5：MaxCompute SQL与Hive对比分析

课时6：基于MaxCompute的大数据BI分析最佳实践

第2章：数据迁移

课时7：MySQL/RDS数据如何同步到MaxCompute

课时8：Hadoop数据迁移至MaxCompute

课时9：Hive数据如何同步至MaxCompute

课时10：Kafka 数据如何同步到 MaxCompute

林清杨

Leave a Comment 取消回复

课程介绍

课时列表

课程详情

第1章：基本操作 共6课时

课时1：MaxCompute产品介绍

课时2：安装MaxCompute客户端odpscmd

课时3：MaxCompute Studio安装配置说明

课时4：MaxCompute SQL基本操作介绍

课时5：MaxCompute SQL与Hive对比分析

课时6：基于MaxCompute的大数据BI分析最佳实践

第2章：数据迁移

课时7：MySQL/RDS数据如何同步到MaxCompute

课时8：Hadoop数据迁移至MaxCompute

课时9：Hive数据如何同步至MaxCompute

课时10：Kafka 数据如何同步到 MaxCompute

林清杨

Leave a Comment 取消回复

第1章：基本操作共6课时