【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(上)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(上)

一、实验概述


大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。


本实验实验结合实际数据和案例,深入浅出的演示了如何进行MaxCompute各种客户端的配置。


二、实验目标


本实验讲述如何借助Console控制台、Eclipse开发工具以及阿里云管理控制台,使用 MaxCompute 服务的基础功能。


完成此实验后,可以掌握的能力有:

  1. 安装配置Console控制台;
  2. 安装配置Eclipse;
  3. 通过管理控制台使用MaxCompute;

三、学习建议


1. 掌握Console控制台、Eclipse开发工具以及阿里云管理控制台的使用;
  2. 提前安装 ODPS客户端(下载客户端软件)等;


第 2 章:实验准备


2.1 检查本地系统软件安装配置情况


(1) 下载本实验所用到的介质包:(见实验附件)

将ODPS_DEMO.zip解压至本地目录 C:\ODPS_DEMO,解压密码为:aca21104

(2) 查看本次实验课用到的介质:


dir C:\ODPS_DEMO\InstallMedia


至少应该包含以下文件:


odpscmd_public.zip
  odps-eclipse-plugin-bundle-0.16.0.jar
  odps-sdk-core-0.18.3-public.jar

20200711105821950.png

说明:a) 为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作,ODPS提供了Eclipse开发插件。


该插件能够模拟MapReduce及UDF的运行过程,为用户提供本地调试手段,并提供了简单的模板生成功能。


b) 与MapReduce提供的本地运行模式不同,Eclipse插件不能够与ODPS同步数据。用户使用的数据需要


手动拷贝到Eclipse插件的warehouse目录下

(3) 检查系统是否安装了Java运行环境(1.6及以上版本):


java -version 


说明:JDK1.8的下载地址如下:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html


(4)检查是否安装了eclipse,建议使用luna-sr2 版本;


说明:目前高版本的Eclipse Neon有可能会导致插件加载失败,请使用Eclipse Luna版本。


(下载地址:http://www.eclipse.org/downloads/packages/release/luna/sr2


(5) 使用实验账号,登录阿里云官网,检查账号下的可用资源:


   应至少包括大数据计算 服务;(采用沙箱实验环境,资源开通后会自动开通大数据计算 服务,创建实验项目,生成实验所需AccessKeyID 和 AccessKeySecret、企业别名等信息,具体参见创建实验环境章节)


若采用个人账号进行实验,如无项目,请新建一个项目用于本次实验,本实验中使用项目名称为 aca21104_demo(也可以自行命名);(采用沙箱实验环境,系统自动创建一个项目,名称请替换为实验创建名称)


检查可用 AccessKeyID 和 AccessKeySecret,并记录一对用于后续实验;(采用沙箱实验环境,系统自动生成一对AccessKeyID 和 AccessKeySecret,供实验使用)


2.2 申请MaxCompute资源


在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。


2.3 开通实验环境


1)查看资源

登录云中沙箱,在实验目录中查询所需实验,进入实验,点击“实验资源”,查看所需具体资源(已查看直接跳过)

2)创建资源


点击“创建资源”,即可进入实验环境。(由于实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建)

创建资源需要几分钟时间,请耐心等候……


资源创建完成,如图示例:20200711110215109.png


说明:


企业别名:即主账号ID;


子用户名称和子用户密码:登录实验环境以及配置MaxCompute 数据源时需要;


AK ID和AK Secret:系统为本用户分配的登录验证密钥信息,在配置客户端及数据源时应用;


控制台url:登录实验环境的地址;


进入控制台

点击“控制台url”, 复制地址,打开该链接并登录实验账号!

进入登录页面,输入申请资源处提供的账号,格式为:子用户名称@企业别名


20200711110246258.png


第 3 章:实验内容


3.1 安装配置Console控制台


1、安装配置客户端

(1)下载附件,找到安装介质 odpscmd_public.zip,解压缩到C:\ODPS_DEMO\。(具体目录自行确定,本实验假定为C:\ODPS_DEMO\)


(2)进入目录 C:\ODPS_DEMO\odpscmd_public\conf\,打开文件odps_config.ini,修改配置信息:

20200711110328781.png

备注:


· 将其中的access_id和access_key等号后面替换为在开通实验环境中所获取的具体信息。


· 如果你经常使用某个project,可以将该project的名字添加到”project_name=”之后。这样可以避免每次进入客户端后均需要执行”useproject_name;”命令。


(3)通过命令行,进入C:\ODPS_DEMO\odpscmd_public\bin\,执行 odpscmd,进入交互界面,确认安装是否配置成功,如图:


20200711110355226.png


4)将 C:\ODPS_DEMO\odpscmd_public\bin加入环境变量 PATH,方便通过命令行调用 odpscmd

备注:我的电脑->右键(属性)->高级系统设置->环境变量->系统变量->新建。

按照上述路径操作,完成系统环境变量的添加,如图:

20200711110415182.png


2、交互界面执行常用命令

(1)进入交互界面


odpscmd


(2)分别执行下述命令


# 查看帮助信息
   help;
#切换项目
    use aca21104_demo;   (实验中具体开通的项目)
#查看当前项目的详细信息
   desc project aca21104_demo;  (实验中具体开通的项目)
#列出表信息
    ls tables;
# 查看某个表的具体信息
   注意:如果表dual 未创建,可以先创建表dual :create table dual (X string); 
             表中插入记录:insert into table dual select count(*) from dual;
   查看表 :desc dual;
#查看表中记录数
    countdual;
     selectcount(*) from dual;
#查看表记录内容:
    read dual;
    select *from dual;
#添加用户 ben.ning@aliyun.com 到当前项目空间中来,(此操作需要使用主账号,仅作了解):
    listusers;
    remove user ALIYUN$ben.ning@aliyun.com;
    add user ALIYUN$ben.ning@aliyun.com;


新建表t_test


create tableif not exists t_test (id int, name string);


插入一条数据


insert intotable t_test select * from t_test;

查看表中记录:


read t_test;


3、使用 -f 参数执行指定文件中的命令集


(1)在目录 C:\ODPS_DEMO\resources\01-BasicKnowledge\中的命令文件 crt_tbl_new.cmd:

use aca21104_demo;
drop tableif exists t_test;
create tablet_test (id int, name string);
insert intotable t_test select 1,‘odps’ from dual;
read t_test;


(2)使用 odpscmd调用命令文件:


odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd


(3)使用odpscmd 执行命令文件中的一部分命令(跳过开头的命令):


odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd-k 4


4、使用 -e 参数执行命令集

(1)使用odpscmd-e 执行多个命令:


odpscmd -e “insertinto table t_test select 2,‘odpscmd’ from dual; read t_test;”


(2)使用 -e 和 -k 结合在执行命令集时可跳过一些命令:


odpscmd-e “insert into table t_test select 2,‘odpscmd’ from dual; readt_test;” -k 2


3.2 安装配置Eclipse

1、安装配置Eclipse

(1) 找到下载的安装介质 eclipse-java-luna-SR2-win32-x86_64.zip,解压缩到 D:\Eclipse\。


(2) 进入目录 D:\Eclipse\,双击执行 eclipse.exe,进行配置。


(3) 设置Workspace路径为:D:\workspace,如图:

20200711110641423.png


(4) 点击OK按钮,配置完成后,看到如下Eclipse工作台,如图。

20200711110708990.png


2、安装Eclipse插件

(1) 进入ODPS解压缩目录:C:\ODPS_DEMO\InstallMedia,会看到如下jar内容:


odps-eclipse-plugin-bundle-0.16.0.jar


(2) 将插件放置在Eclipse安装目录的plugins子目录下(D:\eclipse\plugins\)。打开Eclipse,点击右上角的打开透视图(Open Perspective),如图:

20200711110728560.png

(3) 点击后出现下面的对话框,如图:

20200711110751114.png

在这里插入图片描述

(4) 选择ODPS,随后点击OK键。同样在右上角会出现ODPS图标,表示插件生效,如图:

20200711110811670.png


3、创建MaxCompute工程

创建 MaxCompute 工程有两种方式。


方式一:


(1) 在左上角选择文件(File) -> 新建(New)->Project->ODPS->ODPS Project,创建工程(示例中使用ODPS作为工程名),如图

20200711110842474.png

(2) 创建MaxCompute工程后会出现如下对话框。输入Project name,

选择MaxCompute客户端路径(C:\ODPS_DEMO\odpscmd_public),点击“Finish”,如图:


20200711110906209.png


方式二:

(1) 直接点击左上角的”新建”,如图:

20200711110925880.png


(2) 弹出对话框后,选择”ODPS Project”,点击”下一步”,如图:

20200711110944835.png


3.3 通过管理控制台使用MaxCompute

大数据计算服务 ( MaxCompute,原名 ODPS )向用户提供了完善的数据导入方案,能够更快速的解决用户海量数据计算问题。MaxCompute 数据源作为数据中枢,提供了对与项目的配置,提供了读取 和 写入MaxCompute 双向通道的能力,支持reader和writer插件。


【说明】每个项目空间系统都将生成一个默认的数据源(odps_first),对应的ODPS项目名称为当前项目空间对应的计算引擎ODPS项目名称(为提供的实验资源中显示的project名称,并非Eclipse中的名称)。


项目管理员创建ODPS数据源,具体步骤如下:


步骤1:打开管理控制台, 在“大数据(数加)”产品列表中,点击“DataWorks”。

20200711111014459.png


创建项目需要管理员权限,沙箱实验环境默认创建完项目。点击对应项目操作栏中的进入数据开发。

20200711111033106.png

步骤2:点击左上角图表,然后点击“数据集成”功能模块。


2020071111105123.png


步骤3:点击新增数据源。

20200711111109343.png

步骤4:在新增数据源弹出框中,选择数据源类型为MaxCompute(ODPS)。

20200711111129476.png

步骤5:配置数据源的各个信息项。

20200711111148722.png

针对ODPS数据源配置项的具体说明如下:


■ 数据源名称:自定义名称,由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过30个字符。


■ 数据源描述:对数据源的简单描述,不超过80个字。


■ ODPS Endpoint:默认只读。从系统配置中自动读取。


■ ODPS项目名称:对应实验资源中提供的项目名称。


■ AccessID:对应实验资源中提供的AK ID。


■ AccessKey:对应实验资源中提供的AK Secret,与AK ID成对使用。


步骤6:完成上述信息项的配置后,点击测试连通性。

20200711111209361.png



步骤7:测试连通性通过后,点击确定,数据源被新增到列表中


20200711111230220.png


第 4 章:实验总结


4.1 实验总结


本实验重点介绍在Console控制台、Eclipse开发环境下以及阿里云管理控制台上,如何配置和使用MaxCompute,进行相关程序的开发。熟练掌握各种开发环境的使用方法,在日后的学习和实践过程中反复练习,孰能生巧。MaxCompute学习的过程是一个应用与实践的过程,通过发现问题、寻找方法、解决问题,不断提高基于MaxCompute开发技能,定能收获满满!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
22天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
69 1
|
3月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
3月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
3月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
3月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
463 0
|
3月前
|
SQL 分布式计算 大数据
"大数据计算难题揭秘:MaxCompute中hash join内存超限,究竟该如何破解?"
【8月更文挑战第20天】在大数据处理领域,阿里云的MaxCompute以高效稳定著称,但复杂的hash join操作常导致内存超限。本文通过一个实例解析此问题:数据分析师小王需对两个共计300GB的大表进行join,却遭遇内存不足。经分析发现,单个mapper任务内存默认为2GB,不足以支持大型hash表的构建。为此,提出三种解决方案:1) 提升mapper任务内存;2) 利用map join优化小表连接;3) 实施分而治之策略,将大表分割后逐一处理再合并结果。这些方法有助于提升大数据处理效率及稳定性。
70 0
|
3月前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
95 0
|
SQL 人工智能 分布式计算
MaxCompute平台非标准日期和气象数据处理方法--以电力AI赛为例
MaxCompute平台支持的日期格式通常是对齐的日期格式诸如20170725或2017/07/25这种,而本次电力AI赛提供的日期格式却是未对齐的非标准的日期格式2016/1/1这种,使得无法直接使用ODPS SQL中的日期函数来进行处理。
5326 0
|
26天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
5天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
28 1

热门文章

最新文章