一、实验概述
大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
本实验实验结合实际数据和案例,深入浅出的演示了如何进行MaxCompute各种客户端的配置。
二、实验目标
本实验讲述如何借助Console控制台、Eclipse开发工具以及阿里云管理控制台,使用 MaxCompute 服务的基础功能。
完成此实验后,可以掌握的能力有:
1. 安装配置Console控制台; 2. 安装配置Eclipse; 3. 通过管理控制台使用MaxCompute;
三、学习建议
1. 掌握Console控制台、Eclipse开发工具以及阿里云管理控制台的使用; 2. 提前安装 ODPS客户端(下载客户端软件)等;
第 2 章:实验准备
2.1 检查本地系统软件安装配置情况
(1) 下载本实验所用到的介质包:(见实验附件)
将ODPS_DEMO.zip解压至本地目录 C:\ODPS_DEMO,解压密码为:aca21104
(2) 查看本次实验课用到的介质:
dir C:\ODPS_DEMO\InstallMedia
至少应该包含以下文件:
odpscmd_public.zip odps-eclipse-plugin-bundle-0.16.0.jar odps-sdk-core-0.18.3-public.jar
说明:a) 为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作,ODPS提供了Eclipse开发插件。
该插件能够模拟MapReduce及UDF的运行过程,为用户提供本地调试手段,并提供了简单的模板生成功能。
b) 与MapReduce提供的本地运行模式不同,Eclipse插件不能够与ODPS同步数据。用户使用的数据需要
手动拷贝到Eclipse插件的warehouse目录下
(3) 检查系统是否安装了Java运行环境(1.6及以上版本):
java -version
说明:JDK1.8的下载地址如下:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
(4)检查是否安装了eclipse,建议使用luna-sr2 版本;
说明:目前高版本的Eclipse Neon有可能会导致插件加载失败,请使用Eclipse Luna版本。
(下载地址:http://www.eclipse.org/downloads/packages/release/luna/sr2)
(5) 使用实验账号,登录阿里云官网,检查账号下的可用资源:
应至少包括大数据计算 服务;(采用沙箱实验环境,资源开通后会自动开通大数据计算 服务,创建实验项目,生成实验所需AccessKeyID 和 AccessKeySecret、企业别名等信息,具体参见创建实验环境章节)
若采用个人账号进行实验,如无项目,请新建一个项目用于本次实验,本实验中使用项目名称为 aca21104_demo(也可以自行命名);(采用沙箱实验环境,系统自动创建一个项目,名称请替换为实验创建名称)
检查可用 AccessKeyID 和 AccessKeySecret,并记录一对用于后续实验;(采用沙箱实验环境,系统自动生成一对AccessKeyID 和 AccessKeySecret,供实验使用)
2.2 申请MaxCompute资源
在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。
资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。
2.3 开通实验环境
1)查看资源
登录云中沙箱,在实验目录中查询所需实验,进入实验,点击“实验资源”,查看所需具体资源(已查看直接跳过)
2)创建资源
点击“创建资源”,即可进入实验环境。(由于实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建)
创建资源需要几分钟时间,请耐心等候……
资源创建完成,如图示例:
说明:
企业别名:即主账号ID;
子用户名称和子用户密码:登录实验环境以及配置MaxCompute 数据源时需要;
AK ID和AK Secret:系统为本用户分配的登录验证密钥信息,在配置客户端及数据源时应用;
控制台url:登录实验环境的地址;
进入控制台
点击“控制台url”, 复制地址,打开该链接并登录实验账号!
进入登录页面,输入申请资源处提供的账号,格式为:子用户名称@企业别名
第 3 章:实验内容
3.1 安装配置Console控制台
1、安装配置客户端
(1)下载附件,找到安装介质 odpscmd_public.zip,解压缩到C:\ODPS_DEMO\。(具体目录自行确定,本实验假定为C:\ODPS_DEMO\)
(2)进入目录 C:\ODPS_DEMO\odpscmd_public\conf\,打开文件odps_config.ini,修改配置信息:
备注:
· 将其中的access_id和access_key等号后面替换为在开通实验环境中所获取的具体信息。
· 如果你经常使用某个project,可以将该project的名字添加到”project_name=”之后。这样可以避免每次进入客户端后均需要执行”useproject_name;”命令。
(3)通过命令行,进入C:\ODPS_DEMO\odpscmd_public\bin\,执行 odpscmd,进入交互界面,确认安装是否配置成功,如图:
4)将 C:\ODPS_DEMO\odpscmd_public\bin加入环境变量 PATH,方便通过命令行调用 odpscmd
备注:我的电脑->右键(属性)->高级系统设置->环境变量->系统变量->新建。
按照上述路径操作,完成系统环境变量的添加,如图:
2、交互界面执行常用命令
(1)进入交互界面
odpscmd
(2)分别执行下述命令
# 查看帮助信息 help; #切换项目 use aca21104_demo; (实验中具体开通的项目) #查看当前项目的详细信息 desc project aca21104_demo; (实验中具体开通的项目) #列出表信息 ls tables; # 查看某个表的具体信息 注意:如果表dual 未创建,可以先创建表dual :create table dual (X string); 表中插入记录:insert into table dual select count(*) from dual; 查看表 :desc dual; #查看表中记录数 countdual; selectcount(*) from dual; #查看表记录内容: read dual; select *from dual; #添加用户 ben.ning@aliyun.com 到当前项目空间中来,(此操作需要使用主账号,仅作了解): listusers; remove user ALIYUN$ben.ning@aliyun.com; add user ALIYUN$ben.ning@aliyun.com;
新建表t_test
create tableif not exists t_test (id int, name string);
插入一条数据
insert intotable t_test select * from t_test;
查看表中记录:
read t_test;
3、使用 -f 参数执行指定文件中的命令集
(1)在目录 C:\ODPS_DEMO\resources\01-BasicKnowledge\中的命令文件 crt_tbl_new.cmd:
use aca21104_demo; drop tableif exists t_test; create tablet_test (id int, name string); insert intotable t_test select 1,‘odps’ from dual; read t_test;
(2)使用 odpscmd调用命令文件:
odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd
(3)使用odpscmd 执行命令文件中的一部分命令(跳过开头的命令):
odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd-k 4
4、使用 -e 参数执行命令集
(1)使用odpscmd-e 执行多个命令:
odpscmd -e “insertinto table t_test select 2,‘odpscmd’ from dual; read t_test;”
(2)使用 -e 和 -k 结合在执行命令集时可跳过一些命令:
odpscmd-e “insert into table t_test select 2,‘odpscmd’ from dual; readt_test;” -k 2
3.2 安装配置Eclipse
1、安装配置Eclipse
(1) 找到下载的安装介质 eclipse-java-luna-SR2-win32-x86_64.zip,解压缩到 D:\Eclipse\。
(2) 进入目录 D:\Eclipse\,双击执行 eclipse.exe,进行配置。
(3) 设置Workspace路径为:D:\workspace,如图:
(4) 点击OK按钮,配置完成后,看到如下Eclipse工作台,如图。
2、安装Eclipse插件
(1) 进入ODPS解压缩目录:C:\ODPS_DEMO\InstallMedia,会看到如下jar内容:
odps-eclipse-plugin-bundle-0.16.0.jar
(2) 将插件放置在Eclipse安装目录的plugins子目录下(D:\eclipse\plugins\)。打开Eclipse,点击右上角的打开透视图(Open Perspective),如图:
(3) 点击后出现下面的对话框,如图:
在这里插入图片描述
(4) 选择ODPS,随后点击OK键。同样在右上角会出现ODPS图标,表示插件生效,如图:
3、创建MaxCompute工程
创建 MaxCompute 工程有两种方式。
方式一:
(1) 在左上角选择文件(File) -> 新建(New)->Project->ODPS->ODPS Project,创建工程(示例中使用ODPS作为工程名),如图
(2) 创建MaxCompute工程后会出现如下对话框。输入Project name,
选择MaxCompute客户端路径(C:\ODPS_DEMO\odpscmd_public),点击“Finish”,如图:
方式二:
(1) 直接点击左上角的”新建”,如图:
(2) 弹出对话框后,选择”ODPS Project”,点击”下一步”,如图:
3.3 通过管理控制台使用MaxCompute
大数据计算服务 ( MaxCompute,原名 ODPS )向用户提供了完善的数据导入方案,能够更快速的解决用户海量数据计算问题。MaxCompute 数据源作为数据中枢,提供了对与项目的配置,提供了读取 和 写入MaxCompute 双向通道的能力,支持reader和writer插件。
【说明】每个项目空间系统都将生成一个默认的数据源(odps_first),对应的ODPS项目名称为当前项目空间对应的计算引擎ODPS项目名称(为提供的实验资源中显示的project名称,并非Eclipse中的名称)。
项目管理员创建ODPS数据源,具体步骤如下:
步骤1:打开管理控制台, 在“大数据(数加)”产品列表中,点击“DataWorks”。
创建项目需要管理员权限,沙箱实验环境默认创建完项目。点击对应项目操作栏中的进入数据开发。
步骤2:点击左上角图表,然后点击“数据集成”功能模块。
步骤3:点击新增数据源。
步骤4:在新增数据源弹出框中,选择数据源类型为MaxCompute(ODPS)。
步骤5:配置数据源的各个信息项。
针对ODPS数据源配置项的具体说明如下:
■ 数据源名称:自定义名称,由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过30个字符。
■ 数据源描述:对数据源的简单描述,不超过80个字。
■ ODPS Endpoint:默认只读。从系统配置中自动读取。
■ ODPS项目名称:对应实验资源中提供的项目名称。
■ AccessID:对应实验资源中提供的AK ID。
■ AccessKey:对应实验资源中提供的AK Secret,与AK ID成对使用。
步骤6:完成上述信息项的配置后,点击测试连通性。
步骤7:测试连通性通过后,点击确定,数据源被新增到列表中
第 4 章:实验总结
4.1 实验总结
本实验重点介绍在Console控制台、Eclipse开发环境下以及阿里云管理控制台上,如何配置和使用MaxCompute,进行相关程序的开发。熟练掌握各种开发环境的使用方法,在日后的学习和实践过程中反复练习,孰能生巧。MaxCompute学习的过程是一个应用与实践的过程,通过发现问题、寻找方法、解决问题,不断提高基于MaxCompute开发技能,定能收获满满!