大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇

简介: 本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

实验涉及大数据产品

前提准备

必备条件:

  • 已经从云中沙箱中获取了实验所需的阿里云账号和密码。
  • 点击下载实验数据,体验阿里云DataHub。
  • 如果您已经创建了DataHub Project,即可跳过创建DataHub Topic章节,直接进入创建DataHub Topic章节

创建DataHub Project

阿里云DataHub默认对所有云账号为开通状态,只需要创建项目所需的Project和Topic即可。

阿里云DataHub project名称是全局唯一的,建议大家本次实验按照workshop_abc的规则来命名,abc为您获取的云账号后三位数字。如获取云账号为train00620@aliyun-inc.com,那么project名称命名为workshop_620。

下次再说

  • step2:点击右上角创建Project
    创建project
  • step3:填写Project名称和描述,点击创建,如下图所示,表示DataHub Project已经创建成功。
    配置Project

配置成功

创建DataHub Topic

已经创建了Project的用户可以直接按照此步骤来实现创建DataHub Topic进而进入实验。

  • step1:保证账号在登录状态,点击已创建project操作栏中的查看进入project。

查看project

  • step2:进入DataHub Project,点击右上角创建Topic

创建DH topic

  • step3:在创建Topic弹出框中配置相关信息,继而点击创建

配置DH topic

成功DH topic

上传csv数据

确保阿里云账号处于登录状态,并处在阿里云DataHub控制台。

  • step1:切换至数据采集tab页中,选择并点击文件上传

文件上传

  • step2:在上传文件弹出框中双击DataHub Project进入创建的Topic,选择相关配置项并点击选择选择文件

跳过首行选项中配置为,文件编码选择为utf-8.

配置文件上传

  • step3:在选择文件弹出框中,选择已经下载的 tmall_user_brand.csv文件,点击开始上传文件,直至提示框显示成功即可。

选择文件上传

数据抽样

完成本地数据上传后,可以通过如下方式来确认数据的导入情况。

  • step1:确保阿里云账号处于登录状态。在DataHub控制台左侧切换至项目管理tab页面,进而点击项目名称后的查看,进入project。

返回查看DH pj

  • step2:点击Topic操作栏中的查看,进入具体的DataHub Topic中。

返回查看DH topic

  • step3:点击通道操作栏中的数据抽样,进行查看数据上传情况。

数据抽样

  • step4:选择指定时间为小于或者等于数据上传时间,并点击数据抽样进行数据预览。

数据预览

数据抽样页面会根据配置的条件进行展示已经上传的数据。如上图所示,表示成功上传了csv文件数据,有兴趣的同学也可以进行对比。

>>>点击进入《实时数据分析:海量日志数据多维透视》篇

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
3月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
768 60
|
4月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
4月前
|
Java 大数据 数据处理
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战(222)
本文探讨了基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战。文章分析了传统制造模式的局限性,介绍了工业互联网带来的机遇,并结合实际案例展示了 Java 在多源数据采集、实时处理及设备协同优化中的关键技术应用。同时,也深入讨论了数据安全、技术架构等挑战及应对策略。
|
4月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
2月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
230 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
4月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
4月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。

相关产品

  • 云原生大数据计算服务 MaxCompute