环境篇之项目架构|学习笔记

简介: 快速学习环境篇之项目架构

开发者学堂课程【大数据 Flink 实时旅游平台环境篇 2020版:环境篇之项目架构】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/643/detail/10690


环境篇之项目架构

项目架构

作为一个平台型的项目,或者是其他一些与大数据相关的普通型项目都需要对项目进行分层。

分层的主要意义是让整个项目的流程更加的清晰。

图片31.png

1、数据收集层(数据采集层)

最底层的数据收集层,或者叫数据的采集层,用户在去做一些访问,或者是做各种行为操作的时候容易产生数据,有的可能产生这日志数据,或者是产生到某一个接口上,或者进入到 MySQL 管理数据库里,所以最下面的一层其实就是得到一些数据,这里面的数据需要被采集出来,而不是在这里面直接分析,因为直接分析不能形成实时的分析。

2、数据存储

数据收集完成之后,自然就是数据存储了,因为数据收集就是要把数据转存到另外一个地方去,存储数据的载体主要有 Kafka、ES、Redis、HDFS、Druid、Neo4j、Alluxio,这几个是作为大数据,尤其是在实时项目中比较常用的载体。

我们在此选择重点的去讲,Kafka 本身就是大数据公司的标配,作为数据通道,即用户的一些行为数据数据是可以转存到这里面中的,当然也可以通过日志的形式,就是把日志里面的数据的实时采集到里面来,然后去实时的处理;

ES 其实是一个快速查询的搜索引擎;Redis 也可以存储一些数据,然后通过数据也可以去完成辅助分析,主要用于存储一些分布式的文件。

3、计算引擎

作为一个计算引擎,Flink是当前最新的,也是相对来说比较火的实时统计搜索引擎。Spark、Kylin、Hive、Presto 也是大数据里面常用的一些数据处理引擎,Spark 是典型的批处理计算引擎,Kylin 是进行预处理的,然后还有 HIve 主要用于作数仓,Presto 主要适用于结构形式的查询。

另外平台强调的是数据挖掘,或者说深度学习,在此项目主要使用 Flink 计算引擎,其他加以了解即可。

4、平台管理

有了计算引擎,也有了数据之后,接下来就是平台管理。给平台完善流程,包括数仓的组建、任务调度、数据质量、元数据与血缘、资源管理、搜索引擎。

数仓本身就是一种问题的解决思路,也是一种流程、一种规范,所以说用它可以把数据分别存放,本次项目也会用到实时的具体流程;做一个项目或者做一个平台,肯定会有很多的任务,哪些任务需要首先去执行,哪些任务不需要立马执行,都要依靠任务的调度;

后续的数据质量、元数据血缘、资源管理、搜索引擎等等,都是对大数据平台进行管理的工具,这些工具很多采用的是第三方的,或者是一些开源的,数据质量用来保证数据的安全,数据的一致性、完整性以及数据的正确性等等;

元数据就是整个系统的平台,然后会有很多种类型的数据,形成一个链路,即所谓的血缘;平台肯定要有资源的管理;这些我们都可以去借助一些第三方的对资源进行监控和管理。

5、应用

完成了上述流程后,已经完全可以进行条理分析已经信息的调度,分析完成之后结果数据会被返回到结果库里,接下来就是数据的应用。数据的应用是整个数据分析的核心,但是从价值层面去考虑的话,最终没有达到应用层面,无论前面再怎么分析,其实都是没有意义的。应用其实也包括很多,比如BI可视化、用户画像,把用户分为重点用户、老用户、青年用户以及学生群体的用户等等,对客户种类进行分类;

还有广告、推荐,数据分析完成之后,一般都会基于用户画像来去做一些精准的营销或者说推荐,包括广告的投放;另外基于结果数据去进行具体的查询以及整个的流量计算。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
消息中间件 监控 前端开发
如何开发项目管理系统中的项目结项板块?(附架构图+流程图+代码参考)
在企业项目管理中,“项目结项”是关键环节,常因流程不清、文档不全、审批滞后等问题导致交付困难。本文介绍如何通过“项目结项”模块实现线上化管理,涵盖结项申请、审批流程、成果上传、权限控制等功能,帮助团队高效完成项目收尾,避免成果丢失与流程混乱。内容包括功能设计、业务流程、系统架构、数据库设计、核心代码实现、前端交互及优化建议,助力项目管理系统快速落地并稳定运行。
|
4月前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
410 0
|
5月前
|
数据挖掘 项目管理 Python
如何开发项目管理系统中的项目启动板块?(附架构图+流程图+代码参考)
本文介绍了项目管理系统中“项目启动”板块的设计与实现,涵盖功能模块、业务流程、开发技巧及效果展示,并提供代码参考和常见问题解答,助力企业高效搭建项目管理平台。
|
5月前
|
缓存 Java 数据库
Java 项目分层架构实操指南及长尾关键词优化方案
本指南详解基于Spring Boot与Spring Cloud的Java微服务分层架构,以用户管理系统为例,涵盖技术选型、核心代码实现、服务治理及部署实践,助力掌握现代化Java企业级开发方案。
254 2
|
5月前
|
存储 Java 数据库连接
简单学Spring Boot | 博客项目的三层架构重构
本案例通过采用三层架构(数据访问层、业务逻辑层、表现层)重构项目,解决了集中式开发导致的代码臃肿问题。各层职责清晰,结合依赖注入实现解耦,提升了系统的可维护性、可测试性和可扩展性,为后续接入真实数据库奠定基础。
464 0
|
5月前
|
监控 前端开发 BI
如何开发项目管理系统中的项目收支板块?(附架构图+流程图+代码参考)
本文深入讲解项目管理系统中项目收支模块的设计与实现,涵盖预算、收入与支出管理,以及报表分析功能。内容包括模块功能概述、业务流程、开发技巧与实现方法,并提供数据库设计及前后端代码示例,助力企业打造高效的项目财务管控系统。
|
5月前
|
SQL 前端开发 项目管理
如何开发项目管理系统中的项目执行板块?(附架构图+流程图+代码参考)
随着企业项目规模扩大,传统管理方式已难以满足需求。本文介绍项目管理系统中“项目执行”板块的开发,涵盖任务管理、创建、验收及进度汇报等核心环节。通过功能设计、业务流程和开发技巧,结合代码示例,帮助企业高效推进项目执行,提升管理效率。
|
6月前
|
设计模式 开发者
一、HarmonyOS Next 开发者手册项目之项目架构设计
该项目是一个基于HarmonyOS Next的开发者学习手册应用,旨在帮助开发者系统学习HarmonyOS开发知识。项目采用分级学习方式,从基础到高级逐步深入讲解技术与实践案例。前四章重点介绍应用架构相关内容,助力快速掌握应用核心。 项目结构清晰,包含主入口、源代码目录、公共资源和工具等。页面导航分为多个阶段:萌新小白(基础入门)、登堂入室(进阶学习)、进阶高手(高级开发)。支持Markdown解析,使用`@luvi/lv-markdown-in`插件展示内容,并定义了多种数据结构以规范开发流程。 源码已开源,持续更新中
195 1
|
9月前
|
存储 数据采集 机器学习/深度学习
新闻聚合项目:多源异构数据的采集与存储架构
本文探讨了新闻聚合项目中数据采集的技术挑战与解决方案,指出单纯依赖抓取技术存在局限性。通过代理IP、Cookie和User-Agent的精细设置,可有效提高采集策略;但多源异构数据的清洗与存储同样关键,需结合智能化算法处理语义差异。正反方围绕技术手段的有效性和局限性展开讨论,最终强调综合运用代理技术与智能数据处理的重要性。未来,随着机器学习和自然语言处理的发展,新闻聚合将实现更高效的热点捕捉与信息传播。附带的代码示例展示了如何从多个中文新闻网站抓取数据并统计热点关键词。
438 2
新闻聚合项目:多源异构数据的采集与存储架构
|
9月前
|
人工智能 前端开发 Java
DDD四层架构和MVC三层架构的个人理解和学习笔记
领域驱动设计(DDD)是一种以业务为核心的设计方法,与传统MVC架构不同,DDD将业务逻辑拆分为应用层和领域层,更关注业务领域而非数据库设计。其四层架构包括:Interface(接口层)、Application(应用层)、Domain(领域层)和Infrastructure(基础层)。各层职责分明,避免跨层调用,确保业务逻辑清晰。代码实现中,通过DTO、Entity、DO等对象的转换,结合ProtoBuf协议,完成请求与响应的处理流程。为提高复用性,实际项目中可增加Common层存放公共依赖。DDD强调从业务出发设计软件,适应复杂业务场景,是微服务架构的重要设计思想。

热门文章

最新文章