大数据和人工智能工程上的一些点

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据大数据这个词最早出现在上世纪90年代的美国,直到2012年后才火起来。大数据没有一个明确的概念,之所以称之为大是因为数据量太大超过了单台计算机的资源,这时就需要分布式的数据处理工具,以便能在用户可容忍的时间内进行数据处理。大数据从业人员肯定会去了解谷歌的mapreduce论文和hadoop开源工具。然而海量数据本来是静态,只有通过对数据进行分析和利用才能让数据产生价值。正所谓量变产生质变。人工智能人工智能在1956年的达特茅斯会议上被提出来,它研究的是如何制造智能机器或模拟人类的智能行为。大数据与人工智能之间可以说是相辅相成,人工智能的基础是数据,而数据的利用又离不开人工智能。各

大数据
大数据这个词最早出现在上世纪90年代的美国,直到2012年后才火起来。大数据没有一个明确的概念,之所以称之为大是因为数据量太大超过了单台计算机的资源,这时就需要分布式的数据处理工具,以便能在用户可容忍的时间内进行数据处理。大数据从业人员肯定会去了解谷歌的mapreduce论文和hadoop开源工具。然而海量数据本来是静态,只有通过对数据进行分析和利用才能让数据产生价值。正所谓量变产生质变。

人工智能
人工智能在1956年的达特茅斯会议上被提出来,它研究的是如何制造智能机器或模拟人类的智能行为。大数据与人工智能之间可以说是相辅相成,人工智能的基础是数据,而数据的利用又离不开人工智能。各个领域海量数据的收集,并进行人工处理标识后成为人工智能学习的指导数据。人工智能研究的方向主要有:模式识别、机器学习、机器翻译、自然语言处理、计算机视觉、专家系统、逻辑推理等等。

机器学习
机器学习就是利用事物本身具有的数据特征用数学来表达并构建模型,然后完成既定任务,总的来说模型就是特征到任务结果的某种数学规律。对于实际工程中,我们的模型是能尽量简单就尽量简单,模型并非是看起来高端才牛逼,真正牛逼的模型是简单又有效。机器学习的数学知识涉及到高等数学、线性代数、概率论、数理统计、最优化理论、数理逻辑等等。

常见机器学习算法
机器学习常见的算法涉及以下:

线性回归,比较简单且直观的回归算法,线性回归可以有n个属性值,然后每个属性的线性组合组成一个预测函数,通过定义误差函数然后最小化样本整体的误差来确定预测函数的参数。
逻辑斯蒂回归,可以说它是广义线性模型,原来的线性回归无法用于分类任务,那么通过一个sigmoid函数可以将其用于分类任务,这便是逻辑斯蒂回归。线性函数被映射到了S函数中,以0.5为分割点可作为二分类。逻辑斯蒂回归往多分类推广则变为softmax回归,可用于多分类任务。
朴素贝叶斯,它是概率论中非常经典的方法,核心就是贝叶斯定理,通过条件独立假设来简化模型,通过样本来学习联合概率分布,其中涉及到先验概率分布和条件概率分布。
决策树,根据属性构造一个树形的决策策略,按各个属性值不断往下便能确定最终的结果。训练时可以以信息增益作为准则。
支持向量机,它规定了最优分类线不仅能正确将两类分开,而且还要使分类间隔最大,当然对于高维空间则是超平面。它的本质问题是凸二次规划问题的极小问题,这方面涉及到凸优化理论。对于线性不可分的情况可以引入核函数,将低维空间线性不可分的点映射到高维空间中,从而使得它们可分。
集成学习(boosting、bagging、stacking),集成学习核心思想是结合多个模型算法来完成任务,这个假设了单个算法学习的知识是局限的,多个算法组合则能发挥各个算法模型的长处,从而增加模型性能。boosting、bagging、stacking分别是三种不同的集成方式,boosting的个体学习器有强依赖关系,每个个体学习器依赖于前一个个体学习器的输出,bagging个体学习器之间没有依赖关系且通过一定的结合策略产生最终输出,stacking则是一种分层特征学习的结构。
神经网络(感知机、BP神经网络、卷积神经网络、循环神经网络),神经网络基础版本是感知机和BP神经网络,通过模拟人脑神经一样构建起一个神经网络,并通过梯度下降之类的学习模型参数。后面通过加深网络层数和引入卷积等操作发展成卷积神经网络,此外还有改造成循环神经网络等,也就是后来的深度学习。
聚类(kmeans、密度聚类、层次聚类),聚类就是通过一定的算法将属性相近的个体聚集到一起,并将属性不同的个体尽量隔离远一点。kmeans是基于距离的聚类,密度聚类则是寻找被低密度区域分离的高密度区域,层次聚类从上往下将大集群进行分割。
降维(PCA、LDA),PCA主成分分析将数据从原来的坐标转换到新坐标使得可以用更少维度来表示数据,LDA线性判别分析将高维样本投印到最佳鉴别矢量空间以达到压缩特征空间维度的效果。
数据工程流程
数据获取,从不同数据源收集数据获取数据到统一装置中。
数据存储,借助存储介质将收集到的数据持久化保存,比如硬盘。
数据清洗,将不符合规范的数据进行特定处理,使得数据达到准确完整一致等要求。
数据建模,定义满足业务所需要的数据要求的过程,一般需要业务建模师参与。
数据处理,对数据的采集、存储、检索、加工、变换、传输等操作,买手游账号平台从海量数据中抽取提取有价值的数据。
数据分析,使用数据挖掘技术从海量数据中获取有价值的信息。
数据可视化,将数据以直观的可视化方式展示给用户。
常用大数据工具
hadoop受谷歌MapReduce论文启发而实现的经典的开源大数据处理工具,现在的大数据工具主要包括以下。

HDFS,分布式文件系统。
HBase,分布式数据库。
MapReduce,由用户编写的运行在hadoop集群上的并行程序。
zookeeper,作为分布式程序的协调中心。
hive,基于hadoop的数据仓库管理工具。
pig,大数据分析工具。
yarn,hadoop集群资源管理系统。
sqoop,hadoop与传统数据库之间进行数据交换的工具。
chukawa,分布式数据收集分析系统。
hcatalog,管理hadoop产生的数据表存储管理系统。
redis,分布式缓存系统。
kafka,分布式消息系统。
Cassandra,分布式结构和数据存储。
neo4j,nosql图数据库。
spark,分布式计算引擎。
storm,分布式实时计算系统。
elasticsearch,分布式全文搜索。
flume,分布式日志采集系统。
flink,分布式流处理引擎。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
58 10
|
3天前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
34 0
|
6天前
|
机器学习/深度学习 人工智能 物联网
深度学习:物联网大数据洞察中的人工智能
深度学习:物联网大数据洞察中的人工智能
|
30天前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
9天前
|
机器学习/深度学习 人工智能 物联网
深度学习:物联网大数据洞察中的人工智能
深度学习:物联网大数据洞察中的人工智能
|
2月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能与大数据的融合应用##
随着科技的快速发展,人工智能(AI)和大数据技术已经深刻地改变了我们的生活。本文将探讨人工智能与大数据的基本概念、发展历程及其在多个领域的融合应用。同时,还将讨论这些技术所带来的优势与挑战,并展望未来的发展趋势。希望通过这篇文章,读者能够对人工智能与大数据有更深入的理解,并思考其对未来社会的影响。 ##
|
3月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
人工智能 大数据 Apache
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
72787 4
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
|
人工智能 大数据 云栖大会
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
3499 0
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载