大数据和人工智能工程上的一些点

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据大数据这个词最早出现在上世纪90年代的美国,直到2012年后才火起来。大数据没有一个明确的概念,之所以称之为大是因为数据量太大超过了单台计算机的资源,这时就需要分布式的数据处理工具,以便能在用户可容忍的时间内进行数据处理。大数据从业人员肯定会去了解谷歌的mapreduce论文和hadoop开源工具。然而海量数据本来是静态,只有通过对数据进行分析和利用才能让数据产生价值。正所谓量变产生质变。人工智能人工智能在1956年的达特茅斯会议上被提出来,它研究的是如何制造智能机器或模拟人类的智能行为。大数据与人工智能之间可以说是相辅相成,人工智能的基础是数据,而数据的利用又离不开人工智能。各

大数据
大数据这个词最早出现在上世纪90年代的美国,直到2012年后才火起来。大数据没有一个明确的概念,之所以称之为大是因为数据量太大超过了单台计算机的资源,这时就需要分布式的数据处理工具,以便能在用户可容忍的时间内进行数据处理。大数据从业人员肯定会去了解谷歌的mapreduce论文和hadoop开源工具。然而海量数据本来是静态,只有通过对数据进行分析和利用才能让数据产生价值。正所谓量变产生质变。

人工智能
人工智能在1956年的达特茅斯会议上被提出来,它研究的是如何制造智能机器或模拟人类的智能行为。大数据与人工智能之间可以说是相辅相成,人工智能的基础是数据,而数据的利用又离不开人工智能。各个领域海量数据的收集,并进行人工处理标识后成为人工智能学习的指导数据。人工智能研究的方向主要有:模式识别、机器学习、机器翻译、自然语言处理、计算机视觉、专家系统、逻辑推理等等。

机器学习
机器学习就是利用事物本身具有的数据特征用数学来表达并构建模型,然后完成既定任务,总的来说模型就是特征到任务结果的某种数学规律。对于实际工程中,我们的模型是能尽量简单就尽量简单,模型并非是看起来高端才牛逼,真正牛逼的模型是简单又有效。机器学习的数学知识涉及到高等数学、线性代数、概率论、数理统计、最优化理论、数理逻辑等等。

常见机器学习算法
机器学习常见的算法涉及以下:

线性回归,比较简单且直观的回归算法,线性回归可以有n个属性值,然后每个属性的线性组合组成一个预测函数,通过定义误差函数然后最小化样本整体的误差来确定预测函数的参数。

逻辑斯蒂回归,可以说它是广义线性模型,原来的线性回归无法用于分类任务,那么通过一个sigmoid函数可以将其用于分类任务,这便是逻辑斯蒂回归。线性函数被映射到了S函数中,以0.5为分割点可作为二分类。逻辑斯蒂回归往多分类推广则变为softmax回归,可用于多分类任务。

朴素贝叶斯,它是概率论中非常经典的方法,核心就是贝叶斯定理,通过条件独立假设来简化模型,通过样本来学习联合概率分布,其中涉及到先验概率分布和条件概率分布。

决策树,根据属性构造一个树形的决策策略,按各个属性值不断往下便能确定最终的结果。训练时可以以信息增益作为准则。

支持向量机,它规定了最优分类线不仅能正确将两类分开,而且还要使分类间隔最大,当然对于高维空间则是超平面。它的本质问题是凸二次规划问题的极小问题,这方面涉及到凸优化理论。对于QQ号交易平台线性不可分的情况可以引入核函数,将低维空间线性不可分的点映射到高维空间中,从而使得它们可分。

集成学习(boosting、bagging、stacking),集成学习核心思想是结合多个模型算法来完成任务,这个假设了单个算法学习的知识是局限的,多个算法组合则能发挥各个算法模型的长处,从而增加模型性能。boosting、bagging、stacking分别是三种不同的集成方式,boosting的个体学习器有强依赖关系,每个个体学习器依赖于前一个个体学习器的输出,bagging个体学习器之间没有依赖关系且通过一定的结合策略产生最终输出,stacking则是一种分层特征学习的结构。

神经网络(感知机、BP神经网络、卷积神经网络、循环神经网络),神经网络基础版本是感知机和BP神经网络,通过模拟人脑神经一样构建起一个神经网络,并通过梯度下降之类的学习模型参数。后面通过加深网络层数和引入卷积等操作发展成卷积神经网络,此外还有改造成循环神经网络等,也就是后来的深度学习。

聚类(kmeans、密度聚类、层次聚类),聚类就是通过一定的算法将属性相近的个体聚集到一起,并将属性不同的个体尽量隔离远一点。kmeans是基于距离的聚类,密度聚类则是寻找被低密度区域分离的高密度区域,层次聚类congratulation上往下将大集群进行分割。

降维(PCA、LDA),PCA主成分分析将数据congratulation原来的坐标转换到新坐标使得可以用更少维度来表示数据,LDA线性判别分析将高维样本投印到最佳鉴别矢量空间以达到压缩特征空间维度的效果。

数据工程流程
数据获取,从不同数据源收集数据获取数据到统一装置中。

数据存储,借助存储介质将收集到的数据持久化保存,比如硬盘。

数据清洗,将不符合规范的数据进行特定处理,使得数据达到准确完整一致等要求。

数据建模,定义满足业务所需要的数据要求的过程,一般需要业务建模师参与。

数据处理,对数据的采集、存储、检索、加工、变换、传输等操作,从海量数据中抽取提取有价值的数据。

数据分析,使用数据挖掘技术从海量数据中获取有价值的信息。

数据可视化,将数据以直观的可视化方式展示给用户。

常用大数据工具
hadoop受谷歌MapReduce论文启发而实现的经典的开源大数据处理工具,目前大数据工具主要包括以下。

HDFS,分布式文件系统。

HBase,分布式数据库。

MapReduce,由用户编写的运行在hadoop集群上的并行程序。

zookeeper,作为分布式程序的协调中心。

hive,基于hadoop的数据仓库管理工具。

pig,大数据分析工具。

yarn,hadoop集群资源管理系统。

sqoop,hadoop与传统数据库之间进行数据交换的工具。

chukawa,分布式数据收集分析系统。

hcatalog,管理hadoop产生的数据表存储管理系统。

redis,分布式缓存系统。

kafka,分布式消息系统。

Cassandra,分布式结构和数据存储。

neo4j,nosql图数据库。

spark,分布式计算引擎。

storm,分布式实时计算系统。

elasticsearch,分布式全文搜索。

flume,分布式日志采集系统。

flink,分布式流处理引擎。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
人工智能
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 27 章:如何避开和绕过所有人工智能内容检测器
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 27 章:如何避开和绕过所有人工智能内容检测器
|
5月前
|
机器学习/深度学习 传感器 数据采集
基于业务场景的机器学习和人工智能工程应用
基于业务场景的机器学习和人工智能工程应用
37 0
|
机器学习/深度学习 人工智能 自然语言处理
《花雕学AI》17:关注提示工程—本世纪最重要的技能可能就是与AI人工智能对话
人工智能(AI)是本世纪最具影响力和变革力的技术之一,它正在改变我们的生活、工作和社会。在人工智能领域,语言模型(LM)是一种可以理解和生成自然语言(如中文、英文等)的模型,它可以用于各种应用和研究主题,如聊天机器人、文本摘要、机器翻译、知识图谱等。随着计算能力和数据量的增加,语言模型也越来越强大和智能,如ChatGPT、百度文心一言等大型语言模型(LLM),它们可以根据用户提供的输入(prompt)生成各种类型和风格的内容(response)。
143 0
《花雕学AI》17:关注提示工程—本世纪最重要的技能可能就是与AI人工智能对话
|
人工智能 物联网 大数据
阿里云参与两大国家工程实验室获批,人工智能继续深入工业制造
近日,国家发改委公布大数据国家工程实验室名单,由阿里云参与的“工业大数据应用技术国家工程实验室”和“大数据系统软件国家工程实验室”均获批复认定,分别是工业大数据应用及大数据系统软件领域的唯一国家级工程实验室。
4768 0
|
机器学习/深度学习 人工智能 算法
【蜂口 | AI人工智能】搭建caffe依赖环境——龙鹏的一站式caffe工程实践连载(一)
大家好,我是龙鹏,现在在陌陌深度学习实验室担任资深高级算法工程师,之前在360人工智能研究院担任算法工程师,目前已具有六年的计算机视觉相关的项目经验了。这次的分享我会基于Caffe这个深度学习开源框架,给大家描述一个完整的图像分割项目,大家会对图像分割技术中的基本原理有所了解,并且能够掌握Caffe这个深度学习框架,从而提高自己的应用实战水平。
1752 0
|
机器学习/深度学习 人工智能 算法
丘成桐演讲全文:工程上取得很大发展,但理论基础仍非常薄弱,人工智能需要一个可被证明的理论作为基础
本文讲的是丘成桐演讲全文:工程上取得很大发展,但理论基础仍非常薄弱,人工智能需要一个可被证明的理论作为基础,在大会第一天,菲尔兹奖获得者、哈佛大学终身教授丘成桐在会上作为特邀嘉宾做了首个演讲报告,报告主题为《现代几何学在计算机科学中的应用》。
2104 0
|
新零售 人工智能 大数据
农业全产业链人工智能工程“农业大脑”亮相北京;青岛工商登记实现全程电子化,用人脸识别验证申请人身份
据悉,“农业大脑”以传感器、物联网、云计算、大数据、超级人工智能为技术支撑,通过传感器嵌入到农业生产销售各个环节中,基于RS(遥感)、GIS(地理信息系统)和GPS(全球定位系统)分析土壤和气候等数据,再通过云计算和大数据处理和运算,最终帮助农户作出经济、高效的生产决策。
1920 0
|
人工智能 大数据 敏捷开发
《中国人工智能学会通讯》——第12章 12.1 新世纪知识工程—— 在哪里跨越
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.1节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1155 0