初探百度大数据分析挖掘平台Jarvis

简介:

在人工智能时代,企业既想通过大数据分析、挖掘技术提升效率,又被大数据量分析、机器学习挖掘等相关技术门槛阻扰,需要一款数据分析挖掘产品跨越这个鸿沟。Jarvis在这个背景下应运而生。Jarvis是支撑大数据分析挖掘应用开发的工具和平台,定位在企业开发者和大数据分析挖掘技术之间,提供可视化交互方面的支持,使得大数据分析、挖掘技术能快速转化为满足企业应用场景的具体产品。

据了解,Jarvis技术实施栈纵向分层、横向分级确保可全流程解决数据分析挖掘过程中的数据处理、计算资源、算子算法支持、环境部署等各环节问题,同时针对用户进行功能分级、并最大限度保持可扩展,为真正成为一款造福数据科学家、业务开发者、数据分析师、产品经理、决策分析者等各类开发用户的产品而努力。

3215488b697b93786210bdc08ac4756486300d5c

可视化管理数据科学全流程

一个经典的数据挖掘分析应用过程包括,数据获取、数据预期处理、特征提取、建模开发、预测部署、投入应用。Jarvis充分调研分析开发实施人员在各环节面临的处理场景、可能的高效、方便的工作方式,进行了抽象设计实现:

数据连接,支持结构化、非结构化多类型数据接入,支持私有数据接入、支持云Bos、分布式HDFS、关系型数据库等等多类型数据源读取及灵活挂载。

数据准备,提供支持文本、图像类型的交互式的数据清洗、预处理工具,方便进行数据高效准备。

数据分析,支持PB级别的SQL交互式查询分析、Spark处理;同时提供丰富的可视化数据探查工具,方便开发者获取高价值有效样本。

挖掘建模,内置了丰富的基础算子算法供开发者高效进行建模开发;同时预置了经典的垂类行业解决方案,可以低成本在匹配场景进行高效实施。

模型部署,生成模型可直接发布、部署,并支持动态热加载。提供了常用模型评价指标的效果监控功能供一键选择监控、支持自由扩展。

流程监控,开发者进行的全工作流实现自动Track,新数据可自动触发重跑全流程。

442fb510ae94205856268536456752f805b4ef6e

云原生服务

在数据分析挖掘全流程及服务过程中,不同的场景、不同的数据、不同的处理阶段、不同的开发者对于环境的需求、对于资源的需求多种多样,这就需要数据分析挖掘平台的资源(包含开发环境资源)管理要能灵活接入、弹性拉伸、扩展方便,确保稳定及资源利用高效。Jarvis采用了云原生服务架构的方式实现。

048c036ee0eb6f3119aca65a585b5eb9b117ab58

自动机器学习AutoML

策略模型研发人员大量的时间花费在选取不同的特征数据、进行不同的算法选择尝试、参数调优中,最终获得一个高效的模型。AutoML理论上可通过设置自动尝试多数据特征、多算法、测试完全不同的模型架构,然后与目标相匹配,给出最终解决问题的方案。

3aa93adb46f9b23b7aa649af84e211c62917cec4

行业解决方案

同行业的不同企业往往存在共性的数据分析挖掘场景,例如:电力行业,用电量预测;工业物理网类,设备故障检测、故障预测等。这些同类场景要解决的问题类似、要分析的数据类似,因此可以抽象通用的行业解决方案在同类场景下复用、快速投入应用。对于深层次的数据挖掘开发者,同样有大量通用的算法、算子库可以相互复用,提升开发效率。Jarvis从基础算法、通用模型、垂类解决方案分层内置能力并不断扩展集成,为不同场景需求的开发者用户提供了高效复用能力。

6cc6e66809e647d0c209e3d16487ca090031eb81

百度开发者大会期间,Jarvis通过点石-大数据众智平台(dianshi.baidu.com, DataLab板块)邀测了第一批用户进行增强版基础开发环境的使用(内置了丰富的算子算法库及百度AI开放接口),受到用户的一致好评。

a19ffae6fe538b5bfa2dda28a1155c45d39e5ba5

原文发布时间为:2018-08-10
本文来自云栖社区合作伙伴“ 数据分析”,了解相关信息可以关注“ 数据分析”。
相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
163 2
|
3月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
94 5
|
20天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
110 15
|
26天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
25天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
107 4
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
41 4
|
2月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
273 5
|
2月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
260 14
|
2月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
178 2