[抢鲜,多图]百度开放大数据引擎

简介:

424日,百度第四届技术开放日在北京举行。此次会议以“大数据引擎驱动未来”为主题,是百度在互联网与传统产业深度融合的时代背景下,以大数据为主题举办的一次高规格技术盛会。百度董事长兼CEO李彦宏、百度高级副总裁王劲出席并做主题演讲。

北京航空航天大学校长怀进鹏、中国疾病预防控制中心副主任高福、交通运输部科技司司长赵冲久、平安产险新渠道事业部副总经理孙炜分享了行业洞察和合作体会。来自政府、企业界、学术界的近千名嘉宾代表参加了大会。

百度CEO李彦宏表示:“技术创新是一个从量变到质变的过程。并行计算能力不断提升和云存储等技术产品成本的不断降低,使大数据真正走到了技术变革的临界点。百度开放自己的大数据核心能力,将更好地帮助传统行业挖掘数据价值,加快传统行业转型升级,进而发挥出对整体社会经济的革命性影响。”

会上,百度宣布正式发布大数据引擎,将包括开放云、数据工厂、百度大脑三大组件在内的核心大数据能力开放,通过大数据引擎向外界提供大数据存储、分析及挖掘的技术能力,这也是全球首个开放大数据引擎。百度高级副总裁王劲表示,“海量数据存储、关联、分析是大数据时代的关键,是挑战更是机遇。百度推出大数据引擎,旨在帮助各行业应对挑战,推动社会大数据、行业大数据的价值挖掘进程。它是百度多年深厚技术积累的一次质变过程。我们相信百度大数据引擎能帮助各行业发现并抓住新机会。”

大数据困境亟需技术能力输入

近年来,社会全面数字化引发了数据量爆炸式增长,人、资金、商品的流动都以数据化方式呈现。大数据因其蕴涵着巨大的社会价值和商业价值,成为一项重要的生产要素。越来越多机构、企业都迫切希望从不同渠道获取的、多种类型、结构复杂的大数据中挖掘出有价值的趋势洞察,以实现快速、准确地制定决策,驱动商业和管理创新。

然而,大部分机构和传统企业都普遍面临着大数据应用困境,不仅数据孤岛严重,数据存储与管理的规模、数据分析挖掘以及智能化能力也都存在着难以突破的瓶颈,处在从数据累积的量变过程转化为“数据智能”质变过程的临界点上。

作为天然的大数据企业,百度拥有完整、领先的大数据技术,通过对全网大数据进行处理,百度成功推出百度指数、百度商情、百度司南等一系列大数据商业化应用,以及“百度迁徙”、“景点舒适度预测”、“城市旅游预测”等大数据社会化产品,便于公众和企业使用百度开放的大数据资源。下一步,百度选择了将自身处理大数据的技术能力对外开放。

传统产业加装大数据引擎迈入智能时代

百度“大数据引擎”由开放云、数据工厂、百度大脑构成,将大数据存储、分析和智能化处理等一整套核心能力通过平台化、接口化的方式对外开放。合作机构和传统企业将能够在线使用百度的大数据架构,通过处理机构和企业自身积累的大数据,或同时融合百度大数据进行挖掘处理,来改造和优化传统行业的企业管理、产品服务设计、商业模式等环节,为创新发展装上全新的动力引擎。

“百度开放云”是大数据引擎运行的基础构件,通过分布各地的百度新一代高效能数据中心为传统行业提供超大规模的数据存储和分布式计算。在此基础上,“数据工厂”对行业数据进行一系列规范化处理,提供强大的数据管理和分析能力。更上一层,则是百度人工智能的精华——“百度大脑(Baidu Brain)”,基于百度深度学习研究院的领先成果,百度大脑融合全球领先的深度学习算法、数据建模、大规模GPU并行化平台等技术,实现了无不不刻都在学习与成长,它拥有200亿个参数,构造起世界上最大的深度神经网络。正因如此,百度大脑才能实现更具前瞻性的智能数据分析及预测功能,以实现数据智能,支持科学决策与创造。

交通运输部科技司司长赵冲久分享了大数据将在智能交通领域发挥的作用。通过百度地图大数据和搜索大数据的建模分析,百度大数据引擎将用于出行趋势预测,使交通管理更具前瞻性。同时,交通运输管理部门的部分应用也计划迁移至百度开放云平台,利用大数据引擎对行业监测数据进行挖掘分析。

中国疾病预防控制中心(CDC)在传染病防控方面与百度开展了大数据合作。据CDC副主任高福院士介绍,双方将结合疾控大数据与百度大数据,借助大数据引擎的技术力量,建成中国首个流感预测系统。

平安保险是探索应用百度大数据在保险领域创新的先锋。平安产险新渠道事业部副总经理孙炜介绍说,平安保险正在借助百度大数据加强消费者洞察,从过去的客户分群进化到从人定制。更进一步,大数据将在产品设计的精算、定价、弹性曲线等环节发挥作用,既有利于改良现有产品形态,也能实现险种创新。

传统行业市场空间巨大,大量行业的单行业产值都在万亿级以上。作为技术和数据驱动的大数据平台级产品,百度大数据核心能力的开放将成为行业转型和模式创新的引擎,撬动万亿级产业升级的想象空间。

据了解,百度大数据引擎要经历逐步开放的过程,目前采取邀请制和免费模式,将在政府、NGO、制造、医疗、金融、零售、娱乐、教育等传统领域率先开展项目合作。


原文发布时间为:2014-04-25


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
238 1
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
5月前
|
分布式计算 关系型数据库 MySQL
【赵渝强老师】大数据交换引擎Sqoop
Sqoop是一款开源工具,用于在Hadoop与传统数据库如Oracle、MySQL之间传输数据。它基于MapReduce实现,支持数据导入导出、生成Java类及Hive表结构等操作,适用于大数据处理场景。
158 3
【赵渝强老师】大数据交换引擎Sqoop
|
5月前
|
人工智能 分布式计算 DataWorks
分布式×多模态:当ODPS为AI装上“时空穿梭”引擎
本文深入探讨了多模态数据处理的技术挑战与解决方案,重点介绍了基于阿里云ODPS的多模态数据处理平台架构与实战经验。通过Object Table与MaxFrame的结合,实现了高效的非结构化数据管理与分布式计算,显著提升了AI模型训练效率,并在工业质检、多媒体理解等场景中展现出卓越性能。
|
11月前
|
SQL 存储 大数据
Flink 基础详解:大数据处理的强大引擎
Apache Flink 是一个分布式流批一体化的开源平台,专为大规模数据处理设计。它支持实时流处理和批处理,具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象,简化大数据应用开发,并在流处理方面表现卓越,广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client,支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制,如检查点和 Savepoint,确保作业的可靠性和一致性。此外,Flink 支持 SQL 查询和 CDC 功能,实现实时数据捕获与同步,广泛应用于数据仓库和实时数据分析领域。
7751 32
|
9月前
|
机器学习/深度学习 搜索推荐 算法
大数据与金融科技:革新金融行业的动力引擎
大数据与金融科技:革新金融行业的动力引擎
230 0
大数据与金融科技:革新金融行业的动力引擎
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
648 15
|
12月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
258 6
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
4949 8

热门文章

最新文章