暂无个人介绍
Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技
本讲义出自Abhishek Modi在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Qubole的Hadoop技术、Qubole的架构设计、短生命周期的Hadoop集群的相关内容以及面对的挑战以及YARN的自动扩展和不断发展的HDFS技术。
本讲义出自 Alex Gorelik在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据湖泊的相关概念,介绍了数据湖泊可以赋能数据驱动的决策制定以及最大化商业价值,以及如何通过正确的数据+正确的平台+正确的接口构建成功的数据湖泊。
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。
本讲义出自Sanjay Radia在Hadoop Summit Tokyo 2016上的演讲,主要介绍了HDFS的相关知识以及HDFS的过去以及未来发展的动机,分享了HDFS的优势所在以及面对的主要挑战,并分享了弹性的HDFS以及泛化存储层的存储容器。
本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系、以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容。
本讲义出自Jerry Peng在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache Storm的相关知识内容、目前遇到的挑战和问题并且对于资源感知调度器进行了详细介绍。
本讲义出自 Julien Le Dem在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Columnar Era是利用Parquet,Arrow and Kudu获取数据计算的高性能的,并且分享了社区驱动的标准以及互操作性和Columnar Era的生态系统。
本讲义出自San Jose在Hadoop Summit Tokyo 2016上的演讲,主要介绍了为什么在钻探行业复合数据流非常重要,以及当前Apache Nifi的发展概况和突破点,还介绍了不被期待的工作流的概况。
本讲义出自Maryann Xue与Julian Hyde在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache Phoenix项目,Phoenix 是 HBase 的 SQL 驱动,其可以使得 HBase 支持通过 JDBC 的方式进行访问,并将SQL 查询转成 HBase 的扫描和相应的动作,在演讲中分享了Phoenix的一些优点以及其架构设计,并且分享了Phoenix + Calcite的架构设计。
本讲义出自Aldrin Piri在Hadoop Summit Tokyo 2016上的演讲,主要介绍了什么是数据流以及当前数据流在研发中面临的挑战,并介绍了Apache NiFi的基本概念以及其架构设计。
本讲义出自Kendall Thrapp在Hadoop Summit Tokyo 2016上的演讲,主要介绍了对于Hadoop与Storm资源与开销的追踪,以及为何要考虑资源优化和需要考虑哪些资源的优化。
本讲义出自Ambud Sharma与Suma Cherukuri在Hadoop Summit Tokyo 2016上的演讲,主要介绍了什么是多租户日志服务以及多租户日志服务的架构设计,并分享了Streaming Pipeline的相关知识以及多租户日志服务的不断变化的问题和解决方案。
本讲义出自Robert Hryniewicz在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据科学以及机器学习的相关基本概念以及机器学习的例子,并分享了机器学习的方法,还分享了K-means的聚类方法、决策树以及随机森林等相关知识。
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hadoop的生态系统以及基于Hadoop生态系统的创新加速,以及企业的互操作性以及云和数据中心的相关内容,并且对于Hadoop未来的发展进行了展望。
本讲义出自Sanjay Radia在Hadoop Summit Tokyo 2016上的演讲,主要分享了基于云上的Hadoop架构设计以及解决方案,并分享了云上的共享数据存储相关内容以及如何通过使用Cache策略增强Hadoop的性能表现,以及如何保障云上共享数据的数据安全以及进行数据治理等相关知识。
本讲义出自Frank Zhao、Fenghao Zhang与 Yusong Lv在Hadoop Summit Tokyo 2016上的演讲,主要介绍了分布式流系统的相关概念,可靠性处理、Apache Storm的解决方案以及面对的挑战、新提出的方法以及 Apache Storm的原型和基准。
本讲义出自Amandeep Modgil与David Hamilton在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据湖泊的起源问题、数据的安全性问题、数据治理、修改管理以及企业内的Hadoop工作等相关内容。
本讲义出自Owen O’Malley在Hadoop Summit Tokyo 2016上的演讲,主要分享了Avro, JSON, ORC & Parquet这些文件基本格式的相关内容,介绍了文件格式如何发挥不同的作用以及他们如何才能更好地发挥作用以及这些文件数据格式的各自的优点,还分享了如何使用真实的、多样化的数据集,并介绍了过度依赖类似的数据导致的弱点以及开放和审查基准。
本讲义出自Graham Gear在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据工程开发管道的相关内容并介绍了持续部署的Hadoop数据分析平台Cloudera。
本讲义出自CHARLES SEVIOR在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业级数据仓库向着数据量剧增、实时处理数据的需求增加以及数据分析的需求不断涌现的情况,如何定制个性化以及增强的现代化企业级数据仓库服务成为了一项巨大的挑战,而面对这样的挑战使用数据湖泊技术成为了一种新的解决方案。
本讲义出自Yaniv Rodenski与Karel Alfonso在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据管道的相关知识以及其主要作用,并且分享了数据管道建造者的原型、数据操作以及协作等相关内容,还分享了大数据应用的持续集成的案例,最后还介绍了Apache下的开源分布式资源管理框架Mesos的相关内容。
本讲义出自Shwetha Shivalingamurthy与Suma Shivaprasad在Hadoop Summit Tokyo 2016上的演讲,主要分享了企业数据分类和治理的案例并且深入地讲解了大数据治理的相关内容,并介绍了Atlas的概览和架构设计以及其特性和发展路线。
本讲义出自Joe Percivall在Hadoop Summit Tokyo 2016上的演讲,主要对于Apache NiFi进行了介绍,还介绍了NiFi中新的特性,并且对于MiNiFi的相关概念以及架构设计进行了介绍。
本讲义出自Nicolas Poggi在Hadoop Summit Tokyo 2016上的演讲,在演讲中首先介绍了BSC 与ALOJA以及PaaS服务概览,之后介绍了SQL基准以及PaaS服务的演进变化,最后分享了从云上的SQL-on-Hadoop中获取的经验。
本讲义出自Grant Priestley在Hadoop Summit Tokyo 2016上的演讲,主要对于多租户平台Hurdles进行了详细介绍,并介绍了多租户的概念和定义以及构建多租户平台的架构设计和技术策略,最后还分享了在构建多租户平台的过程中需要注意的事项。
本讲义出自Casey Stella在Hadoop Summit Tokyo 2016上的演讲,主要分享了在数据科学中经常会遇到的一些挑战,比如数据科学家往往在所需要研究的领域经验不足、获取这方面的经验将会非常耗费时间并且极具挑战性、非监督机器学习技术非常有用,但是复杂的数据关系却难以理解等,还分享了文本深度表示模型Word2Vec,并且对于示例进行了演示。
本讲义出自Michael Plazzer在Hadoop Summit Tokyo 2016上的演讲,主要分享了Spark在电力行业中的智能电表上的应用,并分享了通过大数据分析能源情况的研究以及能源时间数据序列的相关的内容。
本讲义出自Rafael Coss在Hadoop Summit Tokyo 2016上的演讲,主要分享了基于Spark的高性能时空轨迹分析的相关背景、架构以及技术设计,在技术设计方面主要讲解了大数据平台的设计、数据治理的设计、算法模型以及Spark轨迹计算等内容,最后还对于高性能时空轨迹分析的未来发展进行了展望。
本讲义出自Matthias Langer、Dr. Zhen He与Dr. Zhen He在Hadoop Summit Tokyo 2016上的演讲,主要介绍了深度学习的基本概念和相关知识,分享了Spark与深度学习的关联,并介绍了La Trobe大学的深度学习系统。
本讲义出自W Daniel Cox III与Chhitesh Shrestha在Hadoop Summit Tokyo 2016上的演讲,在演讲中简要地介绍了数据转换的相关概念以及KNIME数据分析平台,并且在现场演示了对于能源数据规划和定价的预测,并且分享了如何将KNIME工具集与Hortonworks进行结合。
本讲义出自Ted Dunning在Hadoop Summit Tokyo 2016上的演讲,主要分享了在对于深度学习和欺诈检测的探索中发现的艺术以及在这个过程中学习到的经验,最后还分享了一些使用深度学习技术进行欺诈检测方面的可行的指导。
本讲义出自Rajesh Balamohan在Hadoop Summit Tokyo 2016上的演讲,在演讲中介绍了Hadoop与云存储的集成用例、与Hadoop相匹配的文件系统架构、Hive访问模式,并介绍了基于Hive-TestBench的TPC-DS Benchmarks,最后还分享了对象存储的未来发展趋势。
本讲义出自SATO Naoki在Hadoop Summit Tokyo 2016上的演讲,主要从What、Why和How三个角度解释了在云上应该如何使用Hadoop,在Why方面,他分享了Hadoop运行在云上的好处;在What方面,主要分享了云上Hadoop的选项以及云上的Hadoop集群以及集群定制等内容;在How方面,主要分享了如何在云上部署Hadoop架构。
本讲义出自Yuta Imai在Hadoop Summit Tokyo 2016上的演讲,主要分享了为什么选择LLAP,并对于LLAP的相关概念进行了分享,在演讲中还介绍了Hive 2 与LLAP的架构概览,并对于MR、Tez与Tez+LLAP的三种方式进行了比较,并分享了为什么LLAP能够让查询变得更快。
本讲义出自Tsuyoshi Ozawa在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hadoop 3 Common与HDFS出现的新特性,因为新版本的Hadoop运行在JDK8上,在应用构建的过程中,所以需要使用JDK8编译源代码,并且新版本的Hadoop具有更好的库管理,并且支持Azure数据湖泊存储,最后还分享了关于脚本重写与Apache Kafka的metrics2插件的相关内容。
本讲义出自Takuya Okamoto在Hadoop Summit Tokyo 2016上的演讲,在演讲中首先介绍了VUPICO,并分享的数据的商业价值所在以及如何构建信息数据分析平台和集成Hadoop与SAP HANA,最后还分享了如何从Hadoop中获取价值。
本讲义出自Junping Du在Hadoop Summit Tokyo 2016上的演讲,主要分享了在Apache Hadoop 3.0中YARN和MapReduce已经拥有和正在演进的新特性,并且对于Apache Hadoop 3.0 版本的时间轴进行了分享。
本讲义出自Hemanth Yamijala在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hortonworks云数据平台以及其架构设计,并分享了Hortonworks如何帮助企业做好云数据存储的准备,以及如何帮助企业进行数据治理以及对于数据的可靠性和容错性进行保障。
本讲义出自Rafael Coss在Hadoop Summit Tokyo 2016上的演讲,主要介绍了领英的数据赋能之旅,从产品研发的整个生命周期出发分享了数据驱动对于领英的意义,并分享了领英在面对大数据处理分析时遇到的挑战以及解决方案和所使用到工具。
本讲义出自Madhan Neethiraj在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使用Apache Ranger和Apache Atlas保障数据安全并进行数据治理,首先分享了Apache Ranger的概览、授权策略、行过滤和列标记策略以及审计日记等相关内容,之后分享了Apache Atlas的概览的相关内容。
本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲,主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin,Griffin可以用于处理批量数据、实时数据和非结构化的数据,并且构建了统一的过程来检测无效或者不准确等DQ问题,讲义中介绍了eBayGriffin的技术架构、以及用例等。
本讲义出自Owen O’Malley在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业的数据安全和威胁问题,应该如何面对并且最小化攻击面,并且分享了如何保证Hive安全,列举了多种企业需要面对的数据安全威胁,并且分享了如何使用Apache Hadoop上保护企业数据安全。
本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划。
本讲义出自Pankaj Rastogi与Debasish Das在Hadoop Summit Tokyo 2016上的演讲,主要分享了网络数据相关知识、网络异常DDoS攻击以及使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析的架构设计,并分享了Trapezium的相关概念。
本讲义出自Sanjay Radia与Jitendra Pandey在Hadoop Summit Tokyo 2016上的演讲,主要分享了HDFS的相关概念,分享了HDFS从过去的演进过程以及在未来的发展方向,在讲义中介绍了目前值得关注的问题:文件和存储块的扩展性问题,并且分享了存储容器对于存储层的泛化。
本讲义出自Keith Manthey在Hadoop Summit Tokyo 2016上的演讲,主要分享了关于混合数据分析的两种架构的迁移,对于从服务器迁移到云端和从云端迁回到服务器进行了分析介绍,并且对于数据湖泊的概念进行了介绍。
本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。
本讲义出自Koji Kawamura与Arti Wadhwani在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache NiFi的相关内容,并分享了Apache NiFi 1.0版本的增强以及目前 NiFi的边界,以及与NiFi相关的问题和未来展望。