暂无个人介绍
本讲义出自 Egor Pakhomov在Hadoop Summit Tokyo 2016上的演讲,主要分享了数据收集、存储和分析的技巧,介绍了为什么SQL如此的重要以及如何在Hadoop中使用SQL,以及在数据存储过程中如何此案呢过做到使得存储的数据能够既能易于查询又能容易地进行改变,以及如何使用BI工具聚合数据。
本讲义出自Tomomichi Hirano在Hadoop Summit Tokyo 2016上的演讲,主要分享了Rakuten公司遇到的大规模多租户Hadoop集群造成的迷之问题:从来不结束任务、数据结点冻结、命名结点冻结、命名节点重新启动后出现高负载以及在解决上述问题中获取的经验教训,并且分享了Rakuten的服务器配置和管理经验。
本讲义出自 Jayush Luniya在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache Ambari,Apache Ambari是用于创建、管理、监视 整个Hadoop生态圈软件的集群的分布式架构的软件,Ambari 可以让 Hadoop 以及相关的大数据软件更容易使用,本讲义就介绍了如何使用Apache Ambari简化Hadoop项目的开发和运维。
本讲义出自Pengcheng Xiong与Ashutosh Chauhan在Hadoop Summit Tokyo 2016上的演讲,主要分享了SQL 2011规范的关键字以及保留关键字、主键和外键以及集合操作等,并分享了当前Apache Hive在完全支持SQL规范上取的主要进步。
本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于Hadoop集群的性能度量与监控、日志记录、以及跟踪和分析等的相关方法和使用到的HBase、HDFS、YARN等相关的开源技术。
本讲义出自Akiyoshi SUGIKI与Phyo Thandar Thant在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hokkaido大学的学术云的发展历史以及对于大数据分析的支撑情况,并介绍了基于容器规格的Apache Hadoop集群框架,以及对于Hadoop的多目标优化方案。
本讲义出自Damien Contreras在Hadoop Summit Tokyo 2016上的演讲,主要分享了东日本可口可乐公司的Hadoop技术应用的经验、Hadoop实际项目以及Hadoop在以可口可乐为代表的的制造业的应用和未来东日本可口可乐公司的Hadoop技术发展方向。
本讲义出自Kai Fukazawa在Hadoop Summit Tokyo 2016上的演讲,主要分享了与Hadoop相关的网络技术,并分享了雅虎日本的网络技术转型发展之路和网络相关的问题以及解决方案,介绍了雅虎日本IP CLOS的网络架构设计以及遇到的挑战以及在未来雅虎日本在网络技术方面的发展计划。
本讲义出自Yusuke Furuyama与Yang Xie在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于电力公司智能电表数据的数据分析案例,并分享了利用MapReduce与Spark 1.6进行计算的性能比较情况,并对于Spark 2.0的进化情况进行了分享。
本讲义出自Stephen Oakley在Hadoop Summit Tokyo 2016上的演讲,主要分享了Marketo的Web跟踪技术以及其合法的Web跟踪设施的架构设计以及相关法律问题,并对于Marketo的大规模Web跟踪基础设施的技术需求和业务需求进行了介绍,并且分享了在架构设计中使用到的Spark Streaming以及HBase等相关技术。
本讲义出自Rafael Coss在Hadoop Summit Tokyo 2016上的演讲,主要分享了与Apache NiFi相关的知识,Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统,Apache NiFi 是为数据流设计。
本讲义出自Anthony DiBiase在Spark Summit East 2017上的演讲,主要分享了如何为了大规模地部署服务压缩软件开发周期,并分享了应对自动化决策和模型的复杂性和基于Spark 的机器学习解决方案,演讲中还对于Cray超级计算机进行了介绍。
本讲义出自Jay White Bear在Spark Summit East 2017上的演讲,主要介绍了在机器人和自主车辆领域公认的具有工业和研究价值的问题——同步定位和映射(SLAM)问题,演讲中分享了依靠Kafka和Spark Streaming构成的新集成框架,并使用在线算法实时地进行导航并且绘制空间地图来解决SLAM问题,并分享了在实现中面临的挑战以及为改善性能提出的优化建议。
本讲义出自Dan Crankshaw在Spark Summit East 2017上的演讲,主要介绍了Clipper——一个通用的低延迟预测服务系统,介于最终用户应用程序和各种机器学习框架之间的Clipper模块化的体系结构来简化对于模型的跨框架部署,此外,Clipper通过引入缓存、批处理和自适应模型选择技术,减少了预测延迟并且提高了吞吐量和预测精度以及系统的鲁棒性。
本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性。
本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想。
本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程。
本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。
本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。
本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归、聚类、决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据。
本讲义出自Stefan Panayotov与Michael Zargham 在Spark Summit East 2017上的演讲,主要介绍了在Stefan Panayotov和团队使用Spark进行带有高维度标签的机器学习的过程中使用到的工具,遇到的障碍以及围绕使用Databricks尝试构建用于预测不同电视节目的收视率以及人口统计数据的客户机器学习模型所做的工作。
本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了
本讲义出自Shuai Zheng在Spark Summit East 2017上的演讲,分保公司的核心竞争力在于与像飓风和地震这样的灾难的风险量化评估能力,各种所谓的灾难模型往往是的公开的,可以获取到,但是处理这样灾难模型的数据量需要大数据能力和高性能,本讲义就介绍了如何使用Spark对于灾难性事件进行建模,并通过更加独特的理解获取核心竞争力。
本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理。
本讲义出自Aaron Colcord在Spark Summit East 2017上的演讲,在2017年,60%的美国人都将成为电子银行用户,面对随着银行经验越来越丰富,忠实用户也越来越多的挑战,所以不得不充分利用手中的数据构建可靠的、可行的数据分析来提高用户体验,面对数据量和数据速度,企业业务的复杂性以及过时的技术所带来的巨大挑战,FIS使用Spark和Databricks为千上万的金融机构提供了与客户建立更好的关系的能力。
本讲义出自John Landry在Spark Summit East 2017上的演讲,主要介绍了在惠普公司这样的大企业内部的数据分析的历程,在讲义中审查并挑战了惠普当时对于以Spark和Databricks最基础进入数据分析领域的决定,并分享了惠普如何使用从设备中获取的数据进行分析。
本讲义出自Joel Cumming在Spark Summit East 2017上的演讲,主要分享了使得3亿用户的聊天应用的数据工程量减少70%的8件事情,Joel Cumming与他的团队将数据栈从系统和进程的复杂结合体带入到可扩展、简单并且健壮的基于Spark和Databricks平台上,该平台将会使任何一家公司丢可以超级简单地使用数据。
本讲义出自Ivy Lu在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark与Kafka创建一个重新审视用例的实时平台Second Look,Second Look是由Capital One构建的用于检测并通知持卡人一些潜在的错误和意想不到的费用的实时业务平台。
本讲义出自Daniel Darabos与Hanna Gabor 在Spark Summit East 2017上的演讲,为了应对在构建神经网络的训练过程中对于图形顶点的考虑问题的挑战,Daniel Darabos与Hanna Gabor和团队使用同一张图执行预测和训练的过程并且给出了一些训练的技巧,而为了应对图过大而无法在单个机器的内存内进行真正的资源密集型计算的问题,使用对于图的分布式存储和计算策略,同时还展示了来解决上述问题核心算法以及一些实验结果。
本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。
本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。
本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节。
本讲义出自Ryan Williams在Spark Summit East 2017上的演讲,主要介绍了Hammer构建于Spark上的几个基因数据分析工具以及使用RDDs进行一般性计算的库,并分享了其中最有趣的几个应用程序和算法:Guacamole、Pageant以及Magic RDDs。
本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的。
本讲义出自Constant Wette在Spark Summit East 2017上的演讲,物联网(IoT)是一个日益增长的网络,与传统人类的沟通方式不同,物联网支持各种网络类型并且能够满足各种网络需求,这也导致出现了物联网的网络标准,为了优化对于物联网基础设施投资,需要使用动态方法调查网络容量规划情况,以适应特定的需求,本讲义介绍了基于Hadoop和Spark构建的综合分析框架以及一些用于验证准确性的案例。
本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。
本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。
本讲义出自Jim Dowling在Spark Summit East 2017上的演讲,主要介绍了在容易进行调试的YARN上构建多租户Spark streaming应用程序的过程中遇到的挑战,并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试,以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming任务。
本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例。
本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲,WalmartLabs每天都在获取数以百万计的产品信息,为了寻求为客户提供无缝的购物体验,WalmartLabs开发了接近实时索引的数据管道,该数据管道是动态更新产品目录以及其他特性的关键的组件。
本讲义出自Lawrence Spracklen 在Spark Summit East 2017上的演讲,主要介绍了Lawrence Spracklen 与团队研发的算法,介绍了如何充分利用被分析的数据的大小,并分享了在分析操作中如何规划流,集群规模,配置和实时利用率以及配置使得Spark的工作性能达到峰值。
本讲义出自Sridhar Alla与Shekhar Agrawal 在Spark Summit East 2017上的演讲,演讲中展示了许多使用逻辑回归、随机森林、决策树、聚类以及NLP等等常用算法的常见用例,并介绍了comcast构建的平台,该平台提供了基于Spark上构建的带有REST API的DSaaS,这意味这对很多用户而言比较抽象的控制和提交等工作,用户可以不再需要考虑写作的严谨性而只需要关注实际需求。
本讲义出自Jose Soltren在Spark Summit East 2017上的演讲,主要介绍了Spark容错中的螺母和螺栓,他首先简述了Spark中的各种容错机制,然后讨论了YARN上的Spark、调度与资源分配,在演讲中还对于一些用户案例进行了探讨研究并给出了一些需要的工具,最后分享了未来Spark中容错未来的发展方向比如调度器和检查点的变化。
本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。
本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了当代计算机硬件提供了大量新的性能的机会。然而高性能编程仍是一项艰巨的挑战,演讲中给出了一些对于设计侧重于压缩位图索引的更快索引的经验教训。
本讲义出自Shubham Chopra在Spark Summit East 2017上的演讲,主要介绍了Spark设计初衷是作为批处理分析系统,通过缓存RDD对于迭代处理相同数据的任务进行了加速,这种模式也适用于在线分析,本次演讲试图定义失效能够导致大规模命中在线查询性能和可能的解决方案的特殊区域。
本讲义出自Emily Curtin and Robbie Strickland在Spark Summit East 2017上的演讲,主要介绍了使用Spark + Parquet构建的非常之快、存储高效、查询也高效的数据湖以及与之相匹配的一系列工具。
本讲义出自PhuDuc Nguyen在Spark Summit East 2017上的演讲,主要介绍了不支持开箱即用的在不中断实时Spark Streaming任务的同时能够添加或删除节点的功能。并介绍了Elastic Spark Streaming任务能够自动调整对于数据流的体积和流量的需求。
本讲义出自William Benton在Spark Summit East 2017上的演讲,主要分享了容器的Linux安全性、分布式调度以及Java虚拟机以及安全性影响等,并介绍了对于容器化的Spark应用程序进行调优和编排,并分享了数据处理工作负载,以及代理的最佳实践和技巧等。
本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统。