【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

38a72cf50b1487f735d04f99b8ba12a1c651cd26

8b0ffbbf49e9286af7777af51ea3c5ed57f6e887

d6e244ce25007e23917e2389b265bd79261f8c35

35ffac456343b8b96ac26aaac8577804cb55444e

af9c67fd51ebc8284ef43980b9b8bc8979e60130

628bfb3565fa941d64a4be4408653016ac4d0852

62888374bea14c6fdb47f27c66d2ab364f131f56

079d02bcfd1c2b7c9f397d4764adadb59982fc0b

2654487cd4371799929ce934bb45d08f3787365c

79dbaf7f384b6517ea45521d040be3a44c501a20

d3cbc17d7482485ed8171f23395f905646b357ff

7f72c44d30fcd5e21465027805b47330ff517ecb

aff11182286cff4cbf2b185b2c8528f646871dd1

de897829bbea1c74f53688e6e6d73c48ba928e5f

2479f6eb185758ee114f9dd0670d12eab9289342

5fd6235a5869e642c533d9dc7963d53fc32b8e4f

4012fc3adbb819825d3cebfd636b140d3e52fe4c

17a4e6d124aefe3b545b4e6482459654a3936e5a740d1424c657dbfb3faa80b9e1ec8bfdc5df1df1baf178493e2ecf11fb10ada72320a91ea3d9d287

b3b11d76ca0607225e0d342492cdd294b3ef0a76

2a8d9d8a5b9d0b44f13c94a4b4d7d693f4d0fb48

8ac1f5fe8ae78569ca4b0f5d4d6b53bf378b2009

1e064739492ee36459273b00f131b17aefaa9456

c169fe59e1507c9bb3f38136e9a2926426247ffa

81d8f5126adb59fc9355ba1d5591c0e32ffae7bd

63fe9dfc1e197bfe8dce0279552789208fcfe558

1e166f0606ccec3858311433affedc56c09c03ab

83cdf0c700e94a0ef82c099f3501b9fb8ffbbdc4

b1baffac432242bfbc37533110790270b4887fe0

4d651eaa0567337e69d62dd3dea5260e773ea6de

ab614afd1bf2dc69cb07532518a4573f56225a42

e286be70ee3500ab7e79eeeb599e40dd3c7a157b

4ab723820d39e3eb1fb3702d8d70e72b59b9be36

17359a0c821101b47382374603cef0ed74855e29

1011b08ddd3ab2dbf097e04bb3258d63fbf8c60f

023bb401e90c10e11dde191ab168f5c45c6f612a

9edc50bfd2ae28e4863d43bde9935ea771271b58

f4f26cf3ab7c3e926b7b90da4b31471a48d308d2

092ef23077cdebf8176073af08cafdced717cc11

71b325afe0f40462fe1495c18be6bbaf181b6e04

71d331bf84eef3374e7245aac43d7fb7f346efca

71303ceec8ad1e2954e484ee3e6bd18609424878

a14d37905fe3c19cdf968a29d47e92c3a9bdb07b

697c99f7eeea33230f0553784b302d22302750e1

0853f684760854c56665a7f643bd8922313cf62f

990ccf55cd570b6e25f309bc2efafcc2786ae318

656780437717dfc2f98796e6752b58201ee75d36

ccdb1e555698618f6c098f647a440a25e685a9a2

e798c8e8fa69b798a4d7ad5abad0345a9aa523be

1ffb2e165171419514ab9cca2818a5c9f25f48a5

93e0f432d159854e2969005e6fed07928a450a22

32d9bbad9ad7e04895beb877e8bedae63a46bc93

6ec5b3ef2409197faf2360d19dd6319a42daadb1

bf908ca3e45efa77998915d3cb10de19ea3c8dc8

fbc1acba4fc906300ebbf03209d883dff1c0b14c

f6246d3f09198e49529a5d6eae089de088a47e86


相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
66 2
|
2月前
|
SQL 分布式计算 Hadoop
Apache Hive 帮助文档
Apache Hive 帮助文档
94 9
|
2月前
|
SQL 分布式计算 Hadoop
手把手的教你搭建hadoop、hive
手把手的教你搭建hadoop、hive
129 1
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
69 3
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
48 2
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
47 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
95 0
|
4月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
326 0
|
6月前
|
SQL 分布式计算 HIVE
实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
SQL 分布式计算 NoSQL
使用Spark高效将数据从Hive写入Redis (功能最全)
使用Spark高效将数据从Hive写入Redis (功能最全)
401 1

相关实验场景

更多

推荐镜像

更多