开发者社区大数据文章正文

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

2017-02-19 2622

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲，由于实体查询系统中的查询一般比较短，所以由于缺少上下文信息，所以不适合使用传统的bag-of-words模型来确定实体类型，本讲义介绍了一个新颖的实体类型识别系统，该系统使用Spark MLlib和Apache Solr构建，能够结合不同来源的线索来分析出需要查询实体。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲，由于实体查询系统中的查询一般比较短，所以由于缺少上下文信息，所以不适合使用传统的bag-of-words模型来确定实体类型，本讲义介绍了一个新颖的实体类型识别系统，该系统使用Spark MLlib和Apache Solr构建，能够结合不同来源的线索来分析出需要查询实体。

1bc9c57362140c23be4e7e40b0ae69b648bce056

683b37f227db046bd1345f8c143c33a0b619c9d6

68e0e247bf75b6f176c7eea6cfaf81e7268a096e

d5d48c8fbbd04b2aa519020cd3a5d69a86697b39

afaff1612f9ca151d1944d600ab5ae8559507ffc

2ea57e569c44027943f3802b4fed7d173cb82634

8084217193cd79a456e56175f36cd2b16941420b

6b48933daed494abe446a3b13201288bfd18b2ca

fc6e973e3dafa2577a537178d6c96f4608e1f39e

cf6089e8f3b4b5e91891f8b16a06cbf366b7a3e7

894bcd588a4166dc3d11c2187bc992ce05dce2af

1bdf4cefd29555e6955025ceca391fcf0549ce94

5c78960ef9d871b611c5406982f2e7cd77912863

b03ac5e6e692b306216a213945306ec5f8b490ec

7bad75895b49580ea8afd17b66938c2f8343d1fe

de7da6bb455295b067ab9a97130bec828d924c97

75a996672af4c8c4aec76db23b3f5dfe4d37ad1d

379be3b9c3ab8e6d50de1023a086f2e1925c7013

1f154ff3b9c5a3cf3c9561ec17f0e928070737f1

50d63081f4085e95efa4f509db721a64c9c361e3

c4407b1ad7557391a94c9489653ebb6468741402

c43329d7645eb4b00985c8723cea402966bb8e6d

ec750d0a9d439ad15077e53b6fdf175cdf62a6b6

文章标签：

Apache

大数据

分布式计算

Spark

MaxCompute

关键词：

apache spark系统

apache spark构建

apache spark构建系统

Apache构建

Apache系统

小猫吃鱼569

郑小健

消息中间件数据挖掘 Kafka

Apache Kafka流处理实战：构建实时数据分析应用

【10月更文挑战第24天】在当今这个数据爆炸的时代，能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集，实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统，不仅支持传统的消息传递模式，还提供了强大的流处理能力，能够帮助开发者构建高效、可扩展的实时数据分析应用。

郑小健

1161 5 5

郑小健

消息中间件存储监控

构建高可用性Apache Kafka集群：从理论到实践

【10月更文挑战第24天】随着大数据时代的到来，数据传输与处理的需求日益增长。Apache Kafka作为一个高性能的消息队列服务，因其出色的吞吐量、可扩展性和容错能力而受到广泛欢迎。然而，在构建大规模生产环境下的Kafka集群时，保证其高可用性是至关重要的。本文将从个人实践经验出发，详细介绍如何构建一个高可用性的Kafka集群，包括集群规划、节点配置以及故障恢复机制等方面。

郑小健

602 4 4

武子康

消息中间件分布式计算大数据

大数据-166 Apache Kylin Cube 流式构建整体流程详细记录

武子康

350 5 5

武子康

存储 SQL 分布式计算

大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图

武子康

368 3 3

郑小健

消息中间件监控数据挖掘

基于RabbitMQ与Apache Flink构建实时分析系统

【8月更文第28天】本文将介绍如何利用RabbitMQ作为数据源，结合Apache Flink进行实时数据分析。我们将构建一个简单的实时分析系统，该系统能够接收来自不同来源的数据，对数据进行实时处理，并将结果输出到另一个队列或存储系统中。

郑小健

1426 2 2

SelectDB

存储人工智能数据处理

Apache Doris 2025 Roadmap：构建 GenAI 时代实时高效统一的数据底座

秉承“以场景驱动创新” 的核心理念，持续深耕三大核心场景的关键能力，并对大模型 GenAI 场景的融合应用进行重点投入，为智能时代构建实时、高效、统一的数据底座。

SelectDB

750 10 10

Apache Doris 2025 Roadmap：构建 GenAI 时代实时高效统一的数据底座

龙大吉

存储数据挖掘数据处理

巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践

随着数据湖技术的发展，企业纷纷探索其优化潜力。本文分享了巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践。Paimon 支持流式和批处理，提供高性能、统一的数据访问和流批一体的优势。通过示例代码和实践经验，展示了如何高效处理实时数据，解决了数据一致性和故障恢复等挑战。

龙大吉

470 61 61

武子康

Java 大数据数据库连接

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

武子康

322 2 2

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

wljslmz

消息中间件 Java Kafka

Spring Boot 与 Apache Kafka 集成详解：构建高效消息驱动应用

wljslmz

882 1 1

喜欢猪猪

存储分布式计算分布式数据库

深入理解Apache HBase：构建大数据时代的基石

在大数据时代，数据的存储和管理成为了企业面临的一大挑战。随着数据量的急剧增长和数据结构的多样化，传统的关系型数据库（如RDBMS）逐渐显现出局限性。

喜欢猪猪

2021 12 12

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

热门文章

最新文章

相关课程

相关电子书

推荐镜像