整合ElasticSearch实现数据模糊搜索(Logstash同步Mysql数据)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 组件介绍:elasticsearch:搜索引擎,用于存储待搜索数据logstash:用于将mysql中的商品数据同步到搜索引擎中elasticsearch-head(可选):elasticsearch可视化工具kibana(可选):elasticsearch可视化工具本文测试环境:springboot:1.5.16elasticsearch:2.3.5(springboot1.5仅支持2.x的es)logstash:6.5.4


前言



本文介绍了如何整合搜索引擎elasticsearch与springboot,对外提供数据查询接口。


开发环境



组件介绍:

  • elasticsearch:搜索引擎,用于存储待搜索数据
  • logstash:用于将mysql中的商品数据同步到搜索引擎中
  • elasticsearch-head(可选):elasticsearch可视化工具
  • kibana(可选):elasticsearch可视化工具

本文测试环境:

  • springboot:1.5.16
  • elasticsearch:2.3.5(springboot1.5仅支持2.x的es)
  • logstash:6.5.4


开发步骤



使用Docker部署elasticsearch

  • docker下一键启动es,可根据需要的版本号对语句做修改
sudo docker run -it --rm --name elasticsearch -d -p 9200:9200 -p 9300:9300 elasticsearch:2.3.5
复制代码

注意到该命令:

  • --rm参数:容器终止后销毁
  • -d:后台进程
  • -p 9200:9200 -p 9300:9300:开放了9200端口和9300端口

得到如图:

此时打开网页localhost:9200即可查看状态,显示类似为:

{
  "name" : "Ant-Man",
  "cluster_name" : "elasticsearch",
  "version" : {
    "number" : "2.3.5",
    "build_hash" : "90f439ff60a3c0f497f91663701e64ccd01edbb4",
    "build_timestamp" : "2016-07-27T10:36:52Z",
    "build_snapshot" : false,
    "lucene_version" : "5.5.0"
  },
  "tagline" : "You Know, for Search"
}
复制代码

注意:docker的es默认对0.0.0.0公网开放


下载并使用logstash并导入数据


schedule => "* * * * *"默认为每分钟同步一次

input {
  jdbc {
    jdbc_connection_string => "jdbc:mysql://localhost:3306/pm_backend"
    jdbc_user => "root"
    jdbc_password => "xxxxxxxxxx"
    jdbc_driver_library => "xxxxxxxx/mysql-connector-java-5.1.6.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_paging_enabled => "true"
    jdbc_page_size => "5000"
    statement=> "select * from pm_jd_item"
    schedule => "* * * * *"
    type => "pm_jd_item"
  }
}
output {
  elasticsearch {
    hosts => "localhost:9200"
    index => "pm_backend"
    document_type => "%{type}"
    document_id => "%{id}"
  }
  stdout {
    codec => json_lines
  }
}
复制代码

在logstash目录下执行命令,完成数据的导入:

bin/logstash -f jdbc.conf
复制代码

得到如图:

同步完成后,使用elasticsearch-head查看(或者用kibana,请随意):


整合进springboot

  1. 添加pom.xml
<!-- 搜索引擎:elastic-search-->
<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch</artifactId>
   <version>2.4.6</version>
</dependency>
<dependency>
  <groupId>org.springframework.boot</groupId>
  <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
<dependency>
  <groupId>org.springframework.data</groupId>
  <artifactId>spring-data-elasticsearch</artifactId>
</dependency>
复制代码
  1. 修改application.properties
# elasticsearch
spring.data.elasticsearch.cluster-name=elasticsearch
#节点地址,多个节点用逗号隔开
spring.data.elasticsearch.cluster-nodes=127.0.0.1:9300
#spring.data.elasticsearch.local=false
spring.data.elasticsearch.repositories.enable=true
复制代码
  1. 在需要进行搜索的实体类上添加@Document、@Id、@Field等标注,本例为JdItem.java
@Document(indexName = "pm_backend", type = "pm_jd_item")
public class JdItem implements Serializable {
    @Id
    private Integer id;
    @Field(type = FieldType.Long)
    private Long itemId;
    @Field(type = FieldType.Long)
    private Long categoryId;
    @Field(type = FieldType.String)
    private String name;
复制代码
  1. 添加JdItemRepository继承ElasticsearchRepository
public interface JdItemRepository extends ElasticsearchRepository<JdItem, Integer>{
}
复制代码
  1. 编写JdItemController中的查询接口findJdItemByName

代码截取自个人项目京东价格监控,仅供参考!

/**
     * 根据商品名在pm_jd_item中搜索商品
     * @param itemName
     * @param startRow
     * @param pageSize
     * @return
     */
    @ApiOperation(value="查询商品", notes="查询商品")
    @RequestMapping(value = "/findJdItemByName", method = {RequestMethod.GET})
    public ResponseData<List<JdItem>> findJdItemByName(
            @ApiParam("用户输入的商品名") @RequestParam(value = "itemName") String itemName,
            @ApiParam("页码索引(默认为0)") @RequestParam(value = "startRow", required = false, defaultValue = "0") int startRow,
            @ApiParam("每页的商品数量(默认为10)") @RequestParam(value = "pageSize", required = false, defaultValue = "10") int pageSize
    ){
        ResponseData<List<JdItem>> responseData = new ResponseData<>();
        try {
            FunctionScoreQueryBuilder functionScoreQueryBuilder = QueryBuilders.functionScoreQuery().add(QueryBuilders.matchPhraseQuery("name", itemName), ScoreFunctionBuilders.weightFactorFunction(100)).scoreMode("sum").setMinScore(10);
            Pageable pageable = new PageRequest(startRow, pageSize);
            SearchQuery searchQuery = new NativeSearchQueryBuilder().withPageable(pageable).withQuery(functionScoreQueryBuilder).build();
            Page<JdItem> jdItems = jdItemRepository.search(searchQuery);
            // Page分页getTotalPages()返回了应有的页数,临时放在errorMsg传给前端
            responseData.jsonFill(1, String.valueOf(jdItems.getTotalPages()), jdItems.getContent());
        } catch (Exception e) {
            e.printStackTrace();
            responseData.jsonFill(2, e.getMessage(), null);
        }
        return responseData;
    }
}
复制代码
  1. 运行springboot

调用findJdItemByName接口,得到:



参考



Docker安装ES & Kibana:

www.jianshu.com/p/fdfead5ac…

Elasticsearch之使用Logstash导入Mysql数据:

blog.codecp.org/2018/04/16/…

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
18天前
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
114 4
|
16天前
|
NoSQL 关系型数据库 Redis
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
|
3天前
|
存储 关系型数据库 MySQL
技术解析:MySQL中取最新一条重复数据的方法
以上提供的两种方法都可以有效地从MySQL数据库中提取每个类别最新的重复数据。选择哪种方法取决于具体的使用场景和MySQL版本。子查询加分组的方法兼容性更好,适用于所有版本的MySQL;而窗口函数方法代码更简洁,执行效率可能更高,但需要MySQL 8.0及以上版本。在实际应用中,应根据数据量大小、查询性能需求以及MySQL版本等因素综合考虑,选择最合适的实现方案。
17 6
|
3天前
|
关系型数据库 MySQL 数据处理
针对MySQL亿级数据的高效插入策略与性能优化技巧
在处理MySQL亿级数据的高效插入和性能优化时,以上提到的策略和技巧可以显著提升数据处理速度,减少系统负担,并保持数据的稳定性和一致性。正确实施这些策略需要深入理解MySQL的工作原理和业务需求,以便做出最适合的配置调整。
20 6
|
6天前
|
存储 自然语言处理 关系型数据库
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
聚合、补全、RabbitMQ消息同步、集群、脑裂问题、集群分布式存储、黑马旅游实现过滤和搜索补全功能
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
|
20天前
|
存储 缓存 监控
|
19天前
|
存储 关系型数据库 MySQL
|
19天前
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
87 0
|
21天前
|
SQL 存储 关系型数据库
实时计算 Flink版产品使用问题之同步MySQL多张表的过程中,内存释放依赖于什么
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2天前
|
NoSQL 关系型数据库 MySQL
微服务架构下的数据库选择:MySQL、PostgreSQL 还是 NoSQL?
在微服务架构中,数据库的选择至关重要。不同类型的数据库适用于不同的需求和场景。在本文章中,我们将深入探讨传统的关系型数据库(如 MySQL 和 PostgreSQL)与现代 NoSQL 数据库的优劣势,并分析在微服务架构下的最佳实践。