app后端搜索入门

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 现在人们的网络生活已经离不开搜索了,遇到不懂的问题,想知道的事情,搜索一下,就知道答案。   在app中,最常见的搜索情景就是搜索用户。只有几百,几千的用户量时,可以直接用用like这样的模糊查询,但是,如果数据有几百万,甚至上千万的时候,一次like查询数据库就堵了。

 现在人们的网络生活已经离不开搜索了,遇到不懂的问题,想知道的事情,搜索一下,就知道答案。

 

在app中,最常见的搜索情景就是搜索用户。只有几百,几千的用户量时,可以直接用用like这样的模糊查询,但是,如果数据有几百万,甚至上千万的时候,一次like查询数据库就堵了。到了一定量级的时候,不得不考虑使用专门的搜索技术。

 

        

1.    一个简单的搜索例子

 

有三行数据:

 

(1)近2周8成股民亏损超10%。

(2)满仓中国梦。

(3)股民两天亏一套三居。

 

例如,有个需求,从上面的3行数据中,把包含“股民”这个关键词的数据找出来。

 

按照一般的做法,就是分别查找上面的每一行数据:

 

第一行数据从头到尾查找一次,发现有“股民”这个关键词。

第二行数据从头到尾查找一次,没有有“股民”这个关键词。

第三行数据从头到尾查找一次,发现有“股民”这个关键词。

 

         根据查找结果,第一,第三行数据包含“股民”这个关键词。

 

2.    搜索技术的基本原理

 

按照上面的过程,每次查找,都需要把每行数据从头到尾查一次。

如果需要从上百万,千万的数据中查找一个关键词,读者可以想象一下效率有多低。

我们看一下搜索引擎的例子,在搜索引擎搜索“股民”这个关键词的结果:

 

 

                                                                           图1

 

在搜索引擎的搜索结果中,是直接显示了所有包含“股民”这个关键字的数据。

 

它是怎么做到在海量的信息中,快速搜索中包含关键字的信息的呢?

 

        实现搜索的关键,就是分词和倒序索引。

 

         如果我们知道每行数据中包含多少个关键字,然后建立一个映射表,把每个关键字出现在哪行数据中记录下来,搜索就变得很轻松。当知道一个关键字的时候,只需要查找这个映射表,找到这个关键词,根据这个关键词建立的映射关系就能查到包含这个关键词的数据。

 

         知道每行数据中包含多少个关键字的过程,就是分词。这里有个问题,什么是关键字?

 

        关键字,其实就是一个词语或句子,例如,当我有需要的时候,“股民”可以是搜索的关键字,但是,“股”也可以是搜索的关键字,“民”也可以是搜索的关键字。什么是关键字,要看使用者的需求。因此,为了能准确分析出一行数据到底包含多少个关键字,就需要一个包含了所有词语或句子的词典,用来分析数据中有什么关键字。

 

         建立一个映射表,把每个关键字出现在哪行数据中记录下来,这个过程就是建倒序搜引。

 

         下面举个实际的例子,看看是怎么分词和建立倒序索引。

         还是用回上面举例的三行数据,左边的是数据的编号,右边的是数据的内容。

 

(1)近2周8成股民亏损超10%。

(2)满仓中国梦。

(3)股民两天亏一套三居。

 

首先,把分析上面每行数据包含多少个关键词(这里为了简化分词过程,没有把每个汉字或数字当成一个关键词,例如,” 民”应该是个关键词,但为了简化分词,没有当成一个关键词),结果如表1所示。

 

                                                                                           表1 

 

         下面根据表1的结果建立一个映射表表2,把每个关键字出现在哪行数据中记录下来

  

表2

 

用上面的表2,我们很容易得知,“股民”这个关键词在数据1,3中出现过。如果需要知道“中国”这个关键词出现在哪,通过查找表2也很容易得知出现在数据2中。

 

在这么几行数据中,还不能体验到倒序索引的高效。如果数据量到了上百万,千万,甚至上亿,倒序索引的效率就非常明显了。归根到底,这种数据结构就是为了实现快速搜索也建立的。

 

再进一步,表2的右侧,除了记录关键词出现在哪行数据中,还能记录在某行数据中出现的频率,出现的位置等信息,如果有兴趣继续深入了解搜索引擎的技术,可阅读《这就是搜索引擎:核心技术详解》(张俊林著),这篇文章只是简单介绍搜索引擎的基本原理。

 

3.    常见的开源搜索软件介绍

 

搜索技术一点都不简单,如果要我们从头开始做,不知道要到哪年哪月才能用给app用上搜索功能。幸好,大牛们已经为我们开源大量的搜索软件,只要我们会使用这些搜索软件提供的api,就能给app后台整合搜索技术。下面简单介绍一下常见的搜索软件。

 

(1) Lucene

 

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

 

Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。

 

(2) Solr

 

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。

 

(3) Elasticsearch

 

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。

 

(4) Sphinx

 

Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。

 

(5) Coreseek

Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景,用户可以免费下载使用。

 

Coreseek曾经在本人架构过两个app后台深度使用过,配置简单,性能高效,整合了Sphinx和中文分词,快速完成了搜索模块的开发。但最大的缺点是稳定版不支持实时索引,测试版是支持了,但没在生产环境中用过。

 

Coreseek的原理如下图3所示:

 

 

                                                                   图2

 

Coreseek有两个核心模块 Indexer和Search。

 

Indexer: 负责从mysql中拉取数据源,把数据源分词,建立索引

Search:搜索模块

 

整个工程的流程如下:

 

1.      Indexer模块从mysql中拉取数据

2.      Indexer模块把数据经过中文分词,建立索引

3.      客户端向Search模块发起搜索请求

4.      Seach模块查找索引中的数据

5.      Seach模块得到索引中符合要求的数据的id等数据

6.      把数据返回给客户端

 

另外,有个小小的经验分享,搜索的时候,有的用户直接通过输入拼音来代替汉字的,如下图2:

 

 

                              图3

 

这种情况,就是要在记录关键字的同时,也要记录下关键字的拼音,把拼音也建索引,就能实现用拼音搜索。

 

参考资料:

1.      http://baike.baidu.com/link?url=rNBW3tzH-oJYeBoPSUvWZPGz-stIkE5zFQsjAtV234HFFPJKyeyr3dJjJrbZKRSCBg2NGZv-lA7DFqHF5XBEoq

2.      http://baike.baidu.com/link?url=C92bKEtkJtap8FfRjpSX4m5-yGE1Dn6O-00FRV5RwLe-EOkJ6FIvfl7amUuYceb-5jOD3Zn0Oy1_1vh7LG0RXK

3.      http://baike.baidu.com/link?url=xH1aipHlRiiq3JduGb8J8aT7qpYxs1rVDuvUQe76z0WLDZvuPFuI8Y7pbthYyiUZyyAB5wUxFzJqs5oAnRh5phPO7XYvdFSvuV5JlNVuD33

4.      http://www.coreseek.cn/

 

如何联系我:【万里虎】www.bravetiger.cn 【QQ】3396726884 (咨询问题100元起,帮助解决问题500元起) 【博客】http://www.cnblogs.com/kenshinobiy/
相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
2天前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
20 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
18天前
|
缓存 架构师 数据库
后端开发的艺术:从入门到精通的旅程####
本文旨在探索后端开发的本质与魅力,通过一段段深入浅出的故事,串联起后端技术的精髓。不同于传统的技术总结,这里我们将以一位普通开发者的成长轨迹为线索,展现从初识编程到成为后端架构师的心路历程。每个阶段都伴随着挑战、学习与突破,最终揭示了技术背后的人文关怀与创新精神。 ####
|
29天前
|
小程序 JavaScript 前端开发
uni app 入门
uni app 入门
28 2
|
9天前
|
监控 API 持续交付
后端开发中的微服务架构:从入门到精通
【10月更文挑战第26天】 在当今的软件开发领域,微服务架构已经成为了众多企业和开发者的首选。本文将深入探讨微服务架构的核心概念、优势以及实施过程中可能遇到的挑战。我们将从基础开始,逐步深入了解如何构建、部署和管理微服务。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和实用的建议。
21 0
|
1月前
|
JavaScript 前端开发
vue3教程,如何手动获取后端数据(入门到精通3,新人必学篇)
本文提供了一个Vue 3教程,讲解了如何使用axios库手动从后端获取数据,包括安装axios、配置后端访问地址、编写路由地址、发起HTTP请求以及在组件中读取和打印响应数据的步骤。
252 0
vue3教程,如何手动获取后端数据(入门到精通3,新人必学篇)
|
2月前
|
SQL JSON Java
springboot 如何编写增删改查后端接口,小白极速入门,附完整代码
本文为Spring Boot增删改查接口的小白入门教程,介绍了项目的构建、配置YML文件、代码编写(包括实体类、Mapper接口、Mapper.xml、Service和Controller)以及使用Postman进行接口测试的方法。同时提供了SQL代码和完整代码的下载链接。
springboot 如何编写增删改查后端接口,小白极速入门,附完整代码
|
3月前
|
小程序 前端开发 Java
SpringBoot+uniapp+uview打造H5+小程序+APP入门学习的聊天小项目
JavaDog Chat v1.0.0 是一款基于 SpringBoot、MybatisPlus 和 uniapp 的简易聊天软件,兼容 H5、小程序和 APP,提供丰富的注释和简洁代码,适合初学者。主要功能包括登录注册、消息发送、好友管理及群组交流。
102 0
SpringBoot+uniapp+uview打造H5+小程序+APP入门学习的聊天小项目
|
1月前
|
Web App开发 JSON JavaScript
深入浅出:Node.js后端开发入门与实践
【10月更文挑战第4天】在这个数字信息爆炸的时代,了解如何构建一个高效、稳定的后端系统对于开发者来说至关重要。本文将引导你步入Node.js的世界,通过浅显易懂的语言和逐步深入的内容组织,让你不仅理解Node.js的基本概念,还能掌握如何使用它来构建一个简单的后端服务。从安装Node.js到实现一个“Hello World”程序,再到处理HTTP请求,文章将带你一步步走进Node.js的大门。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往后端开发新世界的大门。
|
2月前
|
前端开发 JavaScript Java
编程入门之前端和后端开发
前端开发就是开发网页上的内容展示与用户的交互,一部分后端开发工作就是开发数据访问服务,使前端可以通过后端服务对数据进行增删改查,也就是Crud,对前端用户的请求进行相应。
59 8
|
3月前
|
Java 数据库连接 Spring
后端框架入门超详细 三部曲 Spring 、SpringMVC、Mybatis、SSM框架整合案例 【爆肝整理五万字】
文章是关于Spring、SpringMVC、Mybatis三个后端框架的超详细入门教程,包括基础知识讲解、代码案例及SSM框架整合的实战应用,旨在帮助读者全面理解并掌握这些框架的使用。
后端框架入门超详细 三部曲 Spring 、SpringMVC、Mybatis、SSM框架整合案例 【爆肝整理五万字】
下一篇
无影云桌面