app后端搜索入门

2015-11-12 1436

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

简介： 现在人们的网络生活已经离不开搜索了，遇到不懂的问题，想知道的事情，搜索一下，就知道答案。在app中，最常见的搜索情景就是搜索用户。只有几百，几千的用户量时，可以直接用用like这样的模糊查询，但是，如果数据有几百万，甚至上千万的时候，一次like查询数据库就堵了。

现在人们的网络生活已经离不开搜索了，遇到不懂的问题，想知道的事情，搜索一下，就知道答案。

在app中，最常见的搜索情景就是搜索用户。只有几百，几千的用户量时，可以直接用用like这样的模糊查询，但是，如果数据有几百万，甚至上千万的时候，一次like查询数据库就堵了。到了一定量级的时候，不得不考虑使用专门的搜索技术。

1. 一个简单的搜索例子

有三行数据：

（1）近2周8成股民亏损超10%。

（2）满仓中国梦。

（3）股民两天亏一套三居。

例如，有个需求，从上面的3行数据中，把包含“股民”这个关键词的数据找出来。

按照一般的做法，就是分别查找上面的每一行数据：

第一行数据从头到尾查找一次，发现有“股民”这个关键词。

第二行数据从头到尾查找一次，没有有“股民”这个关键词。

第三行数据从头到尾查找一次，发现有“股民”这个关键词。

根据查找结果，第一，第三行数据包含“股民”这个关键词。

2. 搜索技术的基本原理

按照上面的过程，每次查找，都需要把每行数据从头到尾查一次。

如果需要从上百万，千万的数据中查找一个关键词，读者可以想象一下效率有多低。

我们看一下搜索引擎的例子，在搜索引擎搜索“股民”这个关键词的结果：

图1

在搜索引擎的搜索结果中，是直接显示了所有包含“股民”这个关键字的数据。

它是怎么做到在海量的信息中，快速搜索中包含关键字的信息的呢？

实现搜索的关键，就是分词和倒序索引。

如果我们知道每行数据中包含多少个关键字，然后建立一个映射表，把每个关键字出现在哪行数据中记录下来，搜索就变得很轻松。当知道一个关键字的时候，只需要查找这个映射表，找到这个关键词，根据这个关键词建立的映射关系就能查到包含这个关键词的数据。

知道每行数据中包含多少个关键字的过程，就是分词。这里有个问题，什么是关键字？

关键字，其实就是一个词语或句子，例如，当我有需要的时候，“股民”可以是搜索的关键字，但是，“股”也可以是搜索的关键字，“民”也可以是搜索的关键字。什么是关键字，要看使用者的需求。因此，为了能准确分析出一行数据到底包含多少个关键字，就需要一个包含了所有词语或句子的词典，用来分析数据中有什么关键字。

建立一个映射表，把每个关键字出现在哪行数据中记录下来，这个过程就是建倒序搜引。

下面举个实际的例子，看看是怎么分词和建立倒序索引。

还是用回上面举例的三行数据，左边的是数据的编号，右边的是数据的内容。

（1）近2周8成股民亏损超10%。

（2）满仓中国梦。

（3）股民两天亏一套三居。

首先，把分析上面每行数据包含多少个关键词（这里为了简化分词过程，没有把每个汉字或数字当成一个关键词，例如，” 民”应该是个关键词，但为了简化分词，没有当成一个关键词），结果如表1所示。

表1

下面根据表1的结果建立一个映射表表2，把每个关键字出现在哪行数据中记录下来

表2

用上面的表2，我们很容易得知，“股民”这个关键词在数据1,3中出现过。如果需要知道“中国”这个关键词出现在哪，通过查找表2也很容易得知出现在数据2中。

在这么几行数据中，还不能体验到倒序索引的高效。如果数据量到了上百万，千万，甚至上亿，倒序索引的效率就非常明显了。归根到底，这种数据结构就是为了实现快速搜索也建立的。

再进一步，表2的右侧，除了记录关键词出现在哪行数据中，还能记录在某行数据中出现的频率，出现的位置等信息，如果有兴趣继续深入了解搜索引擎的技术，可阅读《这就是搜索引擎：核心技术详解》（张俊林著），这篇文章只是简单介绍搜索引擎的基本原理。

3. 常见的开源搜索软件介绍

搜索技术一点都不简单，如果要我们从头开始做，不知道要到哪年哪月才能用给app用上搜索功能。幸好，大牛们已经为我们开源大量的搜索软件，只要我们会使用这些搜索软件提供的api，就能给app后台整合搜索技术。下面简单介绍一下常见的搜索软件。

(1) Lucene

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。

(2) Solr

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

(3) Elasticsearch

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二流行的企业搜索引擎。

(4) Sphinx

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

(5) Coreseek

Coreseek 是一款中文全文检索/搜索软件，以GPLv2许可协议开源发布，基于Sphinx研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景，用户可以免费下载使用。

Coreseek曾经在本人架构过两个app后台深度使用过，配置简单，性能高效，整合了Sphinx和中文分词，快速完成了搜索模块的开发。但最大的缺点是稳定版不支持实时索引，测试版是支持了，但没在生产环境中用过。

Coreseek的原理如下图3所示：

图2

Coreseek有两个核心模块 Indexer和Search。

Indexer: 负责从mysql中拉取数据源，把数据源分词，建立索引

Search：搜索模块

整个工程的流程如下：

1. Indexer模块从mysql中拉取数据

2. Indexer模块把数据经过中文分词，建立索引

3. 客户端向Search模块发起搜索请求

4. Seach模块查找索引中的数据

5. Seach模块得到索引中符合要求的数据的id等数据

6. 把数据返回给客户端

另外，有个小小的经验分享，搜索的时候，有的用户直接通过输入拼音来代替汉字的，如下图2：

图3

这种情况，就是要在记录关键字的同时，也要记录下关键字的拼音，把拼音也建索引，就能实现用拼音搜索。

参考资料：

1. http://baike.baidu.com/link?url=rNBW3tzH-oJYeBoPSUvWZPGz-stIkE5zFQsjAtV234HFFPJKyeyr3dJjJrbZKRSCBg2NGZv-lA7DFqHF5XBEoq

2. http://baike.baidu.com/link?url=C92bKEtkJtap8FfRjpSX4m5-yGE1Dn6O-00FRV5RwLe-EOkJ6FIvfl7amUuYceb-5jOD3Zn0Oy1_1vh7LG0RXK

3. http://baike.baidu.com/link?url=xH1aipHlRiiq3JduGb8J8aT7qpYxs1rVDuvUQe76z0WLDZvuPFuI8Y7pbthYyiUZyyAB5wUxFzJqs5oAnRh5phPO7XYvdFSvuV5JlNVuD33

4. http://www.coreseek.cn/

如何联系我：【万里虎】www.bravetiger.cn 【QQ】3396726884 （咨询问题100元起，帮助解决问题500元起）【博客】http://www.cnblogs.com/kenshinobiy/

app后端搜索入门

1. 一个简单的搜索例子

2. 搜索技术的基本原理

3. 常见的开源搜索软件介绍

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

app后端搜索入门

1. 一个简单的搜索例子

2. 搜索技术的基本原理

3. 常见的开源搜索软件介绍

热门文章

最新文章

相关课程

相关电子书

相关实验场景