全文索引概述 | 学习笔记

简介: 快速学习全文索引概述

开发者学堂课程【ElasticSearch 入门精讲全文索引概述学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/631/detail/9998


全文索引概述


ES JavaAPL_全文素引概述

全文检索是计算机程序通过扫描文章中的每一个词,对必要的词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。

全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索,我们要知道:

1.只处理文本。

2.不处理语义。

3.搜索时英文不区分大小写。

4.结果列表有相关度排序。

5.并且可以对结果具有过滤高亮的功能


全文检索应用场景

我们使用 Lucene,主要是做站内搜索,即对一个系统内的资源进行搜索。如 BBS、BLOG 中的文章搜索,网上商店中的商品搜索等。

所以,学完 Lucene 后我们就 可以为自已的项目增加全文检索的功能。

例如一些基于商城的全文检索系统:在项目中构建一个对于商品的全文检索功能,让买家先搜索索引库中的内容,得到商品的基本信息而且是按照某种规则排序的(例 如热卖、点击率...).感兴趣在通过连接,读取数据库的完成数据,这样既可以实现高效的查询效率,又可以为分流查询请求。


全文检索与数据查询的区别

相关度排序:查出的结果没有相关度排序,不知道我想要的结果在哪一页。我们在使用百度搜索时,一般不需要翻页,为什么?因为百度做了相关度排序:为每一条结果打一个分数,这条结果越符合搜索条件,得分就越高,叫做相关度得分,结果列表会按照这个分数由高到低排列,所以第1页的结果就是我们最想要的结果

查询的方式:全文检索的速度大大快于SQL的like搜索的速度。这是因为查询方式不同造成的,以查字典举例:数据库的like就是一页一页的翻,一行一行的找,而全 文检索是先查目录,得到结果所在的页码,再直接翻到这一页

定位不一样:一个更侧重高效、安全的存储、一个是侧重准确、方便的搜索

ES 是基于 Lucene 的开源搜索引擎,其查询语法关键字部分和 lucene 大致一样:

分页:from/size、字段:fields、排序:sort、查询:query

过滤:filter、高亮:highlight、统计:facet

Search Type

查询 query

中文分词

相关文章
|
消息中间件 Java Kafka
Java实现Flink集成Kafka消费数据
Java实现Flink集成Kafka消费数据
616 0
html+css实战87-优先级-基本测试
html+css实战87-优先级-基本测试
189 0
html+css实战87-优先级-基本测试
|
存储 Apache
Centos7.7下建立无共享存储的WEB集群(pcs+pacemaker+corosync)
本篇内容记录了Centos7.7下建立无共享存储的WEB集群的相关操作。
361 0
|
3天前
|
数据采集 人工智能 安全
|
12天前
|
云安全 监控 安全
|
4天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1043 151
|
4天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1731 9
|
9天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
680 152