全文索引 排名计算问题

简介:

计算排名的过程,取决于一系列因素。不同语言的断字符对文本进行的词汇切分也不同。例如,字符串“dog-house”可以被一种断字符断为“dog”和“house”而被另一种断字符断为“dog-house”。这意味着匹配和排名将根据所指定语言而有所不同,因为不仅词不同,而且文档长度也不同。文档长度的差异可能会影响所有查询的排名。

诸如 IndexRowCount 之类的统计信息可能会大不相同。例如,如果一个目录的主索引有二十亿行,那么对一个新文档的索引将被编制为内存中的中间索引,而基于该内存中索引内的文档数对该文档的排名可能与主索引中的文档排名不同。因此,建议在完成产生大量要创建索引或重新创建索引的行的任意填充后,使用 ALTER FULLTEXT CATALOG ... REORGANIZE Transact-SQL 语句将这些索引合并为一个主索引。全文引擎也会根据参数(例如中间索引的数目和大小)自动合并索引。

MaxOccurrence 值被规范化到 32 个范围的其中一个内。这意味着,比方说,50 个词长的文档与 100 个词长的文档的处理方式相同。下面是用于规范化的表。由于这两个文档的长度位于相邻表值 32 与 128 之间的范围内,因此将认为它们具有相同的有效长度 128 (32 < docLength <= 128)。

复制代码
{ 16, 32, 128, 256, 512, 725, 1024, 1450, 2048, 2896, 4096, 5792, 8192, 11585, 
16384, 23170, 28000, 32768, 39554, 46340, 55938, 65536, 92681, 131072, 185363, 
262144, 370727, 524288, 741455, 1048576, 2097152, 4194304 };

CONTAINSTABLE 排名

CONTAINSTABLE 排名使用以下算法:

复制代码
StatisticalWeight = Log2( ( 2 + IndexedRowCount ) / KeyRowCount )
Rank = min( MaxQueryRank, HitCount * 16 * StatisticalWeight / MaxOccurrence )

短语匹配项的排名方式与各个键类似,只不过要估计 KeyRowCount(包含该短语的行数),并且此值可能会比实际值大。

ISABOUT 排名

CONTAINSTABLE 使用 ISABOUT 选项支持查询加权词。按照传统信息检索系统的说法,ISABOUT 表示向量空间查询。所使用的默认排名算法为广为人知的公式 Jaccard。将根据查询中的每个词计算排名,然后按如下描述将这些排名相结合。

复制代码
ContainsRank = same formula used for CONTAINSTABLE ranking of a single term (above).
Weight = the weight specified in the query for each term. Default weight is 1.
WeightedSum = Σ[key=1 to n] ContainsRankKey * WeightKey
Rank =  ( MaxQueryRank * WeightedSum ) / ( ( Σ[key=1 to n] ContainsRankKey^2 ) 
      + ( Σ[key=1 to n] WeightKey^2 ) - ( WeightedSum ) )

FREETEXTTABLE 排名

FREETEXTTABLE 排名基于 OKAPI BM25 排名公式计算。FREETEXTTABLE 查询将通过派生词(原始查询词的变形)向查询中添加词,这些词将被作为单独的、与派生出它们的词没有特殊联系的词来处理。同义词库功能派生出的同义词将被当作单独的、具有同等加权值的词来处理。查询中的每个词都会对排名产生影响。

复制代码
Rank = Σ[Terms in Query] w ( ( ( k1 + 1 ) tf ) / ( K + tf ) ) * ( ( k3 + 1 ) qtf / ( k3 + qtf ) ) )
Where: 
w is the Robertson-Sparck Jones weight. 
In simplified form, w is defined as: 
w = log10 ( ( ( r + 0.5 ) * ( N – R + r + 0.5 ) ) / ( ( R – r + 0.5 ) * ( n – r + 0.5 ) )
N is the number of indexed rows for the property being queried. 
n is the number of rows containing the word. 
K is ( k1 * ( ( 1 – b ) + ( b * dl / avdl ) ) ). 
dl is the property length, in word occurrences. 
avdl is the average length of the property being queried, in word occurrences. 
k1, b, and k3 are the constants 1.2, 0.75, and 8.0, respectively. 
tf is the frequency of the word in the queried property in a specific row. 
qtf is the frequency of the term in the query. 






    本文转自 Fanr_Zh 博客园博客,原文链接:http://www.cnblogs.com/Amaranthus/archive/2011/06/07/2074254.html,如需转载请自行联系原作者	





相关文章
|
存储 弹性计算 固态存储
阿里云服务器租用价格参考,云服务器最新活动价格与收费标准分享
2023年阿里云服务器租用费用更新了,阿里云轻量应用服务器2核2G3M带宽轻量服务器一年87元,2核8G4M带宽轻量服务器一年165元;云服务器经济型e实例2核8G3M配置99元1年;除此之外,通用算力型u1实例、计算型c7、通用型g7、计算型c8a与c8i、通用型g8a与g8i均有优惠活动,小编整理了一份2023阿里云服务器最新版收费标准与优惠价格,以供参考。
1956 0
阿里云服务器租用价格参考,云服务器最新活动价格与收费标准分享
|
9天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
3905 19
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
11天前
|
人工智能 自然语言处理 供应链
|
17天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3631 14
|
13天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
3067 7
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
20天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3770 25
|
4天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
537 0