搜索引擎算法-TrustRank算法细解

简介:

TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。TrustRank算法是应对轻易操纵Google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。

TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,意图提高自己的信任指数。

基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些TrustRank最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离越远,信任指数将依次下降。这样,通过TrustRank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。

TrustRank的工作原理:先用人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TrustRank也高,与“种子”页面的链接越远,页面的TrustRank越低。TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面,就容易区分好页面和垃圾页面,通过机器分析链接结构来确定其它页面的TrustRank值。

下面给出TrustRank算法的计算示例:

Step1:Selectasmall“seedset”ofwebpages.

Step2:Identifygoodwebpagesfromthe“seedset”.

Step3:Createpersonalizationvectorbasedonidentificationofgoodwebpages.

虽然TrustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。

TrustRank(信任指数)是2006年雅虎申请的一项专利,TrustRank是用来检测垃圾网站的,但现在的搜索引擎排名算法中,常常影响大部分网站的整体排名,有意思的是大家通常所说的TrustRank多是指Google算法。

搜索引擎中大体的算法其实都差不多,TrustRank算法放到百度这里通俗的来说无非的意思就是你导出链接给垃圾站或者垃圾站导入链接给你会影响搜索引擎评价这个意思。

目录
相关文章
|
存储 数据采集 人工智能
搜索引擎背后的经典数据结构和算法
搜索引擎背后的经典数据结构和算法
|
存储 数据采集 人工智能
搜索引擎背后的经典数据结构和算法
本文主要为大家介绍搜索引擎,会深度剖析搜索引擎的工作原理及其中用到的一些经典数据结构和算法,相信大家看了肯定有收获。
6602 0
搜索引擎背后的经典数据结构和算法
|
自然语言处理 算法 搜索推荐
|
数据采集 算法 搜索推荐
搜索引擎网页去重算法解析
  seo优化培训:搜索引擎网页去重算法解析   以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下;   相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。
7357 0
|
算法 搜索推荐 安全
搜索引擎:文本分类——TF/IDF算法
原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。
1571 0
|
2天前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。
|
3天前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真

热门文章

最新文章