搜索引擎网页去重算法解析

简介:   seo优化培训:搜索引擎网页去重算法解析   以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下;   相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。
  seo优化培训:搜索引擎网页去重算法解析

  以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下;

  相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。

  即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!

  搜索爬虫抓取会产生网页重复的类型:

  1.多个URL地址指向同一网页以及镜像站点

  如:www.sina.com和www.sina.com.cn

  指向同一个站点。

  2.网页内容重复或近似重复

  如抄袭、转摘的内容,垃圾信息等

  网页内容近似重复检测的两种应用场合:

  一:在用户搜索阶段

  目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。

  二:爬虫抓取发现阶段

  对一个新的网页, SEO爬虫程序通过网页去重算法,最终决定是否对其索引。

  搜索引擎网页去重算法分析好文分享第1张

  搜索引擎架构

  近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:

  一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。

  二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。

  三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。

  四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。

  重复网页对搜索引擎的不利影响:

  正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。

  重复网页对搜索引擎的好处:

  如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。

  重复文档的处理方式:

  1.删除

  2.将重复文档分组

  近似重复网页举例:

  搜索引擎网页去重算法分析好文分享第2张

  搜索引擎网页去重算法分析好文分享第3张

  近似重复网页举例

  搜索引擎近似重复检测流程:

  搜索引擎网页去重算法分析好文分享第4张

  搜索引擎近似重复检测流程

  通用网页去重算法框架:

  搜索引擎网页去重算法分析好文分享第5张

  通用网页去重框架

  SimHash文档指纹计算方法

  搜索引擎网页去重算法分析好文分享第6张

  SimHash文档指纹计算方法

  说明:

  1)从文档中提取具有权值的特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF来确定。

  2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

  3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

  4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。

  Jacccard相似性计算方法:

  搜索引擎网页去重算法分析好文分享第7张

  Jacccard相似性计算方法

  如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2.Jaccard计算两个集合相同的元素占总元素的比例。

  如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

  在实际应用中,集合A和集合B的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

  对给定的文档A,假设经过特征抽取–哈希指纹运算后的二进制数值是:10000010

  对给定的文档B,假设经过特征抽取—哈希指纹运算后的二进制数值是:00100001

  经过比较,文档A和B的第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4.两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

  不同搜索引擎可能会以不同的海明距离值来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.
目录
相关文章
|
2月前
|
存储 人工智能 算法
从零掌握贪心算法Java版:LeetCode 10题实战解析(上)
在算法世界里,有一种思想如同生活中的"见好就收"——每次做出当前看来最优的选择,寄希望于通过局部最优达成全局最优。这种思想就是贪心算法,它以其简洁高效的特点,成为解决最优问题的利器。今天我们就来系统学习贪心算法的核心思想,并通过10道LeetCode经典题目实战演练,带你掌握这种"步步为营"的解题思维。
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
828 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
3月前
|
机器学习/深度学习 存储 算法
动态规划算法深度解析:0-1背包问题
0-1背包问题是经典的组合优化问题,目标是在给定物品重量和价值及背包容量限制下,选取物品使得总价值最大化且每个物品仅能被选一次。该问题通常采用动态规划方法解决,通过构建二维状态表dp[i][j]记录前i个物品在容量j时的最大价值,利用状态转移方程避免重复计算子问题,从而高效求解最优解。
534 1
|
3月前
|
算法 搜索推荐 Java
贪心算法:部分背包问题深度解析
该Java代码基于贪心算法求解分数背包问题,通过按单位价值降序排序,优先装入高价值物品,并支持部分装入。核心包括冒泡排序优化、分阶段装入策略及精度控制,体现贪心选择性质,适用于可分割资源的最优化场景。
319 1
贪心算法:部分背包问题深度解析
|
3月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
3月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
机器学习/深度学习 算法 自动驾驶
660 0
|
3月前
|
机器学习/深度学习 人工智能 资源调度
大语言模型的核心算法——简要解析
大语言模型的核心算法基于Transformer架构,以自注意力机制为核心,通过Q、K、V矩阵动态捕捉序列内部关系。多头注意力增强模型表达能力,位置编码(如RoPE)解决顺序信息问题。Flash Attention优化计算效率,GQA平衡性能与资源消耗。训练上,DPO替代RLHF提升效率,MoE架构实现参数扩展,Constitutional AI实现自监督对齐。整体技术推动模型在长序列、低资源下的性能突破。
467 8
|
3月前
|
算法 API 数据安全/隐私保护
深度解析京东图片搜索API:从图像识别到商品匹配的算法实践
京东图片搜索API基于图像识别技术,支持通过上传图片或图片URL搜索相似商品,提供智能匹配、结果筛选、分页查询等功能。适用于比价、竞品分析、推荐系统等场景。支持Python等开发语言,提供详细请求示例与文档。
|
5月前
|
机器学习/深度学习 人工智能 编解码
AI视觉新突破:多角度理解3D世界的算法原理全解析
多视角条件扩散算法通过多张图片输入生成高质量3D模型,克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式,结合跨视图注意力机制与一致性损失优化,大幅提升几何精度与纹理保真度,成为AI 3D生成的重要突破。
492 0

热门文章

最新文章

推荐镜像

更多
  • DNS