最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?
在搜索引擎和推荐引擎中,往往有很多文章的内容是非常相似的,它们可能只有一些修饰词不同。如果在搜索结果或者推荐结果中,我们将这些文章不加过滤就全部展现出来,那用户可能在第一页看到的都是几乎相同的内容。这样的话,用户的使用体验就会非常糟糕。因此,在搜索引擎和推荐引擎中,对相似文章去重是一个非常重要的环节。
对相似文章去重,本质上就是把相似的文章都检索出来。今天,我们就来聊聊如何快速检索相似的文章。
如何在向量空间中进行近邻检索?
既然是要讨论相似文章的检索,那我们就得知道,一篇文章是怎么用计算机能理解的形式表示出来的,以及怎么计算两篇文章的相似性。最常见的方式就是使用 向量空间模型(Vector Space Model)。所谓向量空间模型,就是将所有文档中出现过的所有关键词都提取出来。如果一共有 n 个关键词,那每个关键词就是一个维度,这就组成了一个 n 维的向量空间。
那一篇文档具体该如何表示呢?我们可以假设,一篇文章中有 k(0。这样一来,每一个文档就都是 n 维向量空间中的一个点。
文档分词,求出关键词的TF-IDF值作为对应维度权重docword2word7word9TF-IDF:w2TF-IDF:w7TF-IDF:w9000W7W9W2