[数据结构 -- C语言] 堆实现Top-K问题,原来王者荣耀的排名是这样实现的,又涨知识了

简介: [数据结构 -- C语言] 堆实现Top-K问题,原来王者荣耀的排名是这样实现的,又涨知识了

TopK问题的引入:

大家在玩王者荣耀的时候都遇到过xxx市第xxx某英雄,xxx区第xxx某英雄。或者是今天我们点外卖的时候想吃某个食物,我们打开美团/饿了么,选离自己最近的选项或者评分最高的选项就会将你所选的店铺的前x名按顺序排出来。福布斯排行榜前10名,胡润富豪排行榜前5名等等。这些问题都是需要对大量的数据排序,选出最大的前K个,这里就用到了TopK算法来解决这一类问题。

1、什么是Top-K问题?

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。

比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能

数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:

1.1 Top-K基本思路

(1)用数据集合中前K个元素来建堆

       如果是前k个最大的元素,则建小堆

       如果是前k个最小的元素,则建大堆
(2)用剩余的N-K个元素依次与堆顶元素来比较(我们这里求前K个最大为例),我们是建小堆,所以堆顶元素是这个小堆中最小的,因此我们就从剩下的N-K个元素第一个开始与堆顶比较,如果大于堆顶元素,就将堆顶元素替换掉,并向下调整重建小堆,如果小于堆顶元素就不替换,让下一个元素与堆顶比较,剩下的N-K个元素依次比较,重复此步骤。

(3)将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

2、Top-K问题逻辑分析

(1)先用前K个建小堆;

(2)将剩余的N - K 个元素依次与堆顶元素比较,大于就替换;

(3)打印堆。

这是我们的大逻辑,我们将这三步一步步的来分析:

2.1 建堆,大小为K的小堆

过程:

1.我们先开辟一个大小为k的空间;

2.将前K个数据向下调整建成小堆。(向下调整建堆不明白的小伙伴可以戳这里复习

代码如下:

int* kminheap = (int*)malloc(sizeof(int) * k);
if (NULL == kminheap)
{
    perror("malloc fail:");
    return;
}
for (int i = 0; i < k; i++)
{
    fscanf(fout, "%d", &kminheap[i]);
}
//建小堆
for (int i = (k - 1 - 1) / 2; i >= 0; i--)
{
    AdjustDown(kminheap, k, i);
}

2.2 将剩余的N - K 个元素依次与堆顶元素比较,大于就替换

过程:
1.因为我们是前K个最大数据,所以我们建的是小堆,小堆的堆顶元素就是这个堆中最小的元素,让剩下的N-K个元素依次与堆顶比较;


2.如果这个元素比堆顶大,我们就让它替换掉堆顶元素,如果小于则不交换,依次往后面的元素走再去比较;


3.如果交换了,就从堆顶开始往下调整重新建堆,堆顶就又是最小的元素;


4.当 N-K 个元素依次比较完后,堆中的 K 个元素就是要找的前 K 个最大元素。

代码如下:

int val = 0;
while (!feof(fout))
{
    fscanf(fout, "%d", &val);
    if (val > kminheap[0])
    {
        kminheap[0] = val;
        AdjustDown(kminheap, k, 0);
    }
}

2.3 打印堆

for (int i = 0; i < k; i++)
{
    printf("%d ", kminheap[i]);
}

3、TopK实现代码

void PrintTopK(int k)
{
  const char* file = "data.txt";
  FILE* fout = fopen(file, "r");
  if (NULL == fout)
  {
    perror("fopen error:");
    return;
  }
    int* kminheap = (int*)malloc(sizeof(int) * k);
    if (NULL == kminheap)
    {
      perror("malloc fail:");
      return;
    }
    for (int i = 0; i < k; i++)
    {
      fscanf(fout, "%d", &kminheap[i]);
    }
    //建小堆
    for (int i = (k - 1 - 1) / 2; i >= 0; i--)
    {
      AdjustDown(kminheap, k, i);
    }
  int val = 0;
  while (!feof(fout))
  {
    fscanf(fout, "%d", &val);
    if (val > kminheap[0])
    {
      kminheap[0] = val;
      AdjustDown(kminheap, k, 0);
    }
  }
  for (int i = 0; i < k; i++)
  {
    printf("%d ", kminheap[i]);
  }
  printf("\n");
}

我们这里的代码是从文件中读数据的,我们是将准备的数据存放在文件中。

4、Top-K问题完整代码

我们这是先造1000个数字,将数字存放到一个文件中,求 Top-K 的时候再从文件中拿这些数字。

void CreateNData()
{
  //造数据
  int n = 1000;
  srand((unsigned int)time(NULL));
  const char* file = "data.txt";
  FILE* fin = fopen(file, "w");
  if (NULL == fin)
  {
    perror("fopen error:");
    return;
  }
  for (size_t i = 0; i < n; i++)
  {
    int x = rand() % 100000;
    fprintf(fin, "%d\n", x);
  }
  fclose(fin);
}
void PrintTopK(int k)
{
  const char* file = "data.txt";
  FILE* fout = fopen(file, "r");
  if (NULL == fout)
  {
    perror("fopen error:");
    return;
  }
    int* kminheap = (int*)malloc(sizeof(int) * k);
    if (NULL == kminheap)
    {
      perror("malloc fail:");
      return;
    }
    for (int i = 0; i < k; i++)
    {
      fscanf(fout, "%d", &kminheap[i]);
    }
    //建小堆
    for (int i = (k - 1 - 1) / 2; i >= 0; i--)
    {
      AdjustDown(kminheap, k, i);
    }
  int val = 0;
  while (!feof(fout))
  {
    fscanf(fout, "%d", &val);
    if (val > kminheap[0])
    {
      kminheap[0] = val;
      AdjustDown(kminheap, k, 0);
    }
  }
  for (int i = 0; i < k; i++)
  {
    printf("%d ", kminheap[i]);
  }
  printf("\n");
}

结果展示:

快速验证技巧:我们这里是写到文件里面了,我们为了快速验证代码是否写正确调用一遍生成数据的接口,然后将它注释掉,进到data.txt文件中改五个最大的数据出来,再去打印,这样就能快速验证。


对比两张图片,打印出来的就是前 5 个最大的值。

*** 本篇完 ***

相关文章
|
5天前
|
C语言
【数据结构】栈和队列(c语言实现)(附源码)
本文介绍了栈和队列两种数据结构。栈是一种只能在一端进行插入和删除操作的线性表,遵循“先进后出”原则;队列则在一端插入、另一端删除,遵循“先进先出”原则。文章详细讲解了栈和队列的结构定义、方法声明及实现,并提供了完整的代码示例。栈和队列在实际应用中非常广泛,如二叉树的层序遍历和快速排序的非递归实现等。
64 9
|
2天前
|
存储 算法 Java
散列表的数据结构以及对象在JVM堆中的存储过程
本文介绍了散列表的基本概念及其在JVM中的应用,详细讲解了散列表的结构、对象存储过程、Hashtable的扩容机制及与HashMap的区别。通过实例和图解,帮助读者理解散列表的工作原理和优化策略。
14 1
散列表的数据结构以及对象在JVM堆中的存储过程
|
4天前
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
43 16
|
4天前
|
C语言
【数据结构】二叉树(c语言)(附源码)
本文介绍了如何使用链式结构实现二叉树的基本功能,包括前序、中序、后序和层序遍历,统计节点个数和树的高度,查找节点,判断是否为完全二叉树,以及销毁二叉树。通过手动创建一棵二叉树,详细讲解了每个功能的实现方法和代码示例,帮助读者深入理解递归和数据结构的应用。
32 8
|
7天前
|
存储 C语言
【数据结构】手把手教你单链表(c语言)(附源码)
本文介绍了单链表的基本概念、结构定义及其实现方法。单链表是一种内存地址不连续但逻辑顺序连续的数据结构,每个节点包含数据域和指针域。文章详细讲解了单链表的常见操作,如头插、尾插、头删、尾删、查找、指定位置插入和删除等,并提供了完整的C语言代码示例。通过学习单链表,可以更好地理解数据结构的底层逻辑,提高编程能力。
32 4
|
8天前
|
存储 C语言
【数据结构】顺序表(c语言实现)(附源码)
本文介绍了线性表和顺序表的基本概念及其实现。线性表是一种有限序列,常见的线性表有顺序表、链表、栈、队列等。顺序表是一种基于连续内存地址存储数据的数据结构,其底层逻辑是数组。文章详细讲解了静态顺序表和动态顺序表的区别,并重点介绍了动态顺序表的实现,包括初始化、销毁、打印、增删查改等操作。最后,文章总结了顺序表的时间复杂度和局限性,并预告了后续关于链表的内容。
32 3
|
7天前
|
C语言
【数据结构】双向带头循环链表(c语言)(附源码)
本文介绍了双向带头循环链表的概念和实现。双向带头循环链表具有三个关键点:双向、带头和循环。与单链表相比,它的头插、尾插、头删、尾删等操作的时间复杂度均为O(1),提高了运行效率。文章详细讲解了链表的结构定义、方法声明和实现,包括创建新节点、初始化、打印、判断是否为空、插入和删除节点等操作。最后提供了完整的代码示例。
24 0
|
2天前
|
存储 JavaScript 前端开发
执行上下文和执行栈
执行上下文是JavaScript运行代码时的环境,每个执行上下文都有自己的变量对象、作用域链和this值。执行栈用于管理函数调用,每当调用一个函数,就会在栈中添加一个新的执行上下文。
|
4天前
|
存储
系统调用处理程序在内核栈中保存了哪些上下文信息?
【10月更文挑战第29天】系统调用处理程序在内核栈中保存的这些上下文信息对于保证系统调用的正确执行和用户程序的正常恢复至关重要。通过准确地保存和恢复这些信息,操作系统能够实现用户模式和内核模式之间的无缝切换,为用户程序提供稳定、可靠的系统服务。
26 4
|
28天前
|
算法 程序员 索引
数据结构与算法学习七:栈、数组模拟栈、单链表模拟栈、栈应用实例 实现 综合计算器
栈的基本概念、应用场景以及如何使用数组和单链表模拟栈,并展示了如何利用栈和中缀表达式实现一个综合计算器。
26 1
数据结构与算法学习七:栈、数组模拟栈、单链表模拟栈、栈应用实例 实现 综合计算器