数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

简介: 数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

TopK问题介绍:

TOP-K问题:即求数据中找出前K个最大的元素或者最小的元素,一般情况下数据量都比较大

在N个数中找出最大/小的前K个 (比如在1000个数中找出最大/小的前10个)

以前的方法:冒泡排序。时间复杂度: O(N^2)

现在找最大的k个数的方法:

方法1:堆排序降序,前N个就是最大的。上篇学过时间复杂度: O(N*logN)

方法2:N个数依次插入大堆,HeapPop K次,每次取堆顶的数据,即为前K

时间复杂度: O(K*logN)

假设 N非常大, 是 10 亿,内存中存不下这些数,它们存在文件中的。 K是 100,

上面的方法就都不能用了……

话说 10 亿个整数,大概占用多少空间?

1G = 1024MB

1G = 1024*1024KB1G = 1024*1024*1024Byte要占用10亿字节!所以我们来看看方法3:

方法3: 259e410af9ab433e80a770d02c494019.png

这里为什么使用小堆而不使用大堆?

后N-k个数,比小堆堆顶大就换成堆顶

(最后堆顶就是最大的k个数中最小的)

最大的前K个数一定会比其他数要大,只要进来的数比堆顶数据大,就替代它。


因为是小堆(小的在上大的在下),最大的数进去后一定会沉到下面,


所以不可能存在大的数堵在堆顶导致某个数进不去的情况,数越大沉得越深。


对应地,如果使用大堆就会出现一个大数堵在堆顶,剩下的数都比这个大数小,


导致其他数进不来,最后只能选出最大的那一个。


(以下两个力扣题可以用其它排序解决(比如C++中自带的更优的快排)


不过是看你是面向offer还是面向竞赛或刷题了。


(以后学了八大排序可以自己实现一下对应题目优化的快排)以下我们使用堆来解决

剑指 Offer 40. 最小的k个数

难度简单

输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,

则最小的4个数字是1、2、3、4。

示例 1:

输入:arr = [3,2,1], k = 2

输出:[1,2] 或者 [2,1]

示例 2:

输入:arr = [0,1,2,1], k = 1

输出:[0]

限制:

  • 0 <= k <= arr.length <= 10000
  • 0 <= arr[i] <= 10000
/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
int* getLeastNumbers(int* arr, int arrSize, int k, int* returnSize){
 
}

解析代码:

(这里是找最小的k个数,所以建k个数的大堆)后arrSize-k个数,比大堆堆顶小就换成堆顶

(最后堆顶就是最小的k个数中最大的)

/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
void justDown(int* arr, int n, int root)//大堆下调
{
    int father = root;
    int child = father * 2 + 1;//默认左孩子大
    while (child < n)
    {
        if (child + 1 < n && arr[child] < arr[child + 1])
        {  // 如果右孩子存在且右孩子比左孩子大
            child++;
        }
        if (arr[father] < arr[child])
        {
            int tmp = arr[father];
            arr[father] = arr[child];
            arr[child] = tmp;
 
            father = child;
            child = father * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
int* getLeastNumbers(int* arr, int arrSize, int k, int* returnSize) {
    *returnSize = k;
    if (k == 0)//回头处理k==0
    {
        return NULL;
    }
    int* retArr = (int*)malloc(sizeof(int) * k);
    for (int i = 0;i < k;i++)
    {
        retArr[i] = arr[i];
    }
    for (int i = (k - 1 - 1) / 2;i >= 0;i--) //建堆的for写法
    {
        justDown(retArr, k, i);
    }
    for (int j = k;j < arrSize;j++)//后arrSize-k个数,比大堆堆顶小就换成堆顶
    {
        if (arr[j] < retArr[0])
        {
            retArr[0] = arr[j];
            justDown(retArr, k, 0);//把新换的堆顶向下调整(小的就下去了),以便下次交换
        }
    }
    //*returnSize = k; 写到这发现有个测试用例跑不了,到上面处理一下
    return retArr;
}

剑指 Offer II 076. 数组中的第 k 大的数字

难度中等

给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。

请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。

示例 1:

输入:[3,2,1,5,6,4] 和 k = 2
输出: 5

示例 2:

1. 输入:[3,2,3,1,2,4,5,5,6] 和 k = 4
2. 输出: 4

提示:

  • 1 <= k <= nums.length <= 10^4
  • -10^4 <= nums[i] <= 10^4
int findKthLargest(int* nums, int numsSize, int k){
 
}

解析代码:

这里我们需要把整个数组建成一个大堆,然后pop(k-1)次堆顶的元素后堆顶的元素就是第k大的数。

void Swap(int* px, int* py)
{
    int tmp = *px;
    *px = *py;
    *py = tmp;
}
 
void justDown(int* arr, int n, int root)//大堆下调
{
    int father = root;
    int child = father * 2 + 1;//默认左孩子大
    while (child < n)
    {
        if (child + 1 < n && arr[child] < arr[child + 1])
        {  // 如果右孩子存在且右孩子比左孩子大
            child++;
        }
        if (arr[father] < arr[child])
        {
            Swap(&arr[father], &arr[child]);
 
            father = child;
            child = father * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
 
int findKthLargest(int* nums, int numsSize, int k) {
    for (int i = (numsSize - 1 - 1) / 2;i >= 0;i--) //建堆的for写法
    {
        justDown(nums, numsSize, i);
    }
    // 删除数据(参考前面文章堆的pop)
    for (int i = 1;i <= k - 1;i++)
    {
        Swap(&nums[0], &nums[numsSize - i]);
        justDown(nums, numsSize - i, 0);//删除多少个numsize-多少个
    }
    return nums[0];
}

堆的概念选择题:

1.下列关于堆的叙述错误的是( )

A.堆是一种完全二叉树

B.堆通常使用顺序表存储

C.小堆指的是左右孩子结点都比根结点小的堆

D.堆的删除是将尾部结点放到队顶后执行向下调整算法

2.下列关键字序列中,序列( )是堆。

A.{16,72,31,23,94,53}

B.{94,23,31,72,16,53}

C.{16,53,23,94,31,72}

D.{16,23,53,31,94,72}

3.下列关于向下调整算法的说法正确的是( )

A.构建堆的时候要对每个结点都执行一次

B.删除操作时要执行一次

C.插入操作时要执行一次

D.以上说法都不正确

4.在一个堆中,根节点从0开始编号,下标为 i(i > 0) 的结点的左右孩子结点及父结点的下标分别是( )

A.2 i、2 i + 1、i /2

B.2i、2i + 1、(i - 1)/2

C.2i + 1、2i + 2、(i - 1)/2

D.2i + 1、2i + 2、i/2-1

5.将一个顺序表利用向下调整的方式整理成堆的时间复杂度为( )

A.O(nlogn)

B.O(logn)

C.O(1)

D.O(n)

答案:

1.答案:C

堆是在完全二叉树的基础上进行了条件的限制,即:每个节点都比其孩子节点大,则为大堆;

每个节点都比其孩子节点小则为小堆。

完全二叉树比较适合使用顺序结构存储。


堆删除:删的是堆顶元素,常见操作是将堆顶元素与堆中最后一个元素交换,


然后对中元素个数减少一个,重新将堆顶元素往下调整


2.答案:D


D.{16,23,53,31,94,72}


16


23 53


31 94 72


3.答案:B


解析:


A: 建堆时,从每一个非叶子节点开始,倒着一直到根节点,都要执行一次向下调整算法。


B: 删除元素时,首先交换堆顶元素与堆中最后一个元素,对中有效元素个数减1,即删除了堆中最后一个元素,最后将堆顶元素向下调整


C: 插入操作需要执行向上调整算法。


4.答案:C


请参考二叉树性质


5.答案:D


题目说了是利用向下调整的方式建堆, 正确的证明方法应当如下:


A.具有n个元素的平衡二叉树,树高为㏒n,我们设这个变量为h。


B.最下层非叶节点的元素,只需做一次线性运算便可以确定大根,而这一层具有2^(h-1)个元素,


我们假定O(1)=1,那么这一层元素所需时间为2^(h-1) × 1。


C.由于是bottom-top建立堆,因此在调整上层元素的时候,并不需要同下层所有元素做比较,只需要同其中之一分支作比较,而作比较次数则是树的高度减去当前节点的高度。因此,第x层元素的计算量为2^(x) × (h-x)。


D.又以上通项公式可得知,构造树高为h的二叉堆的精确时间复杂度为:


S = 2^(h-1) × 1 + 2^(h-2) × 2 + …… +1 × (h-1) ①


E.通过观察第四步得出的公式可知,该求和公式为等差数列和等比数列的乘积,因此用错位相减法求解,给公式左右两侧同时乘以2,可知:


2S = 2^h × 1 + 2^(h-1) × 2+ …… +2 × (h-1) ②


用②减去①可知: S =2^h × 1 - h +1 ③


将h = ㏒n 带入③,得出如下结论:


S = n - ㏒n +1 = O(n)

本篇完。

目录
相关文章
|
2月前
|
存储 算法 Java
散列表的数据结构以及对象在JVM堆中的存储过程
本文介绍了散列表的基本概念及其在JVM中的应用,详细讲解了散列表的结构、对象存储过程、Hashtable的扩容机制及与HashMap的区别。通过实例和图解,帮助读者理解散列表的工作原理和优化策略。
46 1
散列表的数据结构以及对象在JVM堆中的存储过程
|
3月前
|
存储 算法
数据结构与算法学习二二:图的学习、图的概念、图的深度和广度优先遍历
这篇文章详细介绍了图的概念、表示方式以及深度优先遍历和广度优先遍历的算法实现。
74 1
数据结构与算法学习二二:图的学习、图的概念、图的深度和广度优先遍历
|
2月前
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
112 16
|
3月前
|
缓存 算法 Java
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
这篇文章详细介绍了Java虚拟机(JVM)中的垃圾回收机制,包括垃圾的定义、垃圾回收算法、堆内存的逻辑分区、对象的内存分配和回收过程,以及不同垃圾回收器的工作原理和参数设置。
112 4
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
|
3月前
|
存储 JavaScript 前端开发
为什么基础数据类型存放在栈中,而引用数据类型存放在堆中?
为什么基础数据类型存放在栈中,而引用数据类型存放在堆中?
118 1
|
3月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
58 1
|
3月前
|
存储 算法
探索数据结构:分支的世界之二叉树与堆
探索数据结构:分支的世界之二叉树与堆
|
3月前
|
存储 算法 Java
【用Java学习数据结构系列】用堆实现优先级队列
【用Java学习数据结构系列】用堆实现优先级队列
41 0
|
3月前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
67 0
|
3月前
|
存储 算法
【数据结构】二叉树——顺序结构——堆及其实现
【数据结构】二叉树——顺序结构——堆及其实现