数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题-阿里云开发者社区

数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

2024-05-20 63

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

TopK问题介绍：

TOP-K问题：即求数据中找出前K个最大的元素或者最小的元素，一般情况下数据量都比较大。

在N个数中找出最大/小的前K个（比如在1000个数中找出最大/小的前10个）

以前的方法：冒泡排序。时间复杂度： O(N^2)

现在找最大的k个数的方法：

方法1：堆排序降序，前N个就是最大的。上篇学过时间复杂度： O(N*logN)

方法2：N个数依次插入大堆，HeapPop K次，每次取堆顶的数据，即为前K个。

时间复杂度： O(K*logN)

假设 N非常大，是 10 亿，内存中存不下这些数，它们存在文件中的。 K是 100，

上面的方法就都不能用了……

话说 10 亿个整数，大概占用多少空间？

1G = 1024MB

1G = 1024*1024KB1G = 1024*1024*1024Byte要占用10亿字节！所以我们来看看方法3：

方法3：

这里为什么使用小堆而不使用大堆？

后N-k个数，比小堆堆顶大就换成堆顶

（最后堆顶就是最大的k个数中最小的）

最大的前K个数一定会比其他数要大，只要进来的数比堆顶数据大，就替代它。

因为是小堆（小的在上大的在下），最大的数进去后一定会沉到下面，

所以不可能存在大的数堵在堆顶导致某个数进不去的情况，数越大沉得越深。

对应地，如果使用大堆就会出现一个大数堵在堆顶，剩下的数都比这个大数小，

导致其他数进不来，最后只能选出最大的那一个。

（以下两个力扣题可以用其它排序解决（比如C++中自带的更优的快排）

不过是看你是面向offer还是面向竞赛或刷题了。

（以后学了八大排序可以自己实现一下对应题目优化的快排）以下我们使用堆来解决

剑指 Offer 40. 最小的k个数

难度简单

输入整数数组 arr ，找出其中最小的 k 个数。例如，输入4、5、1、6、2、7、3、8这8个数字，

则最小的4个数字是1、2、3、4。

示例 1：

输入：arr = [3,2,1], k = 2

输出：[1,2] 或者 [2,1]

示例 2：

输入：arr = [0,1,2,1], k = 1

输出：[0]

限制：

0 <= k <= arr.length <= 10000
0 <= arr[i] <= 10000

/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
int* getLeastNumbers(int* arr, int arrSize, int k, int* returnSize){
 
}

解析代码：

（这里是找最小的k个数，所以建k个数的大堆）后arrSize-k个数，比大堆堆顶小就换成堆顶

（最后堆顶就是最小的k个数中最大的）

/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
void justDown(int* arr, int n, int root)//大堆下调
{
    int father = root;
    int child = father * 2 + 1;//默认左孩子大
    while (child < n)
    {
        if (child + 1 < n && arr[child] < arr[child + 1])
        {  // 如果右孩子存在且右孩子比左孩子大
            child++;
        }
        if (arr[father] < arr[child])
        {
            int tmp = arr[father];
            arr[father] = arr[child];
            arr[child] = tmp;
 
            father = child;
            child = father * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
int* getLeastNumbers(int* arr, int arrSize, int k, int* returnSize) {
    *returnSize = k;
    if (k == 0)//回头处理k==0
    {
        return NULL;
    }
    int* retArr = (int*)malloc(sizeof(int) * k);
    for (int i = 0;i < k;i++)
    {
        retArr[i] = arr[i];
    }
    for (int i = (k - 1 - 1) / 2;i >= 0;i--) //建堆的for写法
    {
        justDown(retArr, k, i);
    }
    for (int j = k;j < arrSize;j++)//后arrSize-k个数，比大堆堆顶小就换成堆顶
    {
        if (arr[j] < retArr[0])
        {
            retArr[0] = arr[j];
            justDown(retArr, k, 0);//把新换的堆顶向下调整（小的就下去了），以便下次交换
        }
    }
    //*returnSize = k; 写到这发现有个测试用例跑不了，到上面处理一下
    return retArr;
}

剑指 Offer II 076. 数组中的第 k 大的数字

难度中等

给定整数数组 nums 和整数 k，请返回数组中第 k 个最大的元素。

请注意，你需要找的是数组排序后的第 k 个最大的元素，而不是第 k 个不同的元素。

示例 1:

输入:[3,2,1,5,6,4] 和 k = 2
输出: 5

示例 2:

1. 输入:[3,2,3,1,2,4,5,5,6] 和 k = 4
2. 输出: 4

提示：

1 <= k <= nums.length <= 10^4
-10^4 <= nums[i] <= 10^4

int findKthLargest(int* nums, int numsSize, int k){
 
}

解析代码：

这里我们需要把整个数组建成一个大堆，然后pop（k-1）次堆顶的元素后堆顶的元素就是第k大的数。

void Swap(int* px, int* py)
{
    int tmp = *px;
    *px = *py;
    *py = tmp;
}
 
void justDown(int* arr, int n, int root)//大堆下调
{
    int father = root;
    int child = father * 2 + 1;//默认左孩子大
    while (child < n)
    {
        if (child + 1 < n && arr[child] < arr[child + 1])
        {  // 如果右孩子存在且右孩子比左孩子大
            child++;
        }
        if (arr[father] < arr[child])
        {
            Swap(&arr[father], &arr[child]);
 
            father = child;
            child = father * 2 + 1;
        }
        else
        {
            break;
        }
    }
}
 
int findKthLargest(int* nums, int numsSize, int k) {
    for (int i = (numsSize - 1 - 1) / 2;i >= 0;i--) //建堆的for写法
    {
        justDown(nums, numsSize, i);
    }
    // 删除数据（参考前面文章堆的pop）
    for (int i = 1;i <= k - 1;i++)
    {
        Swap(&nums[0], &nums[numsSize - i]);
        justDown(nums, numsSize - i, 0);//删除多少个numsize-多少个
    }
    return nums[0];
}

堆的概念选择题：

1.下列关于堆的叙述错误的是（）

A.堆是一种完全二叉树

B.堆通常使用顺序表存储

C.小堆指的是左右孩子结点都比根结点小的堆

D.堆的删除是将尾部结点放到队顶后执行向下调整算法

2.下列关键字序列中，序列（）是堆。

A.{16，72，31，23，94，53}

B.{94，23，31，72，16，53}

C.{16，53，23，94，31，72}

D.{16，23，53，31，94，72}

3.下列关于向下调整算法的说法正确的是（）

A.构建堆的时候要对每个结点都执行一次

B.删除操作时要执行一次

C.插入操作时要执行一次

D.以上说法都不正确

4.在一个堆中，根节点从0开始编号，下标为 i（i > 0）的结点的左右孩子结点及父结点的下标分别是（）

A.2 i、2 i + 1、i /2

B.2i、2i + 1、(i - 1)/2

C.2i + 1、2i + 2、(i - 1)/2

D.2i + 1、2i + 2、i/2-1

5.将一个顺序表利用向下调整的方式整理成堆的时间复杂度为（）

A.O(nlogn)

B.O(logn)

C.O(1)

D.O(n)

答案：

1.答案：C

堆是在完全二叉树的基础上进行了条件的限制，即：每个节点都比其孩子节点大，则为大堆；

每个节点都比其孩子节点小则为小堆。

完全二叉树比较适合使用顺序结构存储。

堆删除：删的是堆顶元素，常见操作是将堆顶元素与堆中最后一个元素交换，

然后对中元素个数减少一个，重新将堆顶元素往下调整

2.答案：D

D.{16，23，53，31，94，72}

23 53

31 94 72

3.答案：B

解析：

A: 建堆时，从每一个非叶子节点开始，倒着一直到根节点，都要执行一次向下调整算法。

B: 删除元素时，首先交换堆顶元素与堆中最后一个元素，对中有效元素个数减1，即删除了堆中最后一个元素，最后将堆顶元素向下调整

C: 插入操作需要执行向上调整算法。

4.答案：C

请参考二叉树性质

5.答案：D

题目说了是利用向下调整的方式建堆，正确的证明方法应当如下：

A.具有n个元素的平衡二叉树，树高为㏒n，我们设这个变量为h。

B.最下层非叶节点的元素，只需做一次线性运算便可以确定大根，而这一层具有2^(h-1)个元素，

我们假定O(1)=1，那么这一层元素所需时间为2^(h-1) × 1。

C.由于是bottom-top建立堆，因此在调整上层元素的时候，并不需要同下层所有元素做比较，只需要同其中之一分支作比较，而作比较次数则是树的高度减去当前节点的高度。因此，第x层元素的计算量为2^(x) × (h-x)。

D.又以上通项公式可得知，构造树高为h的二叉堆的精确时间复杂度为：

S = 2^(h-1) × 1 + 2^(h-2) × 2 + …… +1 × (h-1) ①

E.通过观察第四步得出的公式可知，该求和公式为等差数列和等比数列的乘积，因此用错位相减法求解，给公式左右两侧同时乘以2，可知：

2S = 2^h × 1 + 2^(h-1) × 2+ …… +2 × (h-1) ②

用②减去①可知： S =2^h × 1 - h +1 ③

将h = ㏒n 带入③，得出如下结论：

S = n - ㏒n +1 = O(n)

数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

TopK问题介绍：

剑指 Offer 40. 最小的k个数

解析代码：

剑指 Offer II 076. 数组中的第 k 大的数字

解析代码：

堆的概念选择题：

1.下列关于堆的叙述错误的是（）

2.下列关键字序列中，序列（）是堆。

3.下列关于向下调整算法的说法正确的是（）

4.在一个堆中，根节点从0开始编号，下标为 i（i > 0）的结点的左右孩子结点及父结点的下标分别是（）

5.将一个顺序表利用向下调整的方式整理成堆的时间复杂度为（）

答案：

本篇完。

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

数据结构与算法⑬(第四章_中_续二)堆解决Topk问题+堆的概念选择题

TopK问题介绍：

解析代码：

解析代码：

堆的概念选择题：

1.下列关于堆的叙述错误的是（ ）

2.下列关键字序列中，序列（ ）是堆。

3.下列关于向下调整算法的说法正确的是（ ）

4.在一个堆中，根节点从0开始编号，下标为 i（i > 0） 的结点的左右孩子结点及父结点的下标分别是（ ）

5.将一个顺序表利用向下调整的方式整理成堆的时间复杂度为（ ）

答案：

本篇完。

热门文章

最新文章

相关课程

相关电子书

相关实验场景

1.下列关于堆的叙述错误的是（）

2.下列关键字序列中，序列（）是堆。

3.下列关于向下调整算法的说法正确的是（）

4.在一个堆中，根节点从0开始编号，下标为 i（i > 0）的结点的左右孩子结点及父结点的下标分别是（）

5.将一个顺序表利用向下调整的方式整理成堆的时间复杂度为（）