浅谈sort函数底层(一道c++面试的天坑题)

简介: 浅谈sort函数底层(一道c++面试的天坑题)

浅谈sort函数底层

sort函数的底层用到的是内省式排序以及插入排序,那么什么是内省式排序呢?和插入排序又是如何组合的呢?

根据维基百科描述:内省排序(英语:Introsort)是由David Musser在1997年设计的排序算法。这个排序算法首先从快速排序开始,当递归深度超过一定深度(深度为排序元素数量的对数值)后转为堆排序。

先来回顾一下以上提到的3中排序方法:

快速排序:先选一个基准值(一般为首值),将比它大的数置于其右侧,将比它小的数置于它左侧,那么这个基准值所在的位置定是整个数组的有序位。然后递归该基准左右两子数组。算法复杂度为nlogn;

堆排序:将数组建立成大顶堆,重复从堆顶取出数值最大的结点(把根结点和最后一个结点交换,把交换后的最后一个结点移出堆,移出的这个数值为未排序数组的最后),并让残余的堆维持大顶堆的性质。时间复杂度为nlogn;

插入排序:对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。时间复杂度为n2;

其中先讲下快排和堆排,快排的平均复杂度为nlogn,但是它的复杂度是根据基准值来决定的,基准值选择的不好,最坏的复杂度会达到n2,而堆排序的复杂度是一定的为nlogn,那为什么不直接使用堆排序呢,是因为在将堆顶值与最后一个结点值交换并移除最后一个值后,在重新建堆的过程中,交换到堆顶的值显然比每个结点要小,但还是要经过对比判断,这个判断其实是多余的,因此这是它相比快排较慢的原因。

于是,内省式排序结合了快排和堆排的特点,当快速排序到大一定深度(2logn)时,采用堆排序,以维持nlogn的复杂度。

在sort函数中,内省排序过程中子数组长度小于16时,采用的是插入排序,为什么呢?因为当数组长度较短时,就是数组已经大致排序过了,对大致有序的数组(即逆序对不多了)用插入排序的算法复杂度会很小,可以想象成理牌的过程。

让我们看一下sort函数的底层代码:

inline void
    __sort(_RandomAccessIterator __first, _RandomAccessIterator __last,
     _Compare __comp)
    {
      if (__first != __last)
  {
  //sort函数默认为内省排序,当子数组小于16时返回
    std::__introsort_loop(__first, __last,
        std::__lg(__last - __first) * 2,
        __comp);
  //对大致排序过的数组进行插入排序操作
    std::__final_insertion_sort(__first, __last, __comp);
  }
    }

内省排序:

void
    __introsort_loop(_RandomAccessIterator __first,
         _RandomAccessIterator __last,
         _Size __depth_limit, _Compare __comp)
    {
    //当子数组长度<=16就返回,返回之后就会执行上一组代码的插入排序
      while (__last - __first > int(_S_threshold))
  {
  //控制深度,快排深度达2logn时,进行堆排序
    if (__depth_limit == 0)
      {
        std::__partial_sort(__first, __last, __last, __comp);
        return;
      }
    --__depth_limit;
   //这里进行了基准值的选择和简单的交换
    _RandomAccessIterator __cut =
      std::__unguarded_partition_pivot(__first, __last, __comp);
   //对右子数组进行内省排序
    std::__introsort_loop(__cut, __last, __depth_limit, __comp);
   //对左子数组进行while循环(这里很巧的避免了一次内省函数的调用,节省了时间)
    __last = __cut;
  }
    }

综上所述,sort函数的底层不只是快速排序,而是由内省排序和插入排序的组合,这也解释了为什么当数组长度短的时候,sort函数是稳定的排序,而当数组长度较大时,排序要记录元素的游标值记录避免快排引起的不稳定排序。

 

相关文章
|
8月前
|
缓存 安全 编译器
C++面试周刊(3):面试不慌,这样回答指针与引用,青铜秒变王者
《C++面试冲刺周刊》第三期聚焦指针与引用的区别,从青铜到王者级别面试回答解析,助你21天系统备战,直击高频考点,提升实战能力,轻松应对大厂C++面试。
773 132
C++面试周刊(3):面试不慌,这样回答指针与引用,青铜秒变王者
|
10月前
|
人工智能 机器人 编译器
c++模板初阶----函数模板与类模板
class 类模板名private://类内成员声明class Apublic:A(T val):a(val){}private:T a;return 0;运行结果:注意:类模板中的成员函数若是放在类外定义时,需要加模板参数列表。return 0;
249 0
|
安全 C++
【c++】继承(继承的定义格式、赋值兼容转换、多继承、派生类默认成员函数规则、继承与友元、继承与静态成员)
本文深入探讨了C++中的继承机制,作为面向对象编程(OOP)的核心特性之一。继承通过允许派生类扩展基类的属性和方法,极大促进了代码复用,增强了代码的可维护性和可扩展性。文章详细介绍了继承的基本概念、定义格式、继承方式(public、protected、private)、赋值兼容转换、作用域问题、默认成员函数规则、继承与友元、静态成员、多继承及菱形继承问题,并对比了继承与组合的优缺点。最后总结指出,虽然继承提高了代码灵活性和复用率,但也带来了耦合度高的问题,建议在“has-a”和“is-a”关系同时存在时优先使用组合。
798 6
|
程序员 C++ 容器
在 C++中,realloc 函数返回 NULL 时,需要手动释放原来的内存吗?
在 C++ 中,当 realloc 函数返回 NULL 时,表示内存重新分配失败,但原内存块仍然有效,因此需要手动释放原来的内存,以避免内存泄漏。
|
存储 前端开发 C++
C++ 多线程之带返回值的线程处理函数
这篇文章介绍了在C++中使用`async`函数、`packaged_task`和`promise`三种方法来创建带返回值的线程处理函数。
733 6
|
编译器 C语言 C++
C++入门3——类与对象2-2(类的6个默认成员函数)
C++入门3——类与对象2-2(类的6个默认成员函数)
215 3
|
安全 编译器 C++
【C++篇】C++类与对象深度解析(三):类的默认成员函数详解
【C++篇】C++类与对象深度解析(三):类的默认成员函数详解
167 3
|
存储 编译器 C++
C++入门3——类与对象2-1(类的6个默认成员函数)
C++入门3——类与对象2-1(类的6个默认成员函数)
243 2
|
C++
C++ 多线程之线程管理函数
这篇文章介绍了C++中多线程编程的几个关键函数,包括获取线程ID的`get_id()`,延时函数`sleep_for()`,线程让步函数`yield()`,以及阻塞线程直到指定时间的`sleep_until()`。
376 0
C++ 多线程之线程管理函数
|
编译器 C语言 C++
详解C/C++动态内存函数(malloc、free、calloc、realloc)
详解C/C++动态内存函数(malloc、free、calloc、realloc)
2866 1