Linux Debugging(一): 使用反汇编理解C++程序函数调用栈

简介:

        拿到CoreDump后,如果看到的地址都是????,那么基本上可以确定,程序的栈被破坏掉了。GDB也是使用函数的调用栈去还原“事故现场”的。因此理解函数调用栈,是使用GDB进行现场调试或者事后调试的基础,如果不理解调用栈,基本上也从GDB得不到什么有用的信息。当然了,也有可能你非常“幸运”, 一个bt就把哪儿越界给标出来了。但是,大多数的时候你不够幸运,通过log,通过简单的code walkthrough,得不到哪儿出的问题;或者说只是推测,不能确诊。我们需要通过GDB来最终确定CoreDump产生的真正原因。

       本文还可以帮助你深入理解C++函数的局部变量。我们学习时知道局部变量是是存储到栈里的,内存管理对程序员是透明的。通过本文,你将明白这些结论是如何得出的。

       栈,是LIFO(Last In First Out)的数据结构。C++的函数调用就是通过栈来传递参数,保存函数返回后下一步的执行地址。接下来我们通过一个具体的例子来探究。

int func1(int a)
{
  int b = a + 1;
  return b;
}
int func0(int a)
{
  int b = func1(a);
  return b;
}

int main()
{
  int a = 1234;
  func0(a);
  return 0;
}
可以使用以下命令将上述code编程成汇编代码:

 g++ -g -S -O0 -m32 main.cpp -o-|c++filt >main.format.s

c++filt 是为了Demangle symbols。-m32是为了编译成x86-32的。因为对于x86-64来说,函数的参数是通过寄存器传递的。

main的汇编代码:

main:
        leal    4(%esp), %ecx
        andl    $-16, %esp
        pushl   -4(%ecx)

        pushl   %ebp           #1:push %ebp指令把ebp寄存器的值压栈,同时把esp的值减4
        movl    %esp, %ebp     #2  把esp的值传送给ebp寄存器。
                               #1 + #2 合起来是把原来ebp的值保存在栈上,然后又给ebp赋了新值。
                               #2+ ebp指向栈底,而esp指向栈顶,在函数执行过程中esp
                               #2++随着压栈和出栈操作随时变化,而ebp是不动的
        pushl   %ecx 
        subl    $20, %esp      #3 现在esp地址-20/4 = 5, 及留出5个地址空间给main的局部变量
        movl    $1234, -8(%ebp)#4 局部变量1234 存入ebp - 8 的地址
        movl    -8(%ebp), %eax #5 将地址存入eax
        movl    %eax, (%esp)   #6 将1234存入esp指向的地址
        call    func0(int)     #7 调用func0,注意这是demangle后的函数名,实际是一个地址
        movl    $0, %eax           
        addl    $20, %esp
        popl    %ecx
        popl    %ebp
        leal    -4(%ecx), %esp
        ret


对于call指令,这个指令有两个作用:

  1. func0函数调用完之后要返回到call的下一条指令继续执行,所以把call的下一条指令的地址压栈,同时把esp的值减4。

  2. 修改程序计数器eip,跳转到func0函数的开头执行。

至此,调用func0的栈就是下面这个样子:


下面看一下func0的汇编代码:

func0(int):
        pushl   %ebp
        movl    %esp, %ebp
        subl    $20, %esp
        movl    8(%ebp), %eax
        movl    %eax, (%esp)
        call    func1(int)
        movl    %eax, -4(%ebp)
        movl    -4(%ebp), %eax
        leave
        ret
需要注意的是esp也是留了5个地址空间给func0使用。并且ebp的下一个地址就是留给局部变量b的,调用栈如图:

通过调用栈可以看出,8(%ebp)其实就是传入的参数1234。

func1的代码:

func1(int):
        pushl   %ebp
        movl    %esp, %ebp
        subl    $16, %esp
        movl    8(%ebp), %eax #去传入的参数,即1234
        addl    $1, %eax # +1 运算
        movl    %eax, -4(%ebp)
        movl    -4(%ebp), %eax #将计算结果存入eax,这就是返回值
        leave
        ret

leave指令,这个指令是函数开头的 push %ebpmov %esp,%ebp的逆操作:

  1. ebp的值赋给esp

  2. 现在esp所指向的栈顶保存着foo函数栈帧的ebp,把这个值恢复给ebp,同时esp增加4。注意,现在esp指向的是这次调用的返回地址,即上次调用的下一条执行指令。

最后是ret指令,它是call指令的逆操作:

  1. 现在esp所指向的栈顶保存着返回地址,把这个值恢复给eip,同时esp增加4,esp指向了当前frame的栈顶

  2. 修改了程序计数器eip,因此跳转到返回地址继续执行。

调用栈如下:


至此,func1返回后,控制权交还给func0,当前的栈就退化成func0的栈的情况,因为栈保存了一切信息,因此指令继续执行。直至func0执行

leave

ret

以同样的方式将控制权交回给main。


     到这里,你应该知道下面问题的答案了:

1. 局部变量的生命周期,

2. 局部变量是怎么样使用内存的;

3. 为什么传值不会改变原值(因为编译器已经帮你做好拷贝了)

4. 为什么会有栈溢出的错误

5. 为什么有的写坏栈的程序可以运行,而有的却会crash(如果栈被破坏的是数据,那么数据是脏的,不应该继续运行;如果破坏的是上一层调用的bp,或者返回地址,那么程序会crash,or unexpected behaviour...)


    小节一下:

   1. 在32位的机器上,C++的函数调用的参数是存到栈上的。当然gcc可以在函数声明中添加_attribute__((regparm(3)))使用eax, edx,ecx传递开头三个参数。

   2. 通过bp可以访问到调用的参数值。

   3. 函数的返回地址(函数返回后的执行指令)也是存到栈上的,有目的的修改它可以使程序跳转到它不应该的地方。。。

   4. 如果程序破坏了上一层的bp的地址,或者程序的返回地址,那么程序就很有可能crash

   5. 拿到一个CoreDump,应该首先先看有可能出问题的线程的的frame的栈是否完整。

   6. 64位的机器上,参数是通过寄存器传递的,当然寄存器不够用就会通过栈来传递


支持原创,转载请注明出处:anzhsoft  http://blog.csdn.net/anzhsoft/article/details/18730605
相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
9天前
|
Linux
【Linux】System V信号量详解以及semget()、semctl()和semop()函数讲解
System V信号量的概念及其在Linux中的使用,包括 `semget()`、`semctl()`和 `semop()`函数的具体使用方法。通过实际代码示例,演示了如何创建、初始化和使用信号量进行进程间同步。掌握这些知识,可以有效解决多进程编程中的同步问题,提高程序的可靠性和稳定性。
48 19
|
11天前
|
Linux Android开发 开发者
linux m、mm、mmm函数和make的区别
通过理解和合理使用这些命令,可以更高效地进行项目构建和管理,特别是在复杂的 Android 开发环境中。
41 18
|
19天前
|
存储 监控 Linux
嵌入式Linux系统编程 — 5.3 times、clock函数获取进程时间
在嵌入式Linux系统编程中,`times`和 `clock`函数是获取进程时间的两个重要工具。`times`函数提供了更详细的进程和子进程时间信息,而 `clock`函数则提供了更简单的处理器时间获取方法。根据具体需求选择合适的函数,可以更有效地进行性能分析和资源管理。通过本文的介绍,希望能帮助您更好地理解和使用这两个函数,提高嵌入式系统编程的效率和效果。
84 13
|
3月前
|
Ubuntu Linux 编译器
Linux/Ubuntu下使用VS Code配置C/C++项目环境调用OpenCV
通过以上步骤,您已经成功在Ubuntu系统下的VS Code中配置了C/C++项目环境,并能够调用OpenCV库进行开发。请确保每一步都按照您的系统实际情况进行适当调整。
714 3
|
3月前
|
Linux C语言 C++
vsCode远程执行c和c++代码并操控linux服务器完整教程
这篇文章提供了一个完整的教程,介绍如何在Visual Studio Code中配置和使用插件来远程执行C和C++代码,并操控Linux服务器,包括安装VSCode、安装插件、配置插件、配置编译工具、升级glibc和编写代码进行调试的步骤。
441 0
vsCode远程执行c和c++代码并操控linux服务器完整教程
|
4月前
|
Linux Shell
Linux系统编程:掌握popen函数的使用
记得在使用完 `popen`打开的流后,总是使用 `pclose`来正确关闭它,并回收资源。这种做法符合良好的编程习惯,有助于保持程序的健壮性和稳定性。
177 6
|
4月前
|
Linux Shell
Linux系统编程:掌握popen函数的使用
记得在使用完 `popen`打开的流后,总是使用 `pclose`来正确关闭它,并回收资源。这种做法符合良好的编程习惯,有助于保持程序的健壮性和稳定性。
188 3
|
4月前
|
Linux
在Linux内核中根据函数指针输出函数名称
在Linux内核中根据函数指针输出函数名称
加快软盘操作速度的汇编程序源代码
加快软盘操作速度的汇编程序源代码
|
5月前
|
Linux PHP
Linux CentOS 宝塔 Suhosin禁用php5.6版本eval函数详细图文教程
【8月更文挑战第27天】本文介绍两种禁用PHP执行的方法:使用`PHP_diseval_extension`禁用和通过`suhosin`禁用。由于`suhosin`不支持PHP8,仅适用于PHP7及以下版本,若服务器安装了PHP5.6,则需对应安装`suhosin-0.9.38`版本。文章提供了详细的安装步骤,并强调了宝塔环境下与普通环境下的PHP路径差异。安装完成后,在`php.ini`中添加`suhosin.so`扩展并设置`executor.disable_eval = on`以禁用执行功能。最后通过测试代码验证是否成功禁用,并重启`php-fpm`服务生效。
70 2