Translate to Intermediate Code：中间代码生成¶

约 1021 个字 1 张图片预计阅读时间 3 分钟

1. 引入与定义¶

为什么需要 IR？为什么不直接把 AST 翻译为机器码？

IR 是一种抽象化的机器语言：

不同的编译器可能会使用不同的 IR，例如 Tiger 编译器使用的是表达式树，还有用三地址码的等等。一个编译器可能会用多级 IR。

IR 把编译器分成前后端

这是一种中间代码的形式，最常见的 basic instruction 是：x = y op z。

一条指令最多有四个域：一个操作，三个地址
地址可以是
- name：一个源程序名字
- constant：一个常量
- compiler-generated temporary：编译器生成的临时变量，例如 t1
指令的右边最多有一个 operation，因此源程序的一句话可能要分成多条指令。
有的时候为了适应不同的语句，可能需要做三地址码的变体，例如 t2 = -t1
因此，三地址码没有严格的标准格式
常见的把三地址码组织起来的形式有数组和链表，由于最多有四个 field，可以实现为 quadruples。如果没有四个 field，空的地方可以用 null 填充。

中间表示树是由一个一个 IR 节点拼接起来的，节点总体分为两类：表达式类型与语句类型。

AST 中的表达式翻译成 IR，有三种形式：

例如：

注意这里我们还不知道 true-destination 和 false-destination 是什么，所以填上 NULL。后续知道了之后再填上。这个叫做 backpatching，其中有 true patch list 和 false patch list。

获取栈帧中存储的一个变量，可以使用 MEM(BINOP(PLUS, TEMP fp, CONST k))，其中 k 是变量在栈帧中的偏移量。

这里也可以做一个结合的简写，记为 MEM(+(TEMP fp, CONST k))。

要记得把 static link 传递给函数调用。CALL(NAME lf, [sl, e1, e2, …, en])

需要在栈帧中预留好空间（FP + offset）

在函数体前面和后面加上 prologue 和 epilogue。