Introduction to parsing

Input: sequence of tokens from lexer

Output: parse tree of the program

Context-Free grammars

CFG包含了以下内容：

productions可以理解成rules，例如S->(S)，意味着左边的能被右边的替代

CFG的处理过程：

假设G是以S为start symbol的CFG，那么语言L(G)就是：

terminals是不能被替换，是永恒的，terminals就是语言的tokens；

因此CFG就是指所有的production的左边只有一个非终结符

derivations: 一些列的productions，可以表示成一颗树，根就是start symbol，箭头右边的就是子节点，

叶节点都是terminals，根就是start symbol。这种推导就是left-most derivation，每一步都替代掉最左边的non-terminal。

同理，也有right-most derivation：

right-most和left-most有着相同的parse tree。

考虑grammar：E->E+E|EE|(E)|id ， string为idid+id

会解释得到两个parse tree：

如果有两颗以上的parse tree，我们就认为一个grammar是ambiguous。