ANTLR快餐教程(1) - 有好多现成例子啊

    xiaoxiao2021-03-25  169

    前面介绍LLVM的第一篇中,我们介绍过,编译器的后端基本都可以通过LLVM来解决。 那么,前端我们如何处理呢?我们选择ANTLR。

    例子超丰富的ANTLR

    ANTLR是用Java写的词法和语法分析工具。它比lex/flex/yacc/bison是更现代的工具。 最方便的一点是,ANTLR已经替我们写好了常用语言的语法规则,我们已经拥有了常见语言的分析器,可以在其基础上直接做我们想做的事情。网址在[https://github.com/antlr/grammars-v4/]

    我们看一些例子吧。曾经火遍大江南北的谭浩强老师的《BASIC语言》还有人记得吗?DOS时代,GW-BASIC和QBasic是系统默认自带的语言,如同Unix上的cc编译器一样。

    10 FOR I = 1 TO 10 STEP 1 20 PRINT I 30 NEXT I 40 END

    我们来看一下ANTLR中对BASIC语言FOR循环的语法:

    // for stmt 2 puts the for, the statment, and the next on 3 lines. It needs "nextstmt" forstmt2 : FOR vardecl EQ expression TO expression (STEP expression)? ; nextstmt : NEXT (vardecl (',' vardecl)*)? ;

    完整的语法在:https://github.com/antlr/grammars-v4/blob/master/basic/jvmBasic.g4

    还有更简单的么?有啊,汇编语言:https://github.com/antlr/grammars-v4/blob/master/masm/MASM.g4

    言归正题,我们来看第一种大型的语言,C语言2011版的:https://github.com/antlr/grammars-v4/blob/master/c/C.g4

    看个类型的吧,C11的还真不少:

    typeSpecifier : ('void' | 'char' | 'short' | 'int' | 'long' | 'float' | 'double' | 'signed' | 'unsigned' | '_Bool' | '_Complex' | '__m128' | '__m128d' | '__m128i') | '__extension__' '(' ('__m128' | '__m128d' | '__m128i') ')' | atomicTypeSpecifier | structOrUnionSpecifier | enumSpecifier | typedefName | '__typeof__' '(' constantExpression ')' // GCC extension ;

    我们通过语法规则,大致可以估算一下语言的复杂度:

    语言语法行数地址C11926https://github.com/antlr/grammars-v4/blob/master/c/C.g4C++142353https://github.com/antlr/grammars-v4/blob/master/cpp/CPP14.g4Go1170https://github.com/antlr/grammars-v4/blob/master/golang/Golang.g4Java71017https://github.com/antlr/grammars-v4/blob/master/java/Java.g4Java81780https://github.com/antlr/grammars-v4/blob/master/java8/Java8.g4Lua336https://github.com/antlr/grammars-v4/blob/master/lua/Lua.g4Pascal972https://github.com/antlr/grammars-v4/blob/master/pascal/pascal.g4Python31558https://github.com/antlr/grammars-v4/blob/master/python3/Python3.g4Swift1163https://github.com/antlr/grammars-v4/blob/master/swift/Swift.g4ECMA Script 51504https://github.com/antlr/grammars-v4/blob/master/ecmascript/ECMAScript.g4Erlang391https://github.com/antlr/grammars-v4/blob/master/erlang/Erlang.g4Fortran 771363https://github.com/antlr/grammars-v4/blob/master/fortran77/fortran77.g4Scala704https://github.com/antlr/grammars-v4/blob/master/scala/Scala.g4SQLite905https://github.com/antlr/grammars-v4/blob/master/sqlite/SQLite.g4Clojure262https://github.com/antlr/grammars-v4/blob/master/clojure/Clojure.g4

    从词法复杂度上看: * C,Java7,Swift,Go这几门语法的复杂度是比较适中的 * C++和Java 8确实是比较复杂的,比起它们的前辈C和Java 7都变复杂了不少 * JavaScript和Python3已经比较复杂了 * Clojure,Lua和Erlang是惊喜,规模小,表现力强

    装上玩玩吧

    既然ANTLR有这么丰富的例子供我们参考,我们就装一个玩玩吧。 在macOS上,通过Homebrew就可以安装。

    在Linux上,通过下面的步骤来安装:

    wget http://www.antlr.org/download/antlr-4.6-complete.jar export CLASSPATH=".:/path/to/antlr-4.6-complete.jar:$CLASSPATH" alias antlr4='java -jar /path/to/antlr-4.6-complete.jar' alias grun='java org.antlr.v4.gui.TestRig'

    照抄个Hello,World的例子试一下吧:

    grammar Hello ; r : 'hello' ID ; ID: [a-z]+ ; WS : [ \t\r\n]+ -> skip ;

    都是正则表达式,很容易理解,ID是小写字母组成的,WS是空格制表符回车换行符,空白符过滤掉。

    输入antlr4 Hello.g4,就生成了好几个.java文件,调用javac编译一下。成功!

    antlr4 Hello.g4 javac *.java

    生成的文件,我们快速浏览一下: 第一个,HelloListener.java:

    // Generated from Hello.g4 by ANTLR 4.6 import org.antlr.v4.runtime.tree.ParseTreeListener; /** * This interface defines a complete listener for a parse tree produced by * {@link HelloParser}. */ public interface HelloListener extends ParseTreeListener { /** * Enter a parse tree produced by {@link HelloParser#r}. * @param ctx the parse tree */ void enterR(HelloParser.RContext ctx); /** * Exit a parse tree produced by {@link HelloParser#r}. * @param ctx the parse tree */ void exitR(HelloParser.RContext ctx); }

    R是我们刚才定义的语法规则,在进入和退出时,这个接口是提供回调的接口。

    Hello.tokens:

    T__0=1 ID=2 WS=3 'hello'=1

    HelloParser.java是解析器。

    转载请注明原文地址: https://ju.6miu.com/read-868.html

    最新回复(0)