?? scanner.cpp
字號:
/****************************************************/
/* 文件 scanner.cpp */
/* 說明 TINY編譯器的詞法掃描器實現 */
/* 主題 編譯器結構:原理和實例 */
/****************************************************/
/************ 該代碼文件所包含的頭文件 **************/
#include "globals.h" /* 該頭文件globals.h定義了全局類與變量 */
#include "string.h"
#include "ctype.h" /* 用到了該庫中的isalnum,isalpha,isdigit函數 */
#include "util.h" /* 該頭文件util.h定義了相關功能函數 */
#include "math.h" /* 用到了這個庫里的取模運算 */
/*****************詞法分析器確定性有限自動機DFA的狀態類型*************/
/* START 開始狀態; INASSIGN 賦值狀態; INRANGE 下標范圍狀態; */
/* INNUM 數字狀態; INID 標識符狀態; DONE 完成狀態; */
/* INCHAR 字符狀態;INCOMMENT 注釋狀態; */
typedef enum
{ START,INASSIGN,INRANGE,INCOMMENT,INNUM,INID,INCHAR,DONE }
StateType;
/* tokenString用于保存標識符和保留字單詞的詞元,長度41 */
char tokenString[MAXTOKENLEN+1];
/* BUFLEN源代碼行的輸入緩沖區長度為256 */
#define BUFLEN 256
/* lineBuf為當前輸入代碼行緩沖區 */
static char lineBuf[BUFLEN];
/* linepos為在代碼緩沖區LineBuf中的當前字符位置,初始為0 */
static int linepos = 0;
/* bufsize為當前緩沖器中所存字串大小 */
static int bufsize = 0;
/* EOF_flag當為文件尾時,改變函數ungetNextChar功能 */
static int EOF_flag = FALSE;
/*******************************************************************/
/* 函數名 getNextChar */
/* 功 能 取得下一非空字符函數 */
/* 說 明 該函數從輸入緩沖區lineBuf中取得下一個非空字符 */
/* 如果lineBuf中的字串已經讀完,則從源代碼文件中讀入一新行 */
/*******************************************************************/
static int getNextChar(void)
{
/* 當前代碼輸入行緩沖器lineBuf已經耗盡 */
if (!(linepos < bufsize))
{
/* 源代碼行號lineno加1 */
lineno++;
/* 從源文件source中讀入BUFLEN-2(254)個字符到行緩沖區lineBuf中 *
* fgets在的lineBuf末尾保留換行符.并在末尾加了一個NULL字符表示結束 */
if (fgets(lineBuf,BUFLEN-1,source))
{
/* 如果源文件追蹤標志EchoSource為TRUE *
* 將源程序行號lineno及行內容lineBuf在詞法掃描時寫入列表文件listing */
if (EchoSource) fprintf(listing,"%4d: %s",lineno,lineBuf);
/* 取得當前輸入源代碼行的實際長度,送給變量bufsize */
bufsize = strlen(lineBuf);
/* 輸入行緩沖區lineBuf中當前字符位置linepos指向lineBuf開始位置 */
linepos = 0;
/* 取得輸入行緩沖區lineBuf中下一字符 */
return lineBuf[linepos++];
}
else
{
/* 未能成功讀入新的代碼行,fget函數返回值為NULL *
* 已經到源代碼文件末尾,設置EOF_flag標志為TRUE */
EOF_flag = TRUE;
/* 函數返回EOF */
return EOF;
}
}
/* 行輸入緩沖區lineBuf中字符還未讀完,直接取其中下一字符,函數返回所取字符 */
else return lineBuf[linepos++];
}
/********************************************************/
/* 函數名 ungetNextChar */
/* 功 能 字符回退函數 */
/* 說 明 該過程在行輸入緩沖區lineBuf中回退一個字符 */
/* 用于超前讀字符后不匹配時候的回退 */
/********************************************************/
static void ungetNextChar(void)
{
/* 如果EOF_flag標志為FALSE,不是處于源文件末尾 *
* 輸入行緩沖區lineBuf中當前字符位置linepos減1 */
if (!EOF_flag) linepos-- ;
}
/******************* 保留字查找表 ********************/
static struct
{ char* str;
LexType tok;
} reservedWords[MAXRESERVED]
= { {"program",PROGRAM},{"type",TYPE},{"var",VAR},{"procedure",PROCEDURE}
,{"begin",BEGIN},{"end",END},{"array",ARRAY},{"of",OF},{"record",RECORD}
,{"if",IF},{"then",THEN},{"else",ELSE},{"fi",FI},{"while",WHILE}
,{"do",DO},{"endwh",ENDWH},{"read",READ},{"write",WRITE},{"return",RETURN}
,{"integer",INTEGER},{"char",CHAR} };
/**************************************************************/
/* 函數名 reservedLookup */
/* 功 能 保留字查找函數 */
/* 說 明 使用線性查找,查看一個標識符是否是保留字 */
/* 標識符如果在保留字表中則返回相應單詞,否則返回單詞ID */
/**************************************************************/
static LexType reservedLookup (char * s)
{
int i;
/* 在保留字表中查找,MAXRESERVED已經定義為8,為保留字數 */
for (i=0;i<MAXRESERVED;i++)
/* 線性查保留字表,察看函數參數s指定標識符是否在表中 *
* 當兩字符串匹配的時候,函數strcmp返回值為0(FALSE) */
if (!strcmp(s,reservedWords[i].str))
/* 字符串s與保留字表中某一表項匹配,函數返回對應保留字單詞 */
return reservedWords[i].tok;
/* 字符串s未在保留字表中找到,函數返回標識符單詞ID */
return ID;
}
/****************************************
********* 詞法掃描器基本函數 **********
****************************************/
/************************************************************/
/* 函數名 getTokenlist */
/* 功 能 取得單詞函數 */
/* 說 明 函數從源文件字符串序列中獲取所有Token序列 */
/* 使用確定性有限自動機DFA,采用直接轉向法 */
/* 超前讀字符,對保留字采用查表方式識別 */
/* 產生詞法錯誤時候,僅僅略過產生錯誤的字符,不加改正 */
/************************************************************/
void getTokenlist(void)
{
ChainNodeType *chainHead; /*鏈表的表頭指針*/
ChainNodeType *currentNode; /*指向處理當前Token的當前結點*/
ChainNodeType *preNode; /*指向當前結點的前驅結點*/
ChainNodeType *tempNode; /*臨時指針,用于釋放鏈表部分*/
TokenType currentToken; /*存放當前的Token*/
/*產生鏈表的第一個結點*/
chainHead=preNode=currentNode=(ChainNodeType *)malloc(CHAINNODELEN);
/*初始化當前結點中,指向下一個結點的指針為空*/
(*currentNode).nextToken=NULL;
do
{ /* tokenStringIndex用于記錄當前正在識別單詞的詞元存儲區 *
* tokenString中的當前正在識別字符位置,初始為0 */
int tokenStringIndex = 0;
/* 當前狀態標志state,始終都是以START作為開始 */
StateType state = START;
/* tokenString的存儲標志save,整數類型 *
* 決定當前識別字符是否存入當前識別單詞詞元存儲區tokenString */
int save;
/* 當前確定性有限自動機DFA狀態state不是完成狀態DONE */
while (state != DONE)
{
/* 從源代碼文件中獲取下一個字符,送入變量c作為當前字符 */
int c = getNextChar();
/* 當前正識別字符的存儲標志save初始為TRUE */
save = TRUE;
switch (state)
{
/* 當前DFA狀態state為開始狀態START,DFA處于當前單詞開始位置 */
case START:
/* 當前字符c為數字,當前DFA狀態state設置為數字狀態INNUM *
* 確定性有限自動機DFA處于數字類型單詞中 */
if (isdigit(c))
state = INNUM;
/* 當前字符c為字母,當前DFA狀態state設置為標識符狀態INID *
* 確定性有限自動機DFA處于標識符類型單詞中 */
else if (isalpha(c))
state = INID;
/* 當前字符c為冒號,當前DFA狀態state設置為賦值狀態INASSIGN *
* 確定性有限自動機DFA處于賦值類型單詞中 */
else if (c == ':')
state = INASSIGN;
/* 當前字符c為.,當前DFA狀態state設置為數組下標界限狀態*/
/* INRANGE,確定性有限自動機DFA處于數組下標界限類型單詞中*/
else if (c == '.')
state = INRANGE;
/* 當前字符c為',當前DFA狀態state設置為字符標志狀態*/
/* INCHAR,確定性有限自動機DFA處于字符標志類型單詞中*/
else if (c == '\'')
{
save = FALSE;
state = INCHAR;
}
/* 當前字符c為空白(空格,制表符,換行符),字符存儲標志save設置為FALSE *
* 當前字符為分隔符,不需要產生單詞,無須存儲 */
else if ((c == ' ') || (c == '\t') || (c == '\n'))
save = FALSE;
/* 當前字符c為左括號,字符存儲標志save設置為FALSE *
* 當前DFA狀態state設置為注釋狀態INCOMMENT *
* 確定性有限自動機DFA處于注釋中,不生成單詞,無需存儲 */
else if (c == '{')
{
save = FALSE;
state = INCOMMENT;
}
/* 當前字符c為其它字符,當前DFA狀態state設置為完成狀態DONE *
* 確定性有限自動機DFA處于單詞的結束位置,需進一步分類處理 */
else
{
state = DONE;
switch (c)
{
/* 當前字符c為EOF,字符存儲標志save設置為FALSE,無需存儲 *
* 當前識別單詞返回值currentToken設置為文件結束單詞ENDFILE */
case EOF:
save = FALSE;
currentToken.Lex = ENDFILE;
break;
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -