深入V8引擎-AST(4)

2019-08-14 10:05:21来源：博客园阅读 ()

(再声明一下，为了简单暴力的讲解AST的转换过程，这里的编译内容以"'Hello' + ' World'"作为案例)

上一篇基本上花了一整篇讲完了scanner的Init方法，接下来就是Scan了，Init的方法基本上都是在Stream类下操作，但是本节回到了scanner层级。

/**
 * Scan
 * 仅仅只涉及next_指针
 */
void Scanner::Scan() { Scan(next_); }
void Scanner::Scan(TokenDesc* next_desc) {
  next_desc->token = ScanSingleToken();
  /**
   * 设置当前词法的结束位置
   */
  next_desc->location.end_pos = source_pos();
}

虽然这里只有简简单单的两步(砍掉了所有的CHECK和DEBUG内容)，但这个ScanSingleToken已经够讲了。从字面意思理解，就是对单个词法的解析，源码如下。

/**
 * 这个ScanSingleToken方法可TM太长了
 */
V8_INLINE Token::Value Scanner::ScanSingleToken() {
  Token::Value token;
  do {
    /**
     * 设置当前词法的起始位置
     */
    next().location.beg_pos = source_pos();
    /**
     * Ascii码是从0 ~ 127
     * 简单的判断一下合法性
     */
    if (V8_LIKELY(static_cast<unsigned>(c0_) <= kMaxAscii)) {
      /**
       * 这是一个mapping数组
       * 对所有的Unicode => Ascii做了映射
       */
      token = one_char_tokens[c0_];
      /**
       * 包含非常多的case...先不展开了
       * 根据Token类型进行不同的处理
       */
      switch (token) {
        case Token::LPAREN:
        case Token::RPAREN:
        // 其他单符号...
          // One character tokens.
          return Select(token);
        case Token::STRING:
          return ScanString();

        // 更多...
        default:
          UNREACHABLE();
      }
    }
    /**
     * 处理结束符、空格、异常符号等特殊情况
     */
    // ...
  } while (token == Token::WHITESPACE);

  return token;
}

作为一个词法解析方法，长度其实还是可以接受的，已经删掉了大部分的case判断，由于本系列专注于"'Hello' + ' World'"的编译，所以留下了STRING类型。

讲两个点，第一个是那个source_pos，位置的属性和方法是真的多，比较简单，看看就行了。

/**
 * 上一篇解析了第一个字符 所以pos移动到了1
 * 然而记录location需要从头开始 所以这里做了一个偏移
 */
static const int kCharacterLookaheadBufferSize = 1;
int source_pos() {
  return static_cast<int>(source_->pos()) - kCharacterLookaheadBufferSize;
}

然后那个mapping数组可以稍微给一下出处，源码如下。

/**
 * 总结起来就是GetOneCharToken(0),GetOneCharToken(1),...,GetOneCharToken(127)全部调用一遍
 * 其中IsDecimalDigit负责判断是否是数字
 * 而IsAsciiIdentifier负责判断是否是标识符，例如$、_、a-z等等
 * 最后生成的one_char_tokens数组下标代表Unicode编码 值代表对应的Token类型
 */

#define INT_0_TO_127_LIST(V)                                          \
V(0)   V(1)   V(2)   V(3)   V(4)   V(5)   V(6)   V(7)   V(8)   V(9)   \
// ...
V(120) V(121) V(122) V(123) V(124) V(125) V(126) V(127)

static const constexpr Token::Value one_char_tokens[128] = {
#define CALL_GET_SCAN_FLAGS(N) GetOneCharToken(N),
    INT_0_TO_127_LIST(CALL_GET_SCAN_FLAGS)
#undef CALL_GET_SCAN_FLAGS
};

constexpr Token::Value GetOneCharToken(char c) {
  // clang-format off
  return
    c == '(' ? Token::LPAREN :
    c == ')' ? Token::RPAREN :
    // 其余字符...
    IsDecimalDigit(c) ? Token::NUMBER :
    IsAsciiIdentifier(c) ? Token::IDENTIFIER :
    Token::ILLEGAL;
}

之前说过，c0_代表的是当前解析字符的Unicode编码，于是这里直接通过数组索引查找其对应的类型，按照例子中，我们的字符是一个单引号，而单引号的类型如下。

/**
 * 单双引号均会被识别为字符串标记
 * 而es6的模板字符串比较特殊 暂时不搞他
 */
c == '"' ? Token::STRING :
c == '\'' ? Token::STRING :
c == '`' ? Token::TEMPLATE_SPAN :

所以，当前token被赋值为Token::STRING，因此，case分支进入ScanString的方法。这个方法内容比较多，下一篇讲吧，午休时间。

原文链接:https://www.cnblogs.com/QH-Jimmy/p/11131749.html
如有疑问请与原作者联系

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：使用原生JS 修改 DIV 属性

下一篇：layui 框架 table插件实现键盘快捷键切换单元格编辑

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签