npm 包 javascript-compiling-tokenizer 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

在前端开发中，我们经常会遇到需要对 JavaScript 代码进行语法解析的需求。为此，一些诸如 Esprima、babel-parser 等 JavaScript 解析器/library 应运而生，它们可以将 JavaScript 代码转换为抽象语法树（AST），从而实现语法分析、代码检测等功能。

然而，对于初学者而言，直接使用这些库可能会比较困难，因为常常需要了解 JavaScript 语言的相关概念，如语法分析器等。

这时候，一些较为简单易用的库就显得尤为重要了。本文介绍了一个这样的库——javascript-compiling-tokenizer，它可以将 JavaScript 代码分解成一个由 token 对象组成的数组，是一个比较轻量级、易于使用的 JavaScript tokenizer（分词器）。

什么是 tokenizer？

tokenizer，又称词法分析器，是将一个文本字符串分解成一个 token 序列的程序。其中，token 是语言中的一个基本单位，代表一个词法语句的最小单元，如关键字、符号、变量名等。tokenizer 可以将一段文本按照语言的要求切割成若干 token 对象，进而对文本进行语法分析、代码检测等处理。

安装

我们可以使用 npm 安装 javascript-compiling-tokenizer：

npm install --save javascript-compiling-tokenizer

使用

基本使用

使用 javascript-compiling-tokenizer，我们需要先导入它：

const tokenizer = require('javascript-compiling-tokenizer');

使用 tokenizer.tokenize 函数将一个 JavaScript 字符串分解成 token 数组：

const tokens = tokenizer.tokenize('console.log("Hello, World!");');
console.log(tokens);

这时候，我们可以得到以下输出结果：

-- -------------------- ---- -------
-
  - ----- --- ------ --------- --
  - ----- --- ------ --- --
  - ----- --- ------ ----- --
  - ----- -- ------ --- --
  - ----- --- ------ -------- -------- --
  - ----- -- ------ --- --
  - ----- -- ------ --- -
-

其中，每个 token 对象有两个属性：

type：代表 token 的类型，具体取值可以参考 tokenizer.js 中的 TOKENS 定义；
value：代表 token 的实际值。

更多选项

我们也可以指定一些选项，以便于更加精细地控制 tokenizer 的行为。例如：

strict：当为 true 时，tokenizer 严格遵循 JavaScript 语言的语法规范进行解析，如不允许省略变量名、在声明语句后添加多余的括号等。默认值为 false；
tolerant：当为 true 时，tokenizer 允许一些语法错误的存在，并尝试忽略它们。默认值为 false；
comment：当为 true 时，tokenizer 会将注释信息也包含在 token 数组中。默认值为 false；
loc：当为 true 时，tokenizer 会在每个 token 中包含其在代码中位置的信息。默认值为 false。

const str = 'var a = 1';
const options = { strict: true, tolerant: false, comment:true, loc: true };
const tokens = tokenizer.tokenize(str, options);
console.log(tokens);

输出结果如下：

[
  { type: Token.VarKeyword, value: 'var', loc: [1, 0, 1, 3] },
  { type: Token.Identifier, value: 'a',    loc: [1, 4, 1, 5] },
  { type: Token.Operator,   value: '=',    loc: [1, 6, 1, 7] },
  { type: Token.Numeric,    value: '1',    loc: [1, 8, 1, 9] },
  { type: Token.SemiColon,  value: ';',    loc: [1, 9, 1, 10] }
]

其中，loc 属性中的四个数分别代表了 token 所在位置的行号、列号（起始行、起始列、结束行、结束列）。

解析文件

我们也可以使用 tokenizer.tokenizeFile 函数对一个文件进行解析：

tokenizer.tokenizeFile('./test.js', options)
         .then(tokens => console.log(tokens))
         .catch(err => console.error(err));

这里的 options 可选。需要注意的是，由于 tokenizer.tokenizeFile 操作符是异步的，我们可以使用 Promise 的语法来处理结果。如下所示，我们通过 .then() 方法获取到异步操作的结果。

总结

javascript-compiling-tokenizer 是一个轻量级、易于使用的 JavaScript tokenizer，它可以将 JavaScript 代码分解为 token 对象数组。通过本文的介绍，我们学习了如何使用 javascript-compiling-tokenizer，以及它的一些选项和用法。希望本文能对大家的前端开发工作有所帮助。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6006735b890c4f7277583f62