npm 包 lext 使用教程-JavaScript中文网-JavaScript教程资源分享门户

简介

lext 是一个基于 JavaScript 的词法分析器生成工具，在前端领域有广泛的应用。它可以将输入的文本转换为对应的词法单元序列，提供丰富的配置选项和灵活的扩展机制，支持用户自定义语法规则。

本文将介绍 lext 的基本用法和相关配置选项，并提供一些示例代码加深理解。

安装

lext 是一个 npm 包，所以需要在命令行中使用 npm 安装：

npm install lext

安装完成后，可以通过 require 引入 lext：

const lext = require('lext');

基本用法

lext 的核心是 lex 函数，它接受一个对象作为参数，该对象描述了词法分析器的行为，包括输入源、语法规则和输出格式等。

下面是一个简单的例子，用于将输入的字符串 hello world 分解成两个词法单元 hello 和 world：

-- -------------------- ---- -------
----- ----- - -
  - -------- ---------- ------ ------- --
  - -------- ---------- ------ ------- -
--

----- ----- - ----------
  ------ ------ -------
  ------ -----
---

--------------------------

其中，rules 是一个规则数组，每个规则表示一个语法规则，它由两个属性组成：pattern 表示匹配模式，token 表示识别的词法单元。这里使用了正则表达式来匹配单词边界，即单词后面的空白字符或者字符串结尾，确保能准确匹配整个单词。

lext.lex 函数返回一个对象，其中 tokens 属性是词法单元的数组，每个词法单元由 value 和 type 两个属性组成，分别表示词法单元的值和类型（即规则中设定的 token 值）。

上述代码的输出结果是：

[ { value: 'hello', type: 'hello' },
  { value: 'world', type: 'world' } ]

这样就完成了一个简单的词法分析器。接下来，我们将了解更多的配置选项和用法。

配置选项

input

input 属性表示要进行词法分析的输入源。它可以是字符串、Buffer、Stream 或者一个包含多个源的数组。如果是字符串或者 Buffer，lext 会自动将其转换成一个可读流。如果是 Stream，lext 会直接使用它，如果是数组，则会将每个元素作为一个输入源进行分析，并将结果存储在一个上下文对象中。

rules

rules 属性是一个规则数组，每个规则表示一个语法规则。规则对象包含两个属性：pattern 表示匹配模式，可以是正则表达式或者字符串；token 表示识别的词法单元，可以是字符串或者回调函数，如果是回调函数，则会将匹配结果传递给它，并返回对应的词法单元。

const rules = [
  { pattern: /hello\b/, token: 'hello' },
  { pattern: /world\b/, token: 'world' },
  { pattern: /\d+/, token: 'number' },
  { pattern: /[a-zA-Z]+/, token: match => `id(${match[0]})` },
  { pattern: /\s+/, skip: true }
];

上述规则中，前两个规则使用了字符串的边界标记 \b 来确保匹配整个单词。第三个规则使用了正则表达式匹配数字，第四个规则使用了回调函数返回带有前缀 id( 的识别器名称。最后一个规则表示跳过所有空格字符。

start

start 属性用于指定开始解析的识别器名称，如果未指定，则默认从第一个识别器开始解析。识别器名称是在规则数组中设定的 token 属性。

state

state 属性表示词法分析器的状态，可以用来实现复杂的分析逻辑。它是一个对象，可以包含任意数量的属性，每个属性表示一个状态名称，对应的值是一个规则数组，表示当前状态的语法规则。

-- -------------------- ---- -------
----- ----- - ----------
  ------ ------ -----
  ------ -
    ------ -
      - -------- ---------- ------ ------- --
      - ----- -------- -
    --
    ------- -
      - -------- ------ ------ -------- --
      - ----- ---- -
    -
  --
  ------ -
    ------ -
      - -------- ------ ------ --------- ----- ---- -
    -
  -
---

上述代码中，我们创建了一个有两个状态（start 和 number）的词法分析器。在初始状态下，它只能识别 hello，读取 hello 后进入 number 状态。在 number 状态下，它只能识别数字，并在识别完成后回到初始状态。

同时，我们还创建了一个名为 hello 的状态，表示在 start 状态下读取到 hello 123 时可以切换到这个状态。在 hello 状态下，它只能识别数字 123，并结束词法分析。

context

context 属性是一个对象，它包含了词法分析器的上下文信息。可以在规则中使用 context 对象来共享数据。

-- -------------------- ---- -------
----- ----- - ----------
  ------ ------ -------
  ------ -
    - -------- ---------- ------ -------- ------- --- -- --------- - ------- --
    - -------- ---------- ------ -------- ------- --- -- --------- -- - ------ --
    - -------- ------ ------ --------- ------- --- -- ---------- - -------------------- -
  --
  -------- --
---

---------------------------

上述代码中，我们在规则中使用了 action 属性指定回调函数。该函数接受一个名为 ctx 的参数，表示上下文对象。在执行规则时，lext 会自动传递 ctx 参数，并将当前匹配结果存储在 ctx.match 中。因此，我们可以在不同规则中共享上下文数据，例如在第一个规则中将 ctx.value 设置为 hello，在第二个规则中将其加上 world，最终输出为 hello world。

debug

debug 属性用于启用调试模式，开启后 lext 会输出更多的日志信息，包括规则匹配的过程和结果。

示例代码

下面是一个更完整的例子，用于解析一段包含函数和变量定义的代码：

-- -------------------- ---- -------
----- ----- - -
  - -------- ------- ------ ---- --
  - -------- --------- ------ ------ --
  - -------- ---------- ------ ------- --
  - -------- ------------- ------ ---------- --
  - -------- ----------- ------ -------- --
  - -------- ------------- ------ --------- --
  - -------- ----------------- ------ ------ --
  - -------- ------------------------ ------ ----- -- -------- --
  - -------- ---------- ------ -------- --
  - -------- ----------- ------ -------- --
  - -------- --------------- ------ ------------ --
  - -------- -------------- ------ -------- --
  - -------- ---------- ----- ---- --
  - -------- ------------------- ----- ---- --
  - -------- ------ ----- ---- -
--

----- ----- - ----------
  ------ -
    -- - ------ --------
    -------- ------ -- -
      ----- - - - - --
      -- -- - -- -
        ------ - - --
      - ---- -
        ------ -- - --
      -
    -
  --
  ------ -----
---

--------------------------

上述代码中，我们使用了一组规则来识别不同的词法单元，包括关键字、运算符、标识符、数字、字符串、注释和空白字符。我们还使用了 JavaScript 的模板字符串来表示输入源。

最终输出的结果是：

-- -------------------- ---- -------
-
  - ------ ----------- ----- ---------- --
  - ------ ------ ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- --- --
  - ------ -------- ----- ------------ --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ----- ----- ---- --
  - ------ ---- ----- --- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- -------- --
  - ------ ---- ----- --- --
  - ------ ---- ----- --- --
  - ------ --------- ----- -------- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- -------- --
  - ------ ---- ----- --- --
  - ------ ---- ----- --- --
  - ------ ------- ----- ------ --
  - ------ ---- ----- --- --
  - ------ --------- ----- -------- --
  - ------ ---- ----- --- --
  - ------ ---- ----- ------------ --
  - ------ ---- ----- --- --
  - ------ ---- ----- -------- --
  - ------ ---- ----- --- --
  - ------ ---- ----- --- --
  - ------ ---- ----- --- -
-

总结

本文介绍了 npm 包 lext 的使用方法，包括基本用法、配置选项和示例代码。在前端开发中，词法分析器是一个重要的技术，可以帮助我们实现模板引擎、编译器、解析器等功能。lext 提供了简单易用的 API 和丰富的配置选项，使得我们能够更高效地开发和维护词法分析器。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005730681e8991b448e92ee