npm 包 @jeefo/tokenizer 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

前端开发中，我们常常需要处理文本字符串中的各种各样的 token，以便进行词法分析和语法分析等工作。而使用 @jeefo/tokenizer 这个 npm 包可以很好地帮助我们处理字符串中的 token，以便我们更好地进行后续的分析处理。

本文就是一份关于如何使用 @jeefo/tokenizer 这个 npm 包的详细教程。

简介

@jeefo/tokenizer 是一个基于 JavaScript 的库，它用于解析文本字符串并生成词法 token。

它的主要功能包括：

能够将输入的文本分解为标记(token)。
可以自定义标记匹配规则和行为。
可以自定义解析顺序，以及匹配规则之间的优先级关系。

安装

使用 npm 进行安装:

npm install @jeefo/tokenizer

基础使用

在使用 @jeefo/tokenizer 进行文本字符串解析之前，需要首先引入库，并实例化一个 Tokenizer 对象。

const { Tokenizer } = require('@jeefo/tokenizer');

const tokenizer = new Tokenizer();

接下来，你需要定义你的文本字符串，并使用 tokenizer.tokenize() 方法对它进行解析。该方法会返回一个包含所有 token 的数组。

const input = 'Hello World';
const tokens = tokenizer.tokenize(input);

最终得到的 tokens 数组可以被用于后续的操作，比如语法分析等。

在默认配置下，tokenizer 可以很好地解析单个字符串，并将其拆解成一个个 token。默认的标记规则是一个标记之间以空格分割。

例如，对于下面的字符串：

const input = 'Hello World';

使用 tokenizer 解析后得到的 tokens 就是：

[
  { type: 'Literal', value: 'Hello' },
  { type: 'Literal', value: 'World' }
]

每个 token 对象都有两个属性，分别是 type 和 value。其中，type 表示该 token 的类型，value 则表示 token 的值。

自定义标记匹配规则和行为

在 @jeefo/tokenizer 中，可以通过定义自己的词法规则来支持更加自定义化的解析。

如下面例子所示，可通过自定义规则，来匹配所有的银行卡号：

-- -------------------- ---- -------
----- - ---------- ---- - - ----------------------------

----- --------- - --- -----------
    --- ------------------ -------------------------------
---

----- ----- - ------ ---------------------

----- ------ - --------------------------
--------------------

最终解析出来的 tokens 数组会包含一个 cardNumber 类型的 token：

[
  { type: 'Literal', value: 'Hello' },
  { type: 'cardNumber', value: '1234-5678-1234-5678' }
]

在上面的例子中，我们使用了 new Rule() 方法来自定义一个规则，该规则包含了一个正则表达式，用于匹配银行卡号。

Rule 方法的第一个参数为规则的名称，它将用于最终 token 对象中类型(type)的属性。第二个参数则为一个正则表达式，用于匹配该规则下的标记。

在解析输入文本时，tokenizer 会按照所有的规则顺序进行匹配，第一个匹配到规则的 token 便会被添加到返回数组中。

自定义解析顺序

默认情况下，tokenizer 会按照你定义的规则的顺序进行匹配。如果需要控制规则的解析顺序，可以使用 set_rules() 方法重新设置规则列表。

-- -------------------- ---- -------
----- - ---------- ---- - - ----------------------------

----- --------- - --- -----------
    --- ------------------ --------------------------------
    --- ------------ ------
---

---------------------
    -------
    ------------
---

----- ----- - ------ ---------------------

----- ------ - --------------------------
--------------------

在上面的例子中，我们首先用了两个规则：cardNumber 和 word。我们在第二个 set_rules() 方法调用中，将 token 解析的先后顺序交换了一下。最终输出的结果如下：

[
  { type: 'Literal', value: 'Hello' },
  { type: 'word', value: '1234' },
  { type: 'word', value: '5678' },
  { type: 'word', value: '1234' },
  { type: 'word', value: '5678' }
]

由于我们重新设置了规则列表，tokenizer 会按照我们传入 set_rules() 方法的顺序进行 token 解析，所以顺序变化了。

示例代码

下面的代码可以用于测试 @jeefo/tokenizer 这个 npm 包的基本使用：

const { Tokenizer, Rule } = require('@jeefo/tokenizer');

const tokenizer = new Tokenizer();

const input = 'Hello World';

const tokens = tokenizer.tokenize(input);
console.log(tokens);

上面的代码会将 input 中的字符串拆解成两个 token，即 'Hello' 和 'World'。

如果需要自定义 rule，可以使用以下代码：

-- -------------------- ---- -------
----- - ---------- ---- - - ----------------------------

----- --------- - --- -----------
  --- ------------ ---------
  --- ------------- ---------------------------------------------------
  --- ----------- --------
---

----- ----- - -------------

----- ------ - --------------------------

--------------------

执行上面的代码，得到的 tokens 为：

[
  { type: 'year', value: '2018' },
  { type: 'Literal', value: '-' },
  { type: 'month', value: '08' },
  { type: 'Literal', value: '-' },
  { type: 'day', value: '13' }
]

在上面的代码中，我们自定义了三个规则，其中有用于匹配年份，月份和日期的正则表达式。我们通过 tokenizer.tokenize() 方法对 input 进行解析，并输出解析结果 tokens。

结语

@jeefo/tokenizer 是一个非常有用而又简单易用的 npm 包，它可以帮助我们方便地进行文本字符串解析，以便我们进行后续的词法分析和语法分析等工作。本文希望能够帮助前端开发者学会如何使用 @jeefo/tokenizer，并掌握一些实用技巧。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/5eedbe24b5cbfe1ea0611b2a