npm 包 tokenize-english 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

在前端开发中，我们经常需要对文本进行处理，例如分词、词性标注等操作。其中，分词是一项非常基础的工作，它能够将文章分割成一个一个的单词，从而方便后续的分析和处理。而在自然语言处理领域，已经有很多成熟的分词工具，比如中文分词工具 jieba，英文分词工具 tokenize-english 等。

本文将主要介绍 npm 包 tokenize-english 的使用方法，帮助大家快速上手这个工具，提高文本处理效率。

tokenize-english 简介

tokenize-english 是一个用于英文分词的 npm 包，它简单易用，速度快，支持一些高级功能（如实现词性标注）。它的主要特点包括：

支持多种文本输入源（字符串、单词列表、文件等）；
支持自定义词性标注；
支持多种标点符号类型；
支持词根还原等功能。

下面我们来详细学习这个工具的使用。

安装 tokenize-english

要使用这个工具，首先需要在项目中安装 tokenize-english 的 npm 包。可以使用以下命令进行安装：

npm install tokenize-english --save

基本使用

使用 tokenize-english 进行分词非常简单，仅需两步：

引入 tokenize-english：

const tokenize = require('tokenize-english');

使用 tokenize 方法进行分词：

const text = 'This is a sample text for tokenize-english.';

const tokens = tokenize(text);
console.log(tokens);

输出结果为：

[ 'This', 'is', 'a', 'sample', 'text', 'for', 'tokenize-english', '.' ]

上面的代码中，我们首先定义了一个字符串 text，然后使用 tokenize 方法对其进行分词，并将结果存储在变量 tokens 中。最后，我们将 tokens 打印出来，可以看到这段文本已经成功被分成了单词。

支持多种文本输入源

除了字符串外，tokenize-english 还支持多种文本输入源，如单词列表、文件等。下面简单介绍这些用法。

单词列表

使用 tokenize 分词时，也可以将一个单词列表作为输入源。比如：

const words = ['This', 'is', 'a', 'sample', 'text', 'for', 'tokenize-english.'];

const tokens = tokenize(words);
console.log(tokens);

输出结果与上例相同。

文件

tokenize-english 还支持直接从文件中读取文本进行分词。比如：

const fs = require('fs');

const filePath = 'sample.txt';
const text = fs.readFileSync(filePath, 'utf-8');

const tokens = tokenize(text);
console.log(tokens);

这里，我们使用 Node.js 的文件系统模块 fs，读取指定路径下的 sample.txt 文件，并将其内容存储在变量 text 中。然后，我们使用 tokenize 方法对 text 进行分词，输出结果与上例相同。

支持自定义词性标注

在 tokenize-english 中，每个单词可以标注一个词性（如名词、动词、形容词等）。默认情况下，使用的是英文的 Part-of-speech（POS）标注法。如果需要，你也可以自定义词性标注，具体方法如下：

-- -------------------- ---- -------
----- ---- - -- ---- ---------

----- ------- - -
  -------- -
    ----- ----------
    ------- --------
  -
--

----- ------ - -------------- ---------
--------------------展开代码

在这里，我们定义了一个名为 options 的对象，其中 lexicon 属性表示自定义的词性及其对应的单词。比如，我们将 love 标注为 emotion，将 coding 标注为 action。然后，使用这个 options 对象作为 tokenize 方法的第二个参数进行分词，输出结果为：

[ 'I', 'love|emotion', 'coding|action', '.' ]

这里可以看到，我们定义的 love 和 coding 的词性被加入到了输出结果中，用竖线和词性名组成一个整体。

支持多种标点符号类型

在 tokenize-english 的默认设置下，只有句点（.）被视为标点符号。不过，你也可以通过 options 对象来设置自定义的标点符号类型，具体方法如下：

const text = 'What is this?? This is example sentence.';

const options = {
  punctuation: ['?', '.', '?!']
};

const tokens = tokenize(text, options);
console.log(tokens);

在这里，我们将 options 对象中的 punctuation 属性设置为问号（?）、句点（.）和感叹号加问号（?!）。然后再进行分词，输出结果为：

[ 'What', 'is', 'this', '?!', 'This', 'is', 'example', 'sentence', '.' ]

可以看到，除了默认的句点，另外两种符号也被识别为标点符号，用一个整体表示。

支持词根还原等功能

在 tokenize-english 中，还提供了一些高级功能，如词汇的词根还原（Lemmatization）等。在默认情况下，使用的是 Porter Stemming 算法对单词进行词根还原，该算法可以将单词还原成其原形，比如 running 还原为 run。

以下是一个该功能的使用示例：

-- -------------------- ---- -------
----- ---- - -- -- ------- -- --- -------

----- ------- - -
  -------- -
    ------ -
      - ------- ------ ----- ----- -
    -
  -
--

----- ------ - -------------- ---------
--------------------展开代码

在这里，我们定义了一个名为 options 的对象，其中 stemmer 属性指定为一个名为 rules 的对象数组，该数组指定了词根还原的规则。比如，我们将 ing 后缀规则指定为将其还原为 run。然后使用这个 options 对象作为 tokenize 方法的第二个参数进行分词，输出结果为：

[ 'I', 'am', 'run', 'in', 'the', 'park', '.' ]

可以看到，running 一词被成功地还原成了 run。

结束

至此，我们已经成功学习了 tokenize-english 的基本使用方法，以及一些高级功能（如自定义词性标注、标点符号类型和词根还原等）。希望这篇文章能够帮助大家更好地掌握这个工具，提高文本处理效率。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/72082

npm 包 tokenize-english 使用教程

前言