npm 包 textractor-wrapper 使用教程-JavaScript中文网-JavaScript教程资源分享门户

1. 简介

textractor-wrapper 是一个开源的 npm 包，用于提取 PDF、Word、Excel、PowerPoint、HTML 等文件中的文本，并根据文件类型进行不同的解析。

该包是基于 textract 这个包的封装，对其进行了一些优化和拓展。

2. 安装

使用 npm 安装 textractor-wrapper 十分简单：

npm install textractor-wrapper

3. 使用

textractor-wrapper 提供了 extract 方法，可以用来提取文件中的文本。

-- -------------------- ---- -------
----- ---------- - ------------------------------

---------------------------- -------- ----- ----- -- -
  -- ----- -
    -------------------
  - ---- -
    ------------------
  -
---

filepath: 待提取文本的文件路径，必填项。
options: 选填项。包括两个关键属性：
- preserveLineBreaks: 是否保留文本中的行末换行符，类型为布尔值，默认为 false。
- type: 待提取文本的文件类型，类型为字符串。如果不填该属性，将根据文件扩展名自动判断文本类型。当前支持的文本类型包括 pdf、docx、xlsx、pptx、html。
callback: 回调函数，必填项。当文本提取成功时，将返回文本内容，否则返回错误信息。

4. 示例

这里提供一个使用示例：

-- -------------------- ---- -------
----- ---------- - ------------------------------
----- -------- - ----------------------

----- ------- - -
  ------------------- -----
  ----- ------
--

---------------------------- -------- ----- ----- -- -
  -- ----- -
    -------------------
  - ---- -
    --------------------------------
  -
---

在上面的示例中，我们提取了一个 PDF 文件中的文本，并保留了其中的行末换行符。

5. 总结

textractor-wrapper 提供了一个简单易用的方法，用于从多种文件类型中提取文本。通过 options 参数，我们可以灵活地控制文本提取的方式。无论是提取电子书的内容，还是从 PDF 报告中摘取摘要，都可以借助该包轻松完成。

如果您对该包有兴趣，可以访问 textractor-wrapper 了解更多信息，并参与到它的开源项目中。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6006733e890c4f72775835d9