npm 包 textractor-wrapper 使用教程

阅读时长 3 分钟读完

1. 简介

textractor-wrapper 是一个开源的 npm 包,用于提取 PDF、Word、Excel、PowerPoint、HTML 等文件中的文本,并根据文件类型进行不同的解析。

该包是基于 textract 这个包的封装,对其进行了一些优化和拓展。

2. 安装

使用 npm 安装 textractor-wrapper 十分简单:

3. 使用

textractor-wrapper 提供了 extract 方法,可以用来提取文件中的文本。

-- -------------------- ---- -------
----- ---------- - ------------------------------

---------------------------- -------- ----- ----- -- -
  -- ----- -
    -------------------
  - ---- -
    ------------------
  -
---
  • filepath: 待提取文本的文件路径,必填项。

  • options: 选填项。包括两个关键属性:

    • preserveLineBreaks: 是否保留文本中的行末换行符,类型为布尔值,默认为 false
    • type: 待提取文本的文件类型,类型为字符串。如果不填该属性,将根据文件扩展名自动判断文本类型。当前支持的文本类型包括 pdfdocxxlsxpptxhtml
  • callback: 回调函数,必填项。当文本提取成功时,将返回文本内容,否则返回错误信息。

4. 示例

这里提供一个使用示例:

-- -------------------- ---- -------
----- ---------- - ------------------------------
----- -------- - ----------------------

----- ------- - -
  ------------------- -----
  ----- ------
--

---------------------------- -------- ----- ----- -- -
  -- ----- -
    -------------------
  - ---- -
    --------------------------------
  -
---

在上面的示例中,我们提取了一个 PDF 文件中的文本,并保留了其中的行末换行符。

5. 总结

textractor-wrapper 提供了一个简单易用的方法,用于从多种文件类型中提取文本。通过 options 参数,我们可以灵活地控制文本提取的方式。无论是提取电子书的内容,还是从 PDF 报告中摘取摘要,都可以借助该包轻松完成。

如果您对该包有兴趣,可以访问 textractor-wrapper 了解更多信息,并参与到它的开源项目中。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6006733e890c4f72775835d9

纠错
反馈