npm 包 pdf3json 使用教程

阅读时长 3 分钟读完

如果你需要将 PDF 文档中的文本内容提取出来,那么可以使用 npm 包 pdf3json。pdf3json 可以将 PDF 文档转换为 JSON 格式,让你方便地获取其中的文本、字体、尺寸等信息。

安装

使用 npm 命令进行安装:

使用方法

在代码中引入 pdf3json,然后传入 PDF 文件路径或者 buffer,调用 pdfParser.parseBuffer 或 pdfParser.loadPDF 函数即可返回 PDF 内容的 JSON 数据。

-- -------------------- ---- -------
----- --------- - --------------------

----- --------- - --- ------------

-- ----- ---
---------------------------------- --------------- ---- -
  -- ------- ----- ------

  -- -- --- --
  -----------------
---

-- --- ------ --- ---
---------------------------- --------------- ------- -
  -- ------- ----- ------

  ------------------------------

  -- -- --- --
  -------------------------------------------
---

示例代码

以下是一个完整的示例代码,演示了如何读取 PDF 文件并提取其中的文本内容:

-- -------------------- ---- -------
----- --------- - --------------------
----- -- - --------------

----- --------- - --- ------------

-- ----- ---
---------------------------------- --------------- ---- -
  -- ------- ----- ------

  ----- ----- - --------------------
  --- ----------- - ---

  -- -----
  --- ---- - - -- - - ------------- ---- -
    ----- ---- - ---------
    ----- ----- - -----------

    -- -------
    --- ---- - - -- - - ------------- ---- -
      ----- ---- - ---------

      -- --------- ----- --------
      ----- ------- - ------------
      ----- ----------- - ------------------------------------

      ----------- -- ----------- - -----
    -
  -

  -------------------------
---

在上述示例代码中,我们使用 pdfParser.loadPDF 函数从文件中读取 PDF,然后遍历每一页和每个文本块,获取其中的文本内容,并将 utf16 编码转换为字符串。最终得到的 textContent 变量即为 PDF 文件中的文本内容。

结论

使用 npm 包 pdf3json 能够方便地将 PDF 文件转换为 JSON 格式,提取其中的文本等信息。通过本文的介绍和示例,你已经学会了如何使用该工具,希望对你有所帮助。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/41168

纠错
反馈