npm 包 tesseract-hocr 使用教程-JavaScript中文网-JavaScript教程资源分享门户

tesseract-hocr 是一个基于 Tesseract OCR 引擎的 npm 包，可以用来识别图像中的文本，并将其转换为 HOCR 格式的输出。本文将详细介绍 tesseract-hocr 的使用方法和示例代码，并帮助大家更好地了解和掌握该 npm 包的知识。

安装和引入

使用 tesseract-hocr 之前，需要先进行安装和引入。在命令行中输入以下指令，即可完成安装。

npm install tesseract-hocr

安装完成后，在代码中通过以下方式引入 tesseract-hocr 包。

const tesseractHocr = require('tesseract-hocr');

API 方法

tesseract-hocr 提供了以下几个 API 方法用于图像 OCR 识别和 HOCR 格式转换。

recognize(imageFile, lang, config)

使用 recognize 方法可以对指定的图像文件进行 OCR 识别，并将结果以 HOCR 格式输出。其中，imageFile 参数为待识别的图像文件，lang 参数为 OCR 识别所使用的语言，config 参数为可选的配置项，用于指定 OCR 引擎的识别模式和其他参数。

tesseractHocr.recognize('image.png', 'eng', { tessedit_char_whitelist: '0123456789' })
    .then(hocr => {
        console.log(hocr);
    })
    .catch(err => {
        console.error(err);
    });

recognizeBuffer(imageBuffer, lang, config)

使用 recognizeBuffer 方法可以对图像的 Buffer 数据进行 OCR 识别，并将结果以 HOCR 格式输出。其中，imageBuffer 参数为图像的 Buffer 数据，其他参数同 recognize 方法。

-- -------------------- ---- -------
----- -- - --------------

----- ----------- - -----------------------------

------------------------------------------ ------ - ------------------------ ------------ --
    ---------- -- -
        ------------------
    --
    ---------- -- -
        -------------------
    ---

hocrToText(hocr)

使用 hocrToText 方法可以将 HOCR 格式的文本内容转换为纯文本格式。其中，hocr 参数为待转换的 HOCR 格式文本内容。

-- -------------------- ---- -------
----- ---- - -
----- ------------------------------------ -------------- -----------
-------------
------
---- ---------------- ----------- ----------------- ---- - - --- ---- ------- ---
---- ----------------- -------------- ----------- -- - --- -----
-- --------------- ---------- ----------- -- - --- -----
----- ---------------- ----------- ----------- -- - --- ----
----- ----------------- ----------- ----------- -- - -- --- ------- --------------
----- ----------------- ----------- ----------- -- - --- --- ------- --------------
----- ----------------- ----------- ----------- --- - --- --- ------- --------------
-------
----- ---------------- ----------- ----------- -- -- --- ----
----- ----------------- ----------- ----------- -- -- -- --- ------- --------------
----- ----------------- ----------- ----------- -- -- --- --- ------- --------------
----- ----------------- ----------- ----------- --- -- --- --- ------- --------------
-------
----
------
------
-------
-------
--

----- ---- - -------------------------------

------------------

getConfig()

使用 getConfig 方法可以获取当前 tesseract-hocr 实例的默认配置项。

const config = tesseractHocr.getConfig();

console.log(config);

setConfig(config)

使用 setConfig 方法可以设置当前 tesseract-hocr 实例的默认配置项。其中，config 参数为待设置的配置项。

tesseractHocr.setConfig({ lang: 'chi_sim' });

示例代码

下面是一个完整的示例代码，用于识别图像中的数字，并输出识别结果。

-- -------------------- ---- -------
----- ------------- - --------------------------
----- -- - --------------

----- ----------- - -----------------------------

------------------------------------------ ------ - ------------------------ ------------ --
    ---------- -- -
        ----- ------ - --------------------------------------------- ----
        ---------------------- --------
    --
    ---------- -- -
        -------------------
    ---

总结

本文介绍了 npm 包 tesseract-hocr 的使用方法和示例代码，希望能够帮助读者更好地了解和掌握该 npm 包的知识。同时，也提供了一些有深度和学习指导意义的内容，如 HOCR 格式和 OCR 引擎配置等，帮助大家更好地理解和应用 tesseract-hocr。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/60055be481e8991b448d98d8