npm 包 @tessdata/bul 使用教程-JavaScript中文网-JavaScript教程资源分享门户

介绍

在进行图像识别任务时，Tesseract 是一款广泛使用的 OCR 引擎。@tessdata/bul 是一个基于 Tesseract OCR 引擎所创建的 npm 包，它包含了 Tesseract 所需的语言数据集供识别，因此可以在前端开发过程中用来进行 OCR 识别。

本教程将介绍如何使用 npm 包 @tessdata/bul，在前端应用中集成 OCR 功能。

步骤

步骤一：安装 @tessdata/bul

可以通过 npm 进行安装。

npm install @tessdata/bul

步骤二：构建 OCR 引擎

使用以下代码构建 OCR 引擎。

-- -------------------- ---- -------
----- - ------------ - - --------------------------------------
----- -------- - ------------------------- -- -----

----- ------ - --------------
    ------- - -- ---------------
    --------- ---------
---

-- --- --- --
-------------
    -------- -- ---------------------------
    -------- -- --------------------------

步骤三：进行 OCR 识别

使用以下代码进行 OCR 识别。

// 进行 OCR 识别
worker.recognize(imgFile)
    .then(({ data: { text } }) => {
        console.log(`识别文本为：${text}`);
    });

其中，imgFile 需要是一个图片文件。

示例

接下来，我们将以实际使用情境为例进行演示。

假设我们需要在一个前端应用中进行 OCR 识别，我们使用一个包含输入框和识别按钮的 HTML 页面作为示例。

<input type="file" id="img-file" accept="image/*">
<button id="btn-translate">识别文本</button>
<div id="result"></div>

示例步骤一：读取图片

在页面加载完成后，我们使用以下代码读取图片文件。

const imgFile = document.querySelector('#img-file');
const img = new Image();

// 读取图片
img.onload = () => {
    // 进行 OCR 识别
};
img.src = URL.createObjectURL(imgFile.files[0]);

示例步骤二：进行 OCR 识别

使用以下代码进行 OCR 识别。

-- -------------------- ---- -------
----- ------- - ------------------------------------
----- --- - --- --------
----- --------- - ----------------------------------

-- ----
---------- - ----- -- -- -
    -- -- --- --
    ----- - ----- - ---- - - - ----- ----------------------

    -- -- --- ----
    ------------------- - -----
--
------- - --------------------------------------

示例步骤三：完整代码

以下是完整代码，可在浏览器中运行验证。

-- -------------------- ---- -------
--------- -----
------
    ------
        ----- ----------------
        ---------- ----------
    -------
    ------
        ------ ----------- ------------- -----------------
        ------- --------------------------------
        ---- ------------------

        ------- -----------------------------------------------------------------------
        ------- ----------------------------------------------------------
        --------
            ----- - ------------ - - ----------
            ----- -------- - -------------

            ----- ------ - --------------
                ------- - -- ---------------
                --------- ---------
            ---

            -- --- --- --
            -------------
                -------- -- ---------------------------
                -------- -- --------------------------

            ----- ------------ - -----------------------------------------
            ----- ------- - ------------------------------------
            ----- --------- - ----------------------------------

            -------------------- - ----- -- -- -
                ----- --- - --- --------

                -- ----
                ---------- - ----- -- -- -
                    -- -- --- --
                    ----- - ----- - ---- - - - ----- ----------------------

                    -- -- --- ----
                    ------------------- - -----
                --
                ------- - --------------------------------------
            --
        ---------
    -------
-------

结语

本文介绍了 @tessdata/bul 的使用方法，并提供了一个基于该 npm 包的前端应用示例。希望本文对于初学者进行 OCR 图像识别有所帮助。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005624a81e8991b448df8b7