npm 包 @tessdata/mar 使用教程

阅读时长 4 分钟读完

简介

@tessdata/mar 是一个基于 Tesseract-OCR 训练数据实现的 OCR 识别库,可用于对图片进行文字识别,支持多种语言。本文将向你介绍如何使用 @tessdata/mar 包实现文字识别。

安装

使用 NPM 安装 @tessdata/mar 包:

使用

首先,我们需要准备一个待识别的图片,所有待识别的图片应该放在同一个文件夹内,例如 /path/to/img_folder

创建一个 JavaScript 文件,引入 @tessdata/mar 包:

使用 createWorker 方法创建一个 worker 对象,并指定识别语言:

-- -------------------- ---- -------
----- ------ - --------------
  --------- ---------------------
  ------- - -- ---------------
  ------------- --- -- -------------------
  ----------- -------------------------------------
  -------------- -
    ---------- -----------------
    -------------- --
    --------------------- - -- ---------------
  --
  ------------- --------------------
---

这里我们指定了 langPath 参数来指定识别语言,logger 用于记录日志,errorHandler 用于处理错误。workerPath 指定了 tesseract.js-core 的路径,workerOptions 可以设置 cachePath、maxNumWorkers 和 workerMessageHandler 等参数。

接下来,我们需要初始化 worker,并指定要识别的文件夹路径:

wait worker.load()) 和 worker.initialize('eng') 分别用于加载语言和初始化 worker。worker.recognize('/path/to/img_folder') 方法会对指定图片进行识别,返回的结果为识别出的文字内容字符串,输出结果并关闭 worker。

示例代码

-- -------------------- ---- -------
----- - ------------ - - ------------------------

----- ---- - ----- -- -- -
  ----- ------ - --------------
    --------- ---------------------
    ------- - -- ---------------
    ------------- --- -- -------------------
    ----------- -------------------------------------
    -------------- -
      ---------- -----------------
      -------------- --
      --------------------- - -- ---------------
    --
    ------------- --------------------
  ---
  ----- --------------
  ----- ---------------------------
  ----- -------------------------
  ----- ------ - ----- ----------------------------------------
  ------------------------------
  ----- -------------------
--

总结

通过本文的介绍,相信你已经了解了如何使用 @tessdata/mar 进行文字识别。在使用过程中,我们可以根据需要指定不同的语言进行识别,同时通过各种配置参数对识别过程进行更加详细的设置。在实际使用过程中,你还可以根据自己的需求对示例代码进行适当的修改,以实现更多功能的实现。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005625881e8991b448df956

纠错
反馈