npm 包 tesseract.js-utils 使用教程

阅读时长 4 分钟读完

在前端开发中,有时需要识别图像中的文字并进行处理,而这正是 tesseract.js-utils 这个 npm 包所专注于的。

安装

安装 tesseract.js-utils,只需在终端中输入以下命令:

或者,在 package.json 文件中添加以下依赖:

然后,运行 npm install 命令即可。

使用

下面将介绍如何在项目中使用 tesseract.js-utils。

准备图片

将需要识别的图片放在项目中,并确保路径正确。

初始化

在代码中引用 tesseract.js-utils:

然后,创建一个实例:

以上代码可以将 tesseractUtils 设置为一个默认实例。也可以通过传递参数来创建多个实例,以应对多个任务的场景。

配置

在启动 OCR 前,可以通过调用 setConfig 方法进行配置:

通过上述代码,可以将识别语言设置为英文。

识别文字

使用 recognize 方法可以对图片中的文字进行识别:

以上代码可以将 /path/to/image.jpg 中的文字识别出来,并在控制台输出。

除了传递图片路径之外,还可以向 recognize 方法传递更多的参数:

  • lang:用于设置识别语言;
  • psm:用于设置页面分割模式。

上述代码表示对中文传统文字进行识别,并使用自适应 OCR 模式。

释放内存

如果一次性进行了大量的 OCR 识别,并且开启了多次操作,那么可能会导致内存占用过高。为了避免这种情况,可以使用 terminate 方法手动释放内存:

示例代码

下面是一个完整的例子,演示了如何使用 tesseract.js-utils 识别图片中的文字:

-- -------------------- ---- -------
----- -------------- - ------------------------------

----- -------- ------ -
  ----- -------------- - --- -----------------
  --------------------------
    ----- -----
  ---
  ----- ---- - ----- -----------------------------------------------
  ------------------
  ----- ---------------------------
-

-------

总结

现在,我们已经了解了如何使用 tesseract.js-utils 对图片中的文字进行识别。不同的场景可能需要不同的配置参数,但是根据上述教程,您应该已经熟悉如何使用 tesseract.js-utils 和 OCR 技术了。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/5eedafa1b5cbfe1ea061109d

纠错
反馈