npm 包 @tessdata/ron 使用教程

阅读时长 3 分钟读完

随着计算机视觉技术的不断发展,OCR 技术也越来越成熟。@tessdata/ron 是一个用于 OCR 技术的 npm 包,它可以将图片中的文字识别出来。

安装

在使用 @tessdata/ron 之前,需要先安装 Tesseract。Tesseract 是一个 OCR 引擎,可以将图片中的文字转换为可编辑文本。一般情况下,安装 Tesseract 有两个步骤:

  1. 下载并安装 Tesseract
  2. 下载并安装 Tesseract 数据集

步骤 1 可以通过以下方式完成:

步骤 2 可以通过以下方式完成:

安装完 Tesseract 后,就可以开始安装 @tessdata/ron 了。只需要在终端中执行以下命令:

使用

使用 @tessdata/ron 进行 OCR,需要先将需要识别的图片转换为 Base64 格式。这可以通过使用 fs 模块中的 readFileSync 函数完成。以下是一个简单的示例代码:

通过以上代码,将会输出图片中识别出来的文本。如果图片中有多个文本区域,可以通过设置 options 参数来将所有文本区域一并识别:

-- -------------------- ---- -------
----- --- - -------------------------
----- -- - --------------

----- ----------- - ------------------------------------- ---------- -----------

----- ------- - -
  ---------------------- ------------------------------
  ------------------------ ----------------------------------------------------------------
--

-------------------------- --------
  -------------- -- -------------------------
  -------------- -- ----------------------

以上代码设置了 tessedit_pageseg_modetessedit_char_whitelist,将会将所有文本区域一并识别,并且只保留字母和数字。

总结

@tessdata/ron 可以很方便地完成 OCR 技术。本文介绍了安装和使用 @tessdata/ron 的详细步骤,并提供了示例代码。同时,本文也提到了 Tesseract 的安装步骤,这也是使用 @tessdata/ron 的必要前提。希望本文可以对读者有所帮助。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005625881e8991b448df96d

纠错
反馈