随着计算机视觉技术的不断发展,OCR 技术也越来越成熟。@tessdata/ron 是一个用于 OCR 技术的 npm 包,它可以将图片中的文字识别出来。
安装
在使用 @tessdata/ron 之前,需要先安装 Tesseract。Tesseract 是一个 OCR 引擎,可以将图片中的文字转换为可编辑文本。一般情况下,安装 Tesseract 有两个步骤:
- 下载并安装 Tesseract
- 下载并安装 Tesseract 数据集
步骤 1 可以通过以下方式完成:
brew install tesseract
步骤 2 可以通过以下方式完成:
brew install tesseract-lang
安装完 Tesseract 后,就可以开始安装 @tessdata/ron 了。只需要在终端中执行以下命令:
npm install @tessdata/ron
使用
使用 @tessdata/ron 进行 OCR,需要先将需要识别的图片转换为 Base64 格式。这可以通过使用 fs
模块中的 readFileSync
函数完成。以下是一个简单的示例代码:
const Ron = require('@tessdata/ron'); const fs = require('fs'); const base64Image = fs.readFileSync("/path/to/image.jpg", {encoding: "base64"}); Ron.recognize(base64Image) .then((result) => console.log(result.text)) .catch((error) => console.error(error));
通过以上代码,将会输出图片中识别出来的文本。如果图片中有多个文本区域,可以通过设置 options
参数来将所有文本区域一并识别:
-- -------------------- ---- ------- ----- --- - ------------------------- ----- -- - -------------- ----- ----------- - ------------------------------------- ---------- ----------- ----- ------- - - ---------------------- ------------------------------ ------------------------ ---------------------------------------------------------------- -- -------------------------- -------- -------------- -- ------------------------- -------------- -- ----------------------
以上代码设置了 tessedit_pageseg_mode
和 tessedit_char_whitelist
,将会将所有文本区域一并识别,并且只保留字母和数字。
总结
@tessdata/ron 可以很方便地完成 OCR 技术。本文介绍了安装和使用 @tessdata/ron 的详细步骤,并提供了示例代码。同时,本文也提到了 Tesseract 的安装步骤,这也是使用 @tessdata/ron 的必要前提。希望本文可以对读者有所帮助。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005625881e8991b448df96d