npm 包 @tessdata/ori 使用教程

阅读时长 3 分钟读完

简介

在前端开发中,我们经常需要使用 OCR(Optical Character Recognition)技术对图像中的文字进行识别。而 @tessdata/ori 就是一个 OCR 模型库,可以用于将图像中的文字转换为可识别的文本。

安装

在使用 @tessdata/ori 之前,我们需要先安装它。可以通过 npm 来安装:

使用方法

安装完成后,我们就可以在项目中使用 @tessdata/ori 了。下面是一个简单的使用示例:

-- -------------------- ---- -------
----- - ------------ - - ------------------------
----- ---- - ----------------
----- ------- - ----------------------- --------------

------ -- -- -
  ----- ------ - --------------
    --------- ----------------------- -------------------------------------------- -- -----------
  ---
  ----- --------------
  ----- -------------------------
  ----- -
    ----- - ---- --
  - - ----- --------------------------
  ------------------
  ----- -------------------
-----

在上面的代码中,我们通过 createWorker 来创建一个 OCR 识别工作者,并通过 worker.load()worker.initialize('eng') 为它加载英文语言库。然后通过 worker.recognize(imgPath) 方法将图像中的文字识别出来,并通过 console.log(text) 将识别结果输出到控制台。

拓展

除了常规的 OCR 文字识别之外,@tessdata/ori 还支持多个参数的调整,可以根据不同的需求来拓展更多的功能。

例如,我们可以在 createWorker 方法中传入以下参数:

  • keepAlive: true:使得 worker 在每次运行完识别任务之后不会被终止,而是进入 idle 状态,等待下一次识别任务的到来。
  • cacheMethod: 'readonly':这个参数可以让 worker 只读取内存缓存,从而避免将已生成的内存缓存存储到磁盘中。

除此之外,我们还可以通过 worker.setParameters({ ... }) 方法来设置更多的参数。例如,我们可以通过 worker.setParameters({ tessedit_char_whitelist: '0123456789' }) 来指定只识别图像中的数字。

结语

本文介绍了 npm 包 @tessdata/ori 的安装和使用方法,同时还介绍了部分参数的调整方法。希望能够对需要进行 OCR 文字识别的前端开发者有所帮助。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005625881e8991b448df965

纠错
反馈