在前端开发中,有时需要识别图像中的文字并进行处理,而这正是 tesseract.js-utils 这个 npm 包所专注于的。
安装
安装 tesseract.js-utils,只需在终端中输入以下命令:
--- ------- ------------------
或者,在 package.json
文件中添加以下依赖:
--------------- - --------------------- -------- -
然后,运行 npm install
命令即可。
使用
下面将介绍如何在项目中使用 tesseract.js-utils。
准备图片
将需要识别的图片放在项目中,并确保路径正确。
初始化
在代码中引用 tesseract.js-utils:
----- -------------- - ------------------------------
然后,创建一个实例:
----- -------------- - --- -----------------
以上代码可以将 tesseractUtils 设置为一个默认实例。也可以通过传递参数来创建多个实例,以应对多个任务的场景。
配置
在启动 OCR 前,可以通过调用 setConfig
方法进行配置:
-------------------------- ----- ----- ---
通过上述代码,可以将识别语言设置为英文。
识别文字
使用 recognize
方法可以对图片中的文字进行识别:
----- ---- - ----- ----------------------------------------------- ------------------
以上代码可以将 /path/to/image.jpg
中的文字识别出来,并在控制台输出。
除了传递图片路径之外,还可以向 recognize
方法传递更多的参数:
lang
:用于设置识别语言;psm
:用于设置页面分割模式。
----- ---- - ----- ---------------------------------------------- - ----- ---------- ---- - --- ------------------
上述代码表示对中文传统文字进行识别,并使用自适应 OCR 模式。
释放内存
如果一次性进行了大量的 OCR 识别,并且开启了多次操作,那么可能会导致内存占用过高。为了避免这种情况,可以使用 terminate
方法手动释放内存:
----- ---------------------------
示例代码
下面是一个完整的例子,演示了如何使用 tesseract.js-utils 识别图片中的文字:
----- -------------- - ------------------------------ ----- -------- ------ - ----- -------------- - --- ----------------- -------------------------- ----- ----- --- ----- ---- - ----- ----------------------------------------------- ------------------ ----- --------------------------- - -------
总结
现在,我们已经了解了如何使用 tesseract.js-utils 对图片中的文字进行识别。不同的场景可能需要不同的配置参数,但是根据上述教程,您应该已经熟悉如何使用 tesseract.js-utils 和 OCR 技术了。
来源:JavaScript中文网 ,转载请联系管理员! 本文地址:https://www.javascriptcn.com/post/5eedafa1b5cbfe1ea061109d