前言
在使用 OCR 技术进行图片、文字识别时,有时候会遇到困难,例如需要资源消耗大或者需要进行大量的样本训练,此时可以考虑使用现成的 npm 包来解决这些问题。而 easy-tesseract-ocr 就是一款可以帮助开发者进行 OCR 技术识别的 npm 包,在使用方便的同时,也保证了准确性和一定的灵活性。本文将从安装、使用、实例应用等几个方面为大家介绍 npm 包 easy-tesseract-ocr,希望能够帮助广大前端开发者提高工作效率。
安装
在使用之前,需要先进行安装,可以使用以下命令进行安装:
npm i easy-tesseract-ocr --save-dev
使用
在安装之后就可以使用 easy-tesseract-ocr 进行 OCR 技术识别了。在进行 OCR 技术识别之前,需要先了解 easy-tesseract-ocr 的基本配置,包括语言、黑白图像、图像分辨率等。
配置
easy-tesseract-ocr 包中提供了一个 Config 构造函数,用于进行 easy-tesseract-ocr 的配置,主要配置如下:
配置项 | 类型 | 描述 |
---|---|---|
language |
string |
OCR 技术的语言,可以是单储语言包,也可以是多语言包。 |
blackListRegExp |
RegExp |
要排除的字符集合的正则表达式。 |
whiteListRegExp |
RegExp |
要识别的字符集合的正则表达式。 |
resolution |
number |
识别图像的分辨率,默认为 300。如果分辨率太低,可能导致图像无法识别。 |
margin |
`{number} | number[]` |
psm |
number |
页面分割模式,用于分割多个字体或文字。默认为 6 (PSM_AUTO)。 |
oem |
number |
OCR 引擎模式,默认为 3 (OEM_DEFAULT)。 |
识别
在进行识别时,easy-tesseract-ocr 提供了两种方式,一种是将图片路径作为参数传入 easyocr 来进行识别,另一种是构造图片对象,并调用 decode
方法进行识别。下面是两种方式的示例代码:
从文件中识别
-- -------------------- ---- ------- ----- -- - -------------- ----- ------- - ------------------------------ ----- ------ - --- ---------------- --------- ------ --- ----- ----- - ------------------------------ ----- ---- - ----- ------------------------ -------- ------------------
代码中,通过读取图片文件并将其作为参数传入 recognize 方法中,之后配置相应的 easy-tesseract-ocr 参数,这样即可进行识别。
从文件流中识别
-- -------------------- ---- ------- ----- -- - -------------- ----- ------- - ------------------------------ ----- ------ - --- ---------------- --------- ------ --- ----- ----- - ---------------------------------- ----- ---- - ----- --------------------- -------- ------------------
代码中将图片流作为参数传入 recognize 方法中,之后同样配置相应的 easy-tesseract-ocr 参数,这样即可进行识别。这种方式适合对于大文件进行处理。
实例
下面是一个易车网车牌号自动获取的实例,在该实例中,我们需要从图片中识别车牌号,并根据车牌号进行相应的搜索操作。
-- -------------------- ---- ------- ----- -- - -------------- ----- ------- - ------------------------------ ----- ----- - ----------------- ----- ------ - --- ---------------- --------- ------ --- -------------------------- ----- ----- ----- -- - ----- ----- - ----- ----------------------- -------- ---------------------------- ----- --- - ----- ---------------------------------------------------------------------- --------------------------------- -- --------- ---
代码中,通过读取图片文件并识别出车牌号,再通过车牌号进行相应的搜索,并返回相关结果。这个实例可以让人们更好地理解 easy-tesseract-ocr 的使用方法,以及在实际开发中的应用。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/60055d0181e8991b448da994