在前端开发过程中,有时需要用到 OCR(Optical Character Recognition,光学字符识别) 技术,将图片中的文字转化为计算机可以识别的文本。@tessdata/ara 是一款基于 Tesseract 的 JavaScript OCR 库,支持多种语言,并且可以通过 npm 方便地集成到项目中。
本文将介绍如何使用 @tessdata/ara 进行 OCR 文字识别,并提供一些有用的示例代码。
安装
使用 npm 安装 @tessdata/ara,需要先安装 Node.js。
npm install @tessdata/ara
使用
安装完 @tessdata/ara 后,可以通过 require 或 import 引入库。示例代码如下:
const ara = require('@tessdata/ara') // 或 import ara from '@tessdata/ara'
接下来就可以使用 ara.detectText 方法进行 OCR 文字识别了。
OCR 文字识别
ara.detectText 方法接收一个图片 URL,并返回一个 Promise 对象。Promise 对象解决后,返回一个包含识别结果的对象。
ara.detectText('http://example.com/image.png') .then(({ data }) => console.log(data.text)) .catch(error => console.error(error))
在这个例子中,识别结果会输出到控制台。data.text 属性包含了识别出的文本。
其他参数
detectText 方法还可以接收一个对象作为第二个参数,以配置更多参数。
ara.detectText('http://example.com/image.png', { lang: 'eng', psm: 10 }) .then(({ data }) => console.log(data.text)) .catch(error => console.error(error))
上例中,我们通过 lang 参数指定了识别的语言为英语,psm 参数指定了页面分割模式。ara.detectText 方法支持的参数列表可参考官方文档。
示例
下面是一个完整的示例,演示如何将一个图片中的文字转化为计算机可读的文本。
-- -------------------- ---- ------- --------- ----- ------ ------ ----- ---------------- ---------- --------------- ------- ------ ----- ---- ----------------------------------- ------ ---- ------------------ ------- -------------- ------ --- ---- --------------- ----- --- - ----------------------------- ----- ------ - --------------------------------- ----------------------- - ----- ------ ---- -- -- -------- ---- -- -- - ------------------ - --------- -- ------------ -- - -------------------- -- --------- ------- -------
总结
@tessdata/ara 是一款便捷的 OCR 库,可以帮助我们将图片中的文字转化为计算机可读的文本。在使用时,需要注意设置参数,以获得最佳的识别结果。本文提供了一些示例代码,供读者参考。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005624a81e8991b448df8b6