tesseract.js 是一款基于 Google 的 OCR 引擎 Tesseract 的 JavaScript 包,可以在浏览器和 Node.js 环境下进行文字识别。本文将介绍如何安装和使用该包。
安装
可以通过 npm 命令来安装 tesseract.js:
--- ------- ------------
示例
以下是一个简单的示例代码,演示如何使用 tesseract.js 从图片中提取文本:
----- --------- - ------------------------ -------------------- ----------------------------------------------------- ------ - ------- - -- -------------- - --------- ----- - ---- - -- -- - ------------------ ---
这段代码会从指定的 URL 加载图片,并使用英语语言模型进行识别。识别结果会输出到控制台。
API
tesseract.js 提供了丰富的 API,可以满足不同的需求。以下是一些常用的 API:
recognize(image, lang, options) -> Promise<Object>
该方法用于识别图片中的文本。参数说明:
image
:图片地址或者图片文件对象。lang
:语言模型名称。可以是 ISO 639-3 代码,比如'chi_sim'
;也可以是语言模型文件的 URL 或者本地路径,比如'https://.../chi_sim.traineddata'
或者'./chi_sim.traineddata'
。options
:可选参数对象。可以设置识别区域、输出格式等。具体参数请参考官方文档。
返回值是一个 Promise,resolve 后的结果是一个对象,包含以下字段:
text
:识别出来的文本。confidence
:置信度。hocr
:HTML 格式的识别结果。tesseract_version
:Tesseract 引擎版本号。- ...
createWorker(options) -> Object
该方法用于创建一个 Worker 对象,可以在后台线程中进行 OCR 任务。参数说明:
options
:可选参数对象。可以设置语言模型路径、日志等级等。具体参数请参考官方文档。
返回值是一个对象,包含以下方法:
load()
:加载语言模型。recognize(image)
:识别图片中的文本。terminate()
:终止 Worker。
以下是一个示例代码:
----- --------- - ------------------------ ----- ------ - ------------------------ ------- - -- --------------- --- ----- -------- ----------- - ----- -------------- ----- --------------------------- ----- ------------------------- ----- - ----- - ---- - - - ----- ----------------------------------------------------------------------- ------------------ ----- ------------------- - ------------
该代码会在后台线程中启动 OCR 任务,并获取识别结果。
总结
tesseract.js 是一款强大的 OCR 工具,可以帮助我们从图片中提取文本。本文介绍了如何安装和使用该包,并给出了一些示例代码。希望读者可以通过本文了解 tesseract.js 的基本用法,并在实际项目中应用它。
来源:JavaScript中文网 ,转载请注明来源 本文地址:https://www.javascriptcn.com/post/32396