tesseract-hocr 是一个基于 Tesseract OCR 引擎的 npm 包,可以用来识别图像中的文本,并将其转换为 HOCR 格式的输出。本文将详细介绍 tesseract-hocr 的使用方法和示例代码,并帮助大家更好地了解和掌握该 npm 包的知识。
安装和引入
使用 tesseract-hocr 之前,需要先进行安装和引入。在命令行中输入以下指令,即可完成安装。
npm install tesseract-hocr
安装完成后,在代码中通过以下方式引入 tesseract-hocr 包。
const tesseractHocr = require('tesseract-hocr');
API 方法
tesseract-hocr 提供了以下几个 API 方法用于图像 OCR 识别和 HOCR 格式转换。
recognize(imageFile, lang, config)
使用 recognize 方法可以对指定的图像文件进行 OCR 识别,并将结果以 HOCR 格式输出。其中,imageFile 参数为待识别的图像文件,lang 参数为 OCR 识别所使用的语言,config 参数为可选的配置项,用于指定 OCR 引擎的识别模式和其他参数。
tesseractHocr.recognize('image.png', 'eng', { tessedit_char_whitelist: '0123456789' }) .then(hocr => { console.log(hocr); }) .catch(err => { console.error(err); });
recognizeBuffer(imageBuffer, lang, config)
使用 recognizeBuffer 方法可以对图像的 Buffer 数据进行 OCR 识别,并将结果以 HOCR 格式输出。其中,imageBuffer 参数为图像的 Buffer 数据,其他参数同 recognize 方法。
-- -------------------- ---- ------- ----- -- - -------------- ----- ----------- - ----------------------------- ------------------------------------------ ------ - ------------------------ ------------ -- ---------- -- - ------------------ -- ---------- -- - ------------------- ---
hocrToText(hocr)
使用 hocrToText 方法可以将 HOCR 格式的文本内容转换为纯文本格式。其中,hocr 参数为待转换的 HOCR 格式文本内容。
-- -------------------- ---- ------- ----- ---- - - ----- ------------------------------------ -------------- ----------- ------------- ------ ---- ---------------- ----------- ----------------- ---- - - --- ---- ------- --- ---- ----------------- -------------- ----------- -- - --- ----- -- --------------- ---------- ----------- -- - --- ----- ----- ---------------- ----------- ----------- -- - --- ---- ----- ----------------- ----------- ----------- -- - -- --- ------- -------------- ----- ----------------- ----------- ----------- -- - --- --- ------- -------------- ----- ----------------- ----------- ----------- --- - --- --- ------- -------------- ------- ----- ---------------- ----------- ----------- -- -- --- ---- ----- ----------------- ----------- ----------- -- -- -- --- ------- -------------- ----- ----------------- ----------- ----------- -- -- --- --- ------- -------------- ----- ----------------- ----------- ----------- --- -- --- --- ------- -------------- ------- ---- ------ ------ ------- ------- -- ----- ---- - ------------------------------- ------------------
getConfig()
使用 getConfig 方法可以获取当前 tesseract-hocr 实例的默认配置项。
const config = tesseractHocr.getConfig(); console.log(config);
setConfig(config)
使用 setConfig 方法可以设置当前 tesseract-hocr 实例的默认配置项。其中,config 参数为待设置的配置项。
tesseractHocr.setConfig({ lang: 'chi_sim' });
示例代码
下面是一个完整的示例代码,用于识别图像中的数字,并输出识别结果。
-- -------------------- ---- ------- ----- ------------- - -------------------------- ----- -- - -------------- ----- ----------- - ----------------------------- ------------------------------------------ ------ - ------------------------ ------------ -- ---------- -- - ----- ------ - --------------------------------------------- ---- ---------------------- -------- -- ---------- -- - ------------------- ---
总结
本文介绍了 npm 包 tesseract-hocr 的使用方法和示例代码,希望能够帮助读者更好地了解和掌握该 npm 包的知识。同时,也提供了一些有深度和学习指导意义的内容,如 HOCR 格式和 OCR 引擎配置等,帮助大家更好地理解和应用 tesseract-hocr。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/60055be481e8991b448d98d8