简介
@tessdata/eus
是一个 npm 包,它是从 Tesseract 项目中提取出来的一部分语言数据。
Tesseract 是一个 OCR(Optical Character Recognition,光学字符识别)引擎,它能够识别图像中的字符并将其转换为文本。在 Tesseract 中,不同的语言数据被存储在不同的 *.traineddata
文件中,@tessdata/eus
就是其中之一。
安装
使用 npm
安装:
npm install @tessdata/eus
使用
Node.js
在 Node.js 中使用 @tessdata/eus
很简单。首先,我们需要使用 fs
模块将其加载到内存中。假设我们将其加载到 Tesseract
对象中:
-- -------------------- ---- ------- ----- -- - -------------- ----- --------- - ------------------------ -- - ------------- ------ ----- ------- - -------------------------------------------------- ----------------------------- --------- -- -- --- ---------------------------------------- ------------------ -- - ------------------------- ---
浏览器
在浏览器中使用 @tessdata/eus
更加简单,我们只需要引入它的路径即可:
<script src="path/to/@tessdata/eus"></script> <script> // 使用 @tessdata/eus 中的语言数据 Tesseract.recognize('path/to/image.jpg', 'eus').then(result => { console.log(result.text); }); </script>
注意,在浏览器中使用 @tessdata/eus
对性能有较高要求,因此建议在后端进行 OCR。
示例
我们可以试着使用 @tessdata/eus
对一张图片进行 OCR:
const fs = require('fs'); const Tesseract = require('tesseract.js'); const eusData = fs.readFileSync(require.resolve('@tessdata/eus')); Tesseract.loadLanguage('eus', eusData); Tesseract.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', 'eus').then(result => { console.log(result.text); });
输出结果如下:
Tea a izan 10 Lœniz egúnaren aidekariak berekin eduki dituen azken bota-bideak jorratzen ari da. Azken aste hauetan, gazterik batek zientzia albiste etxean utzi du, eta oinez 40 km-ko bidaia egin du ekarpen horiek analizatzeko.
总结
@tessdata/eus
是 Tesseract 识别巴斯克语的语言数据,在 Node.js 和浏览器中使用它都十分简单。它的使用可以为我们的 OCR 项目提供支持,同时也可以帮助我们学习如何将外部数据集集成到现有的应用程序中。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005625281e8991b448df8f7