npm 包@tessdata/eng 使用教程-JavaScript中文网-JavaScript教程资源分享门户

简介

在前端开发过程中，使用 OCR （Optical Character Recognition）技术对图片中的文本进行识别，是非常常见的需求。Tesseract 是一个优秀的 OCR 引擎，它提供了多语言的识别模型，并支持训练和优化模型。

这篇文章将介绍如何使用 npm 包@tessdata/eng，来使用 Tesseract 识别英文文本。

首先，在你的项目中安装@tessdata/eng，可以使用以下命令：

npm install @tessdata/eng

安装完成后，在需要使用的地方导入：

const Tesseract = require('tesseract.js');
const eng = require('@tessdata/eng');

然后，让 Tesseract 加载 eng 语言包：

Tesseract.load({
  langPath: 'https://cdn.skypack.dev/@tessdata/eng',
  langs: 'eng',
})

注意，我们将 langPath 设置为 '@tessdata/eng'，用于获取资源的 CDN URL，这避免了自己部署语言包和模型。我们还将 langs 参数设置为 'eng'，以便让 Tesseract 只加载 eng 语言包。

现在，我们可以使用 recognize 方法来识别英文文本了：

Tesseract.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', 'eng')
  .then(({ data: { text } }) => {
    console.log(text);
  })

在此示例中，我们通过 URL 引入了一张黑白图像，使用 recognize 方法并指定语言为「eng」对其进行识别。识别结果将被传递给 then 方法，我们只需要从中获取核心文本即可。

@tessdata/eng 是一个非常精确的英文 OCR 引擎，它包含了各种英文语言中常见的单词、短语和特殊字符，可以满足许多英文文本识别需求。此外，Tesseract.js 还支持自定义识别模型，通过训练和优化来提高识别准确性。

使用@tessdata/eng 非常简单，只需使用少量的代码即可实现 OCR 功能。如果你需要使用 JavaScript 开发英文 OCR 应用程序，那么学习和使用该库一定是一个好的开始。

@tessdata/eng 是一个非常精确的英文 OCR 引擎，通过 Tesseract.js 轻松实现英文文本识别。本文介绍了如何安装、使用该库，并包含了示例代码，希望可以帮助你更好地了解和学习它。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005625281e8991b448df8f1