NPM 包 @tessdata/ara 使用教程

阅读时长 4 分钟读完

在前端开发过程中,有时需要用到 OCR(Optical Character Recognition,光学字符识别) 技术,将图片中的文字转化为计算机可以识别的文本。@tessdata/ara 是一款基于 Tesseract 的 JavaScript OCR 库,支持多种语言,并且可以通过 npm 方便地集成到项目中。

本文将介绍如何使用 @tessdata/ara 进行 OCR 文字识别,并提供一些有用的示例代码。

安装

使用 npm 安装 @tessdata/ara,需要先安装 Node.js。

使用

安装完 @tessdata/ara 后,可以通过 require 或 import 引入库。示例代码如下:

接下来就可以使用 ara.detectText 方法进行 OCR 文字识别了。

OCR 文字识别

ara.detectText 方法接收一个图片 URL,并返回一个 Promise 对象。Promise 对象解决后,返回一个包含识别结果的对象。

在这个例子中,识别结果会输出到控制台。data.text 属性包含了识别出的文本。

其他参数

detectText 方法还可以接收一个对象作为第二个参数,以配置更多参数。

上例中,我们通过 lang 参数指定了识别的语言为英语,psm 参数指定了页面分割模式。ara.detectText 方法支持的参数列表可参考官方文档

示例

下面是一个完整的示例,演示如何将一个图片中的文字转化为计算机可读的文本。

-- -------------------- ---- -------
--------- -----
------
  ------
    ----- ----------------
    ---------- ---------------
  -------
  ------
    -----
      ---- -----------------------------------
    ------
    ---- ------------------
    ------- --------------
      ------ --- ---- ---------------

      ----- --- - -----------------------------
      ----- ------ - ---------------------------------

      ----------------------- -
        ----- ------
        ---- --
      --
        -------- ---- -- -- -
          ------------------ - ---------
        --
        ------------ -- -
          --------------------
        --
    ---------
  -------
-------

总结

@tessdata/ara 是一款便捷的 OCR 库,可以帮助我们将图片中的文字转化为计算机可读的文本。在使用时,需要注意设置参数,以获得最佳的识别结果。本文提供了一些示例代码,供读者参考。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005624a81e8991b448df8b6

纠错
反馈