npm 包 @tessdata/ces 使用教程

前言

在前端开发中,图像识别技术日益成熟,OCR(Optical Character Recognition,光学字符识别)也是其中之一,可以将图片中的文字转换为可编辑的文本。而 @tessdata/ces 正是一个 OCR 包,可以实现图像识别与提取文本,让我们在日常工作中更加高效。

安装

在使用前,需要先进行安装。使用 npm 即可:

--- ------- -------------

使用

加载模型

首先,我们需要加载 OCR 模型,通过下面的代码实现:

----- - ------------ - - -----------------------
----- ------ - --------------
  -- -------
  --------- ------------------------------------------------------
  ----- -----
--

----- -------------
----- ------------------------------
----- ----------------------------

我们通过 createWorker 方法来创建一个 tesseract.js 的 worker 对象,并且加载中文语言包 chi_sim.traineddata.gz,初始化完成之后,就可以开始提取文本了。

提取文本

下面是一个基础的例子,通过图片提取中文:

----- - ------------ - - -----------------------
----- ------ - --------------
  --------- ------------------------------------------------------
  ----- -----
--

----- ----------- - --------------------------------

----- ------ - ----- -- -- -
  ----- -------------
  ----- ------------------------------
  ----- ----------------------------
  ----- - ---- - - ----- -----------------------------
  ----------------------
  ----- ------------------
-

-----------------------------

其中,我们通过 fs 模块读取图片文件,然后传入到 worker.recognize 方法中,进行 OCR 处理,最终通过 data.text 属性可以获取到提取的文本。

监听 OCR 过程

如果图片过大,OCR 处理需要较长时间,为了方便,我们可以通过监听的方式,了解 OCR 处理的进程。下面是一个监听进度的例子:

----- - ------------ - - -----------------------
----- ------ - --------------
  --------- ------------------------------------------------------
  ----- -----
--

----- ----------- - --------------------------------

----- ------ - ----- -- -- -
  ----- -------------
  ----- ------------------------------
  ----- ----------------------------
  ----------------------------- -
    -- -- -------- --
    --------- ------ -- -
      -----------------
    --
  --
  ----- - ---- - - ----- ------------------------ --- --------
  --------------------------------- -----
  ---------------- -----------
  ----- ------------------
-

-----------------------------

worker.recognize 方法中,传入一个 options 对象,监听 progress 事件,在事件中,我们可以获取到 OCR 处理的进程,从而让我们更好地了解 OCR 的处理情况。

总结

通过本文,我们了解到了 @tessdata/ces 包的使用方法,实现了图片 OCR 文本提取功能,并且了解了如何监听 OCR 处理进程。这将会在我们的日常工作中提升效率,同时也为图像识别科技的发展提供了帮助。

来源:JavaScript中文网 ,转载请联系管理员! 本文地址:https://www.javascriptcn.com/post/6005624b81e8991b448df8c0


猜你喜欢

  • npm 包 core-js-webpack3-plugin 使用教程

    在进行前端开发时,可能会遇到项目兼容性问题,因为不同版本的浏览器支持不同的JavaScript语言特性。此时我们可以通过使用 core-js-webpack3-plugin 这个npm包来解决这个问题...

    3 年前
  • npm 包 sails-enum-util 使用教程

    简介 sails-enum-util 是一个用于在 Node.js 项目中使用枚举的 npm 包。它可以轻松地将枚举定义成一个对象,并提供了一组实用工具函数,方便我们在项目中使用枚举。

    3 年前
  • npm 包 typewriter-vanilla 使用教程

    写作是一件非常有意思和抑制压力的事情,但在写作过程中,我们难免也会遇到一些困难,比如如何让你的编辑器有一个不错的打字机效果,这时候,我们就不得不借助一些工具了。 在本篇文章中,我们将带大家了解一种非常...

    3 年前
  • npm包d3-timelines使用教程

    前言 在前端开发中,有时需要在网页上展示时间轴,事实上,时间轴组件在很多场合都需要使用,比如展示项目进展时序、展示新闻历史等等。d3-timelines就是一款在前端开发中使用的时间轴组件。

    3 年前
  • npm 包 webslides-animation 使用教程

    在前端开发过程中,经常需要使用现成的库来实现一些功能。npm 是前端工具包管理工具,可以方便地查找、安装和使用一些开源库。本文介绍一个 npm 包:webslides-animation。

    3 年前
  • npm 包 @tessdata/hat 使用教程

    随着前端技术的不断发展,越来越多的开发者开始使用 OCR 技术来处理图像中的文本。而 @tessdata/hat 这个 npm 包则是帮助开发者更加方便地在 Node.js 环境中使用 Tessera...

    3 年前
  • npm 包 @tessdata/ind 使用教程

    在前端开发中,使用 OCR(Optical Character Recognition)技术进行图像识别是很常见的需求。而 @tessdata/ind 是一个基于 OCR 技术的 npm 包,它可以识...

    3 年前
  • npm 包 fastfib-demo-test 使用教程

    简介 npm 是 Node.js 的包和模块管理器。它可以让开发者很方便地分享和使用已经开发好的组件和代码。fastfib-demo-test 是一个 npn 包,它可以帮助开发者快速运行斐波那契数列...

    3 年前
  • npm 包 tlvince-material-ui-icons 使用教程

    介绍 tlvince-material-ui-icons 是一个基于 React 和 Material-UI 的图标库,它包含了一系列常用的 Material Design 图标,可以方便地在 Rea...

    3 年前
  • npm 包 print-shape 使用教程

    简介 print-shape 是一个可以用于绘制图形的 npm 包,可以在前端开发中快速生成图形展示。 该包支持绘制基本的形状,如矩形、圆形、三角形等,同时还支持自定义形状,并支持填充颜色、描边颜色、...

    3 年前
  • npm 包 word-metrics 使用教程

    在前端开发过程中,处理字符串的需求很常见,而一些字符串处理的数据指标比如字符长度、词汇数、句子数等等,如果能够统一封装成一个 npm 包使用,将会大大提升开发效率。

    3 年前
  • npm 包 @tessdata/iku 使用教程

    简介 @tessdata/iku 是一个提供日语文本识别能力的 npm 包,可以用来自动识别日语文本并进行机器翻译等操作。 安装 在使用 @tessdata/iku 之前,需要先确保已经安装了 Nod...

    3 年前
  • npm 包 @tessdata/hun 使用教程

    在前端开发中,文字识别是一个很重要的问题。OCR (Optical Character Recognition,光学字符识别)技术可以将图片中的文字转换为可编辑的文本。

    3 年前
  • npm 包 angular2-datatable-nabin 使用教程

    前言 前端开发中,针对数据表格的需求十分常见,而 Angular 框架提供了丰富的解决方案。其中,angular2-datatable-nabin 是一个便捷的 npm 包,可以快速地实现数据的分页、...

    3 年前
  • npm 包 @tessdata/isl 使用教程

    前端开发人员从来不缺工具和库,其中一个非常实用的工具是 OCR(Optical Character Recognition),中文称为光学字符识别技术。光学字符识别可以将图像中的文字转换成可读的文本,...

    3 年前
  • npm 包 @tessdata/ita 使用教程

    前言 随着人工智能技术的发展,图像处理已经成为了很多项目中必不可少的一部分。而光学字符识别(OCR)技术则是图像处理中的一个重要应用。而 @tessdata/ita 便是一款前端 OCR 工具,下面我...

    3 年前
  • npm 包 @tessdata/ita_old 使用教程

    npm 包 @tessdata/ita_old 使用教程 前言 在计算机视觉和自然语言处理相关领域中,Tesseract 是一个非常流行的 OCR(Optical Character Recognit...

    3 年前
  • npm 包 @tessdata/jav 使用教程

    在前端开发中,处理图像是一个必备的功能。而OCR(Optical Character Recognition)技术使得机器可以识别并理解图像中的文本信息,从而进一步扩展了图像的处理能力。

    3 年前
  • npm 包 @tessdata/kan 使用教程

    在前端开发中,常常会遇到需要识别图片中文字的场景,这时候可以使用 tesseract.js 这个优秀的 OCR(Optical Character Recognition,光学字符识别)库来实现。

    3 年前
  • npm 包 @tessdata/kat_old 使用教程

    简介 在前端开发中,处理文字图片是一个很常见的任务。而 OCR 技术则提供了将图像中的文字转化为计算机可读的文本的解决方案。而在 OCR 技术中,Tesseract 是一款优秀的 OCR 引擎。

    3 年前

相关推荐

    暂无文章