npm 包 harvestjs 使用教程

前言

Harvestjs 是一个强大的前端 web 抓取工具,使用它可以方便地爬取数据、生成截图等。本文将介绍 harvestjs 的使用方法,供大家参考。

安装

使用 npm 进行安装即可:

--- ------- ---------

基本使用

在你的 JavaScript 代码中引入 harvestjs,然后通过它下面的start()方法启动一个任务:

----- --------- - --------------------
-----------------
  ---- ----------------------
--

参数

  • url:要抓取的网址。
  • callback:回调函数。当抓取完成后调用该函数,函数参数为一个对象,包含页面的内容和网页的基础信息。
  • captureSelector:要截图的元素的 CSS 选择器。
  • format:指定以哪种方式输出结果。可选值为:json(默认)、html、pdf。
  • viewport:设定网页的视图窗口大小,格式为{ width: number, height: number }
  • viewportDelay:设置网页加载完成后等待多少毫秒后开始截图操作。
  • useJquery:是否引用 jQuery 库。
  • debug:是否开启 debug 模式。

示例

-----------------
  ---- -----------------------
  --------- ------ -- -
    ----------------- -- ---------
  --
  ---------------- -----------
  ------- ------
  --------- -
    ------ -----
    ------- ---
  --
  -------------- -----
  ---------- -----
  ------ -----
--

进阶用法

除了基本用法,harvestjs 还提供了一些高级用法。

模拟登录

如果要抓取需要登录才能查看的网页,可以使用 harvestjs 的login()方法模拟登录:

-----------------
  ---- ----------------------------
  --------- -
    --------- ------
    --------- -----
  --
  --------- -- -- -
    ------------------ ----------
    -----------------
      ---- --------------------------------
      -- ---
    --
  -
--

分页抓取

通常需要抓取的数据都是分页展示的。这时可以借助 harvestjs 的循环功能抓取全部数据:

----------------
  ---- ----------------------------------
  --------- ------ -- -
    ------------------- ---------- ------- -------------
  --
  ------ --- ---
--

上述代码将从https://example.com/page_1https://example.com/page_10的网页上抓取数据,并输出每个页面的数据。

结束语

到此为止,我们已经介绍了 harvestjs 的基本使用和进阶用法,希望对大家有所帮助。如果大家还需要了解更多关于 harvestjs 的信息,请参考它的文档:https://github.com/knowsuchagency/harvestjs。

来源:JavaScript中文网 ,转载请联系管理员! 本文地址:https://www.javascriptcn.com/post/77112


猜你喜欢

  • npm 包 lazy-js 使用教程

    在前端开发中,JavaScript 是我们最常用的编程语言之一,而 npm 是最流行的 JavaScript 包管理器之一。在 npm 上有一个极其强大的 JavaScript 库叫做 lazy-js...

    5 年前
  • npm 包 loader 使用教程

    在前端开发中,我们经常需要使用外部 JavaScript 包来实现我们的功能。而这些包往往需要我们手动下载并引入,不仅繁琐,还可能会出现版本冲突等问题。这时,npm 包 loader 就可以发挥作用了...

    5 年前
  • npm 包 nicely-format 使用教程

    nicely-format 是一个简单易用的 JavaScript 库,可以让前端开发者更加方便地格式化和美化 JavaScript、JSON 和 XML 等文件。

    5 年前
  • npm 包 logging 使用教程

    在前端开发中,日志记录是非常重要的一环。预留好日志体系能够让项目更好地调试、维护,加快解决问题的速度。npm 包 logging 是一个方便且易于使用的日志框架,它允许开发人员在代码中添加日志记录语句...

    5 年前
  • npm 包 step-object 使用教程

    在前端开发中,我们经常需要对一个复杂的对象进行增删改查等操作。如果使用传统的面向对象方式,我们往往需要手动去写很多重复的代码。而 npm 包 step-object 可以让我们更加轻松地对对象进行操作...

    5 年前
  • npm 包 match-files 使用教程

    在前端开发中,有时候需要对文件进行匹配和过滤操作,这时候可以使用 NPM 包 match-files。本文将详细介绍该 npm 包的使用方法,包括安装、用法和示例。

    5 年前
  • npm 包 taglib 使用教程

    前言 在前端开发过程中,我们经常需要处理 HTML 等标记语言,对标记语言进行解析和操作。Taglib 是一个可以帮助我们处理 HTML 标记的 npm 包,它可以让我们更加便捷地操作标记,提高开发效...

    5 年前
  • npm 包 lodash-template 使用教程

    1. 简介 lodash-template 是一个基于 lodash 函数式编程库中的模板引擎,提供了一种方便、简单、高效的方法来处理模板。 通过使用“模板字符串”,你可以方便地生成标准化的文本,如 ...

    5 年前
  • npm包LMD使用教程

    LMD是一款非常优秀的Javascript模块打包工具,它是一款基于nodejs的npm包,可以很好地把多个Javascript模块打包到一起,提高整体的性能。在前端开发中,特别是Web应用开发中,使...

    5 年前
  • npm包dbox的使用教程

    简介 dbox是一个基于Node.js的npm包,它提供了一个简洁易用的 Dropbox API v2 客户端,可以快速轻松地使用 Dropbox 服务。dbox的主要功能包括上传下载文件,管理文件夹...

    5 年前
  • npm 包 gnu-tools 使用教程

    在前端开发中,我们经常会用到各种工具来提升开发效率和代码质量。而 gnu-tools 就是一个为开发者提供便捷的命令行工具的 npm 包。本文将详细介绍 gnu-tools 的使用方法,并提供一些示例...

    5 年前
  • npm 包 jsDAV 使用教程

    介绍 jsDAV 是一款基于 Node.js 的 WebDAV 服务器,能够在浏览器中访问 WebDAV 服务器上的文件,非常适合于 WebDAV 相关的开发工作。

    5 年前
  • npm 包 lively-loader 使用教程

    前言 随着前端技术和工具的不断发展,我们经常需要用到各种各样的 npm 包。今天我们要介绍的是一个叫做 lively-loader 的 npm 包,该包可以帮助开发者更方便地在开发时实时预览我们的项目...

    5 年前
  • npm 包 lively-davfs 使用教程

    在前端项目中,我们经常需要使用不同的第三方库来完成各种功能。npm 是 JavaScript 的包管理器,提供了数以千计的包,可以极大地提高前端开发的效率。本文将介绍一个名为 lively-davfs...

    5 年前
  • npm 包 doc-comments 使用教程

    前言 在日常的前端开发中,我们使用各种工具来提高开发效率、简化工作流程,其中最重要的就是 npm 包。对于代码的可维护性和可读性来说,文档是关键。因此,我们需要一种工具来生成文档并提高我们的代码质量。

    5 年前
  • npm 包 acorn5-object-spread 使用教程

    在前端开发中,我们时常会使用对象的拓展语法,也就是 ... 操作符,来简化代码和提高可读性。这个操作符在 ES6 中被引入,可是在有些情况下它并不能在浏览器或环境中得到完美支持。

    5 年前
  • npm 包 lively.notifications 使用教程

    简介 lively.notifications 是一个 npm 包,它提供了一种在 JavaScript 环境中轻松创建、管理通知的方法。通知可以是任何消息,包括简单的文本或复杂的 HTML 内容,包...

    5 年前
  • npm 包 lively.vm 使用教程

    简介 lively.vm 是一个支持在浏览器中运行 JavaScript 代码的 npm 包,它基于 vm.js 实现并扩展了一些功能。通过使用 lively.vm,我们可以在浏览器中动态加载 Jav...

    5 年前
  • npm 包 lively.storage 使用教程

    什么是 npm 包 lively.storage? lively.storage 是一个用于前端 Web 应用的 npm 包,它提供了一种简单的方法用于在客户端中存储和读取数据。

    5 年前
  • npm 包 lively.resources 使用教程

    随着前端开发的发展,现在有越来越多的 npm 包被广泛应用。其中一个非常有用的 npm 包是 lively.resources。 lively.resources 是一个前端库,它可以用于管理 URL...

    5 年前

相关推荐

    暂无文章