npm 包 recrawler 使用教程-JavaScript中文网-JavaScript教程资源分享门户

在前端开发过程中，有很多需要爬虫功能的场景，如数据采集、信息爬取等。而 recrawler 是一个优秀的 npm 包，可以帮助我们实现爬虫功能。本文将为大家详细介绍 recrawler 的使用方法，让大家能够在项目中高效地使用这个工具。

什么是 recrawler？

recrawler 是一个用 Node.js 编写的图像化网络爬虫引擎，可以满足多种爬虫应用场景。recrawler 通过配置规则来实现爬取特定页面内容。支持数据存储、数据筛选、支持 cookie、支持多线程等功能。

安装 recrawler

使用 npm 进行安装：

$ npm install recrawler

如何使用 recrawler

recrawler 使用基于 Promise 的接口，可以通过配置规则来实现爬取特定页面内容。

-- -------------------- ---- -------
----- ------- - ---------------------

----- ------- - --- ---------
  -------- -----
  ---------- ---
  -------- --
  ------------- -----
---

-------------
  ---- --------------------------
---------------------- -
  ------------------
---展开代码

参数说明

logFlag：是否开启日志输出，默认为 true。
workerNum：工作线程数，默认值为 10。
retries：重试次数，默认值为 3。
retryTimeout：重试间隔时间，默认值为 5000 毫秒。

页面规则配置

在使用 recrawler 时，需要配置一个页面规则，规定 recrawler 应该如何爬取目标页面。

-- -------------------- ---- -------
----- ---- - -
  ------ -
    --------- -----
    ----- -------
  --
  -------- -
    --------- --------------
    ----- -------
  --
  -------- -
    --------- ------
    ----- -------
    ----- ------
  --
--展开代码

开始爬取

在配置完页面规则后，就可以开始爬取了：

crawler.run({
  url: 'https://www.example.com',
  rule,
}).then(function(data) {
  console.log(data);
});

爬取到的数据格式

recrawler 爬取的数据格式为 JSON，各个字段的含义如下：

-- -------------------- ---- -------
-
  ---- ---
  ----- ---
  ----- -
    ------ ---
    -------- ---
    -------- ---
  --
-展开代码

处理特殊页面

有些页面需要进行特殊的处理，例如页面中包含了 AJAX 加载的内容，需要进行额外的处理。这时可以使用 ajax 配置。

-- -------------------- ---- -------
----- ---- - -
  ----- -
    --------- -----------
    ----- -------
  --
--

----- ------ - -
  ---- --------------------------
  ----- -
    ---- -------------------------------
    ------- -------
    ----- -
      ----- -------
    --
    -------- -
      ------------------- -----------------
    --
  --
  -----
--

--------------------------------------- -
  ------------------
---展开代码

总结

本文主要为大家介绍了 recrawler 的使用方法，涵盖了其安装、页面规则配置以及爬取数据的各种情况。在实际开发中，我们可以根据具体的业务场景来灵活使用 recrawler，可以大幅提高爬虫的效率。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005539481e8991b448d0c54

npm 包 recrawler 使用教程