npm 包 Crawley 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

Crawley 是一个基于 Node.js 的爬虫框架，提供了灵活而强大的爬虫能力。它采用 Promise 的方式来编写爬虫，支持可扩展的插件机制，使得使用 Crawley 开发一个爬虫变得十分简单。

本篇文章将以一个简单的示例来介绍 Crawley 的使用方法，并且深入解读 Crawley 的一些实现细节，希望能为大家带来一些帮助和启发。

环境准备

首先，我们需要一个 Node.js 环境，可以通过官网下载：https://nodejs.org/en/

安装完毕后，在终端（或命令行）中输入以下命令来检查是否安装成功：

node -v

如果输出了版本号，则说明安装成功。

接下来，我们需要使用 npm 来安装 Crawley：

npm install crawley --save

Crawley 就安装成功了！接下来，我们开始用 Crawley 开发一个爬虫。

编写示例爬虫

我们的示例爬虫需要从某个网站上面爬取书籍的信息（如书名、作者、出版时间等等），并将这些信息保存到一个文件中。

首先，我们需要创建一个新的 Node.js 项目，并且在项目目录下创建一个名为 index.js 的文件，按照如下代码编写爬虫程序：

-- -------------------- ---- -------
----- ------- - -------------------
----- -- - --------------

-- ------ ------ ------------ ---
----- ------- - --- ---------
    ----- -------
    ---------- ----------------------------------
---

-- ------ ------ --------
------------------- -------------- ---- -
    -- ----------
    ----- -------- - --------------------- -- ------------------
    ----- -------- - --------------------- ---------------------
    ----- ---------- - ------------------------------------
    ----- --------------- - --------------------- ------------------
    
    -- ---------
    ----- -------- - ------------ - ----------- - ------------- - ----------------------
    ---------------------------------- ----------
---

-- ----
----------------展开代码

代码中我们创建了一个名为 "book" 的爬虫，并指定了入口 URL。接着，我们创建了一个名为 "book" 的插件来处理页面，该插件会在爬取每个页面时被调用，从而提取出其中的书籍信息，并将这些信息写入文件中。

最后，我们启动爬虫，Crawley 会自动地跑起来，爬取每一页内容，并执行插件的回调函数。

分析爬虫实现

接下来我们逐个分析上述代码的实现细节，以便更深入地了解 Crawley。

创建 Crawley 实例

首先，我们需要创建 Crawley 的实例，以便用它来创建爬虫。如下所示：

const Crawley = require('crawley');
const crawler = new Crawley();

其中，require('crawley') 载入了 Crawley 模块，而 new Crawley() 则是创建了一个 Crawley 实例。我们可以通过传递配置参数来对实例进行配置，例如：

const crawler = new Crawley({
    name: 'book',
    entryUrls: [...],
    // ...其他配置参数（举例）
});

这里我们指定了爬虫的名称 book 和入口 URL，以便让 Crawley 知道我们需要爬取的网站是哪一个。其他的配置参数（例如并发数、超时时间等）可以通过在构造函数中传递对象进行设置。

使用插件

在 Crawley 中，我们可以使用插件来处理爬虫程序中要做的事情。插件其实就是一个 JavaScript 函数，并且接受两个参数：page 和 ctx。其中，page 是一个 Page 对象，表示当前正在处理的页面，而 ctx 则表示一个上下文对象，用于在插件之间传递数据。

下面我们来看一下插件的创建和使用方法：

crawler.use('book', function(page, ctx) {
    // 插件代码...
});

我们将一个名为 book 的插件注册到了爬虫中，并且传递了一个函数作为插件的回调函数。这个函数接受的两个参数分别是 Page 对象和上下文对象。

在插件中，我们可以通过 Page 对象来获取当前页面的 DOM 元素，并且提取出所需要的信息。例如，提取出页面上的书籍信息：

const bookName = page.$('.subject-list h2 a').text().trim();
const bookInfo = page.$('.subject-list .pub').text().trim();
const bookRating = page.$('.rating_num').text().trim();
const bookDescription = page.$('.subject-list p').text().trim();

上述代码中，我们使用了 Page 对象的 $() 方法来获取指定的 DOM 元素，从而提取出书籍信息。

最后，我们将提取出来的信息保存到文件中：

const fileInfo = `${bookName} | ${bookInfo} | ${bookRating} | ${bookDescription}\n`;
fs.appendFileSync('book_info.txt', fileInfo);

其中，fs.appendFileSync() 是 Node.js 的文件系统模块提供的 API，用于向文件中追加写数据。

启动爬虫

最后，我们需要启动 Crawley 的爬虫程序，让它自动地跑起来。我们可以通过调用 start() 方法来启动：

crawler.start();

这个方法会自动地开始爬取入口 URL，并且在爬取过程中调用注册的插件函数。

总结

本文介绍了 Crawley 的基本使用方法，并通过示例程序深入解析了 Crawley 的一些实现细节。Crawley 提供了强大的爬虫能力和灵活的插件机制，可以帮助我们快速地开发出高效、稳定的爬虫程序。希望读者通过本文的学习，能够更好地掌握 Crawley 的使用方法。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005540281e8991b448d15b4

npm 包 Crawley 使用教程

前言

环境准备

编写示例爬虫

分析爬虫实现

创建 Crawley 实例

使用插件

启动爬虫

总结

纠错反馈

程序员教程

程序员面试题库