如何使用 Node.js + Express 实现爬虫功能-JavaScript中文网-JavaScript教程资源分享门户

在前端开发中，经常需要获取网站上的数据，而爬虫就是一种常见的方式。本文将介绍如何使用 Node.js 和 Express 框架来实现爬虫功能，包括如何设置路由、如何发起 HTTP 请求、如何解析 HTML 网页以及如何存储数据。

准备工作

在开始之前，需要安装 Node.js 和 Express 框架。可以通过以下命令进行安装：

npm install express

设置路由

首先，需要设置路由来接收爬虫请求，并返回爬取到的数据。在 Express 中，可以使用 app.get 方法来设置路由，如下所示：

const express = require('express');
const app = express();

app.get('/spider', (req, res) => {
  // TODO: 爬虫功能实现
});

以上代码中，当用户访问 /spider 路径时，会触发回调函数并执行爬虫功能。

发起 HTTP 请求

接下来，需要发起 HTTP 请求来获取网页的 HTML 内容。可以使用 axios 模块来发送请求，如下所示：

-- -------------------- ---- -------
----- ----- - -----------------

--------------
  -------------- -- -
    -- ----- -- ---- --
  --
  ------------ -- -
    -------------------
  ---

以上代码中，url 是需要爬取的网页地址。当请求成功时，会返回响应对象 response，其中包含了 HTML 内容。当请求失败时，会抛出错误并打印到控制台中。

解析 HTML 内容

获取到 HTML 内容后，需要对其进行解析，以获取需要的数据。可以使用 cheerio 模块来解析 HTML 内容，如下所示：

const cheerio = require('cheerio');

const $ = cheerio.load(response.data);
const title = $('title').text();
const content = $('#content').text();

以上代码中，response.data 是响应对象中的 HTML 内容。cheerio.load 方法可以将 HTML 内容转化为 DOM 对象，以方便进行操作。$('selector').text() 方法可以根据选择器获取对应元素的文本内容。

存储数据

最后，需要将爬取到的数据进行存储。可以使用 MongoDB 数据库来存储数据。在使用之前，需要先安装 mongoose 模块，如下所示：

npm install mongoose

然后，在代码中连接数据库并定义数据模型，如下所示：

-- -------------------- ---- -------
----- -------- - --------------------

---------------------------------------------- - ---------------- ---- ---

----- ------ - ----------------

----- ------------- - --- --------
  ------ -------
  -------- ------
---

----- ------- - ------------------------- ---------------

以上代码中，mongoose.connect 方法用于连接数据库，Schema 和 Article 分别用于定义数据模型和创建数据模型实例。

最后，可以将爬取到的数据存储到数据库中，如下所示：

-- -------------------- ---- -------
----- ------- - --- ---------
  ------ ------
  -------- -------
---

--------------
  -------- -- -
    ----------------------
  --
  ------------ -- -
    -------------------
  ---

以上代码中，article 是数据模型实例，article.save() 方法可以将实例保存到数据库中。

完整示例代码

-- -------------------- ---- -------
----- ------- - -------------------
----- ----- - -----------------
----- ------- - -------------------
----- -------- - --------------------

----- --- - ----------

---------------------------------------------- - ---------------- ---- ---

----- ------ - ----------------

----- ------------- - --- --------
  ------ -------
  -------- ------
---

----- ------- - ------------------------- ---------------

------------------ ----- ---- -- -
  ----- --- - --------------------------
  
  --------------
    -------------- -- -
      ----- - - ----------------------------
      ----- ----- - ------------------
      ----- ------- - ---------------------
      
      ----- ------- - --- ---------
        ------ ------
        -------- -------
      ---

      --------------
        -------- -- -
          ----------------------
        --
        ------------ -- -
          -------------------
        ---
      
      -----------------
    --
    ------------ -- -
      -------------------
      -----------------
    ---
---

---------------- -- -- -
  -----------------------
---

总结

本文介绍了如何使用 Node.js 和 Express 框架来实现爬虫功能，包括如何设置路由、如何发起 HTTP 请求、如何解析 HTML 网页以及如何存储数据。希望本文对读者有所帮助，同时也提醒读者在进行爬虫时需要遵守相关法律法规。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/65643eb1d2f5e1655dda91e3