Node.js 爬虫：获取并存储网页内容-JavaScript中文网-JavaScript教程资源分享门户

在前端开发中，我们经常需要从网页中获取数据。虽然很多网站提供了 API 接口，但是有些网站并没有提供相应的接口，这时候我们就需要用到爬虫技术。

Node.js 是一个非常适合用来编写爬虫的工具，它拥有强大的异步 I/O 和事件驱动能力，可以高效地处理大量的数据。在这篇文章中，我们将介绍如何使用 Node.js 编写一个简单的爬虫，来获取并存储网页内容。

爬虫的基本原理

爬虫的基本原理是模拟用户访问网站，从网站中获取数据。通常情况下，爬虫需要完成以下几个步骤：

发送 HTTP 请求，获取网页内容
解析网页内容，提取需要的数据
存储数据

在 Node.js 中，我们可以使用第三方模块 request 和 cheerio 来完成上述步骤。

获取网页内容

首先，我们需要使用 request 模块发送 HTTP 请求，获取网页内容。request 模块提供了一个 get 方法，可以用来发送 GET 请求。例如，我们要获取百度首页的内容，可以使用以下代码：

-- -------------------- ---- -------
----- ------- - -------------------

------------------------------------ ----- ---- ----- -- -
  -- ----- -
    -------------------
    -------
  -
  ------------------
---

上述代码中，我们使用 request.get 方法发送了一个 GET 请求，请求的 URL 是 https://www.baidu.com，回调函数中的 body 参数就是获取到的网页内容。

解析网页内容

获取到网页内容之后，我们需要使用 cheerio 模块来解析网页内容，提取需要的数据。cheerio 模块是一个类似于 jQuery 的库，可以方便地使用 CSS 选择器来操作 DOM。

例如，我们要获取百度首页的搜索框的 HTML 代码，可以使用以下代码：

-- -------------------- ---- -------
----- ------- - -------------------
----- ------- - -------------------

------------------------------------ ----- ---- ----- -- -
  -- ----- -
    -------------------
    -------
  -
  ----- - - -------------------
  ----- ------------- - ----------------
  ---------------------------
---

上述代码中，我们首先使用 cheerio.load 方法将网页内容转换为一个可操作的 DOM 对象，然后使用 $('#kw') 选择器选中搜索框元素，最后使用 .html() 方法获取搜索框的 HTML 代码。

存储数据

获取到需要的数据之后，我们需要将数据存储起来。在 Node.js 中，我们可以使用 fs 模块来进行文件操作，例如将数据写入到文件中。

例如，我们要将百度首页的搜索框的 HTML 代码写入到一个名为 search-box.html 的文件中，可以使用以下代码：

-- -------------------- ---- -------
----- ------- - -------------------
----- ------- - -------------------
----- -- - --------------

------------------------------------ ----- ---- ----- -- -
  -- ----- -
    -------------------
    -------
  -
  ----- - - -------------------
  ----- ------------- - ----------------
  ------------------------------- -------------- --- -- -
    -- ----- -
      -------------------
      -------
    -
    ------------------- --- ---- ---- --- ---- ------- -- ------------------
  ---
---

上述代码中，我们使用 fs.writeFile 方法将搜索框的 HTML 代码写入到 search-box.html 文件中。

示例代码

下面是一个完整的示例代码，它可以获取百度首页的搜索框的 HTML 代码，并将其写入到一个名为 search-box.html 的文件中。

-- -------------------- ---- -------
----- ------- - -------------------
----- ------- - -------------------
----- -- - --------------

------------------------------------ ----- ---- ----- -- -
  -- ----- -
    -------------------
    -------
  -
  ----- - - -------------------
  ----- ------------- - ----------------
  ------------------------------- -------------- --- -- -
    -- ----- -
      -------------------
      -------
    -
    ------------------- --- ---- ---- --- ---- ------- -- ------------------
  ---
---

总结

本文介绍了如何使用 Node.js 编写一个简单的爬虫，来获取并存储网页内容。爬虫是一项非常有用的技术，在实际开发中可以用来获取数据、监控网站、自动化测试等。希望本文能够对大家有所帮助。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/65e3cf5c1886fbafa4018152