npm 包 cheerio-req-plus 使用教程-JavaScript中文网-JavaScript教程资源分享门户

在前端开发过程中，我们经常需要从页面中获取特定元素的数据，这个时候就需要用到一个名为 Cheerio 的库。Cheerio 是一个类 jQuery 语法的解析库，可以用来操作 HTML 和 XML 文档，它非常适用于爬虫和数据抓取，今天我们就来介绍一下 Cheerio 的增强版 - cheerio-req-plus。

Cheerio-req-plus 简介

Cheerio-req-plus 是一个 node.js 模块，它集成了 Request 和 Cheerio 两个模块，为用户提供了方便的 HTTP 请求和类 jQuery 语法的选择器，使得网站数据的抓取变得十分简单。在请求页面时，Cheerio-req-plus 可以有效地防止网站的反爬虫机制，以及解析网站中动态生成的数据。

安装 Cheerio-req-plus

我们可以通过 npm 安装 Cheerio-req-plus。在命令行输入以下命令：

npm install cheerio-req-plus

使用 Cheerio-req-plus

在使用 cheerio-req-plus 进行网站数据抓取前，我们需要先了解一些基本的概念和操作方法：

Cheerio-req-plus 的基本操作：

创建一个 cheerio 对象

使用 cheerio-req-plus 前，我们需要先创建一个 cheerio 对象，代码如下：

const cheerio = require('cheerio-req-plus');

发送一个 GET 请求

使用 cheerio-req-plus 发送一个 GET 请求很简单，代码如下：

const cheerio = require('cheerio-req-plus');
cheerio('https://www.baidu.com', ($) => {
  console.log($('title').text());
});

上面的代码将请求百度首页，然后通过 cheerio 的选择器方法筛选出百度首页的 title 元素，最后将其输出到命令行。

发送一个 POST 请求

和 GET 请求一样，我们同样可以使用 cheerio-req-plus 发送一个 POST 请求，代码如下：

-- -------------------- ---- -------
----- ------- - ----------------------------
----- -------- - -
  --------- -------
  --------- ---------
--
--------
  -
    ---- ----------------------------
    ------- -------
    ----- ---------
  --
  --- -- -
    -------------------------------
  -
--展开代码

这里的 postData 可以是一个简单的 Javascript 对象，也可以是一个 FormData 对象。

Cheerio-req-plus 的选择器

Cheerio-req-plus 的选择器和 jQuery 选择器非常相似，但有一些不同之处。由于 Cheerio-req-plus 是在服务器上运行的，所以它只能使用基于 DOM 的选择器，即不支持 any-pseudo-selector 等选择器。以下是一些基本的 Cheerio-req-plus 选择器：

元素选择器

首先是最基本的元素选择器：

$('element')

其中，element 是指 HTML 元素的名称，比如 'div', 'p'.

id 选择器

使用 id 选择器可以选择页面中指定的 id，代码示例：

$('#id_selector')

类选择器

使用类选择器可以选择页面中指定的 class：

$('.class_selector')

属性选择器

使用属性选择器可以选择页面中指定的带有指定属性值的元素：

$('element[attribute="selector_value"]')

其中，attribute 是指 HTML 元素的属性名，selector_value 是它的属性值。

Cheerio-req-plus 的操作方法

在 Cheerio-req-plus 中，我们除了可以使用选择器来获取元素以外，还可以使用一些基本的操作方法对元素进行操作：

text()

获取元素的文本内容，代码示例：

$('#id_selector').text()

html()

获取元素的内部 HTML 代码，代码示例：

$('#id_selector').html()

attr()

获取元素的指定属性值，代码示例：

$('img').attr('src')

注意：在 Cheerio 中，空白字符是被忽略的。如果我们需要获取元素内容的前后空白字符，则需要使用 text() 方法。

最后，让我们来看一段代码，它演示了如何使用 cheerio-req-plus 进行网站数据的抓取：

-- -------------------- ---- -------
----- ------- - ----------------------------
----- --- - ------------------------

------------ ----- -- -- -
  -- ----- -
    ----------------------
    -------
  -
  -------------------------------
  -------------------------------
  ----- -------- - ----- -- ----
  --------------------- ------ -- -
    --------------------------- - -- - - -----------------------
  ---
---展开代码

在上面的代码中，我们首先使用 cheerio-req-plus 请求百度新闻列表页，然后使用 text() 方法获取到页面的标题，并输出到命令行。接着，我们使用选择器 $('ul li a') 获取到页面中的新闻列表元素，并通过 each() 方法遍历所有的新闻项，并将其标题和链接内容输出到命令行。

总结

在本文中，我们详细地介绍了 Cheerio-req-plus 的使用方法，包括如何进行 HTTP 请求、选择器的技巧和元素操作方法等等。通过学习本文，读者可以快速掌握 Cheerio-req-plus 的使用技巧，并能够在实际开发中运用它。在此基础上，读者还可以深入学习 Node.js、爬虫和数据抓取等技术。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005725b81e8991b448e8855

npm 包 cheerio-req-plus 使用教程

Cheerio-req-plus 简介

安装 Cheerio-req-plus

使用 Cheerio-req-plus

Cheerio-req-plus 的基本操作：

Cheerio-req-plus 的选择器

Cheerio-req-plus 的操作方法

总结

纠错反馈

程序员教程

程序员面试题库