npm 包 rt-scraper 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

rt-scraper 是一款 Node.js 的包，它提供了一种简单而强大的方式，可以帮助我们收集和处理网页上的数据，并将其转化成一个可操作的 JavaScript 对象。这对于任何需要从互联网上快速获取数据的人或组织来说，都是非常有用的。

在本篇文章中，我们将介绍 rt-scraper 的基本概念，使用方法，以及实际问题解析，帮助你轻松地开始使用它。

安装

使用 npm 安装 rt-scraper：

npm install rt-scraper

安装完毕后，在你的 JavaScript 文件的顶部添加以下代码：

const rtScraper = require('rt-scraper');

使用方法

想要使用 rt-scraper 收集和处理网页上的数据，我们需要确定以下内容：

我们要从哪个网站收集数据？
我们要获取哪些数据？
怎样从目标网站上获取这些数据？

构建爬取数据的页面

首先，我们需要为我们要爬取数据的网站编写一个脚本。要创建这个脚本，我们可以通过以下步骤来完成：

打开 Chrome 浏览器，并打开 Chrome 开发者工具。
在打开的页面上点击右上角的按钮，选择 More tools -> Developer tools，在开发者工具中选择 Network 选项卡。
在选择 Network 选项卡之后，我们可以看到许多来自于该页面的请求。其中，我们需要找到一个 GET 请求，它返回了我们需要的所有数据。将其选中并复制请求 URL 的链接。
使用 rt-scraper.get 方法获取数据。

已知想要获取我们从 https://news.ycombinator.com/ 网站上找到的文章链接和标题获取它们的 URL 和标题。

我们需要打开 Developer Tools 并找到 get 请求：

将链接复制到 JavaScript 脚本中，然后我们需要指定 rt-scraper 所返回的数据结构的属性。对于每个数据对象，我们都需要包含一个属性来代表它的 CSS 选择器，一旦获取了页面的 HTML 内容，rt-scraper 就会使用这些选择器来查找每个元素的内容。

const dataDefinition = {
  articleLinks: 'a.storylink@href',
  articleTitles: 'a.storylink',
};

rt-scraper 使用 CSS 选择器语法，并支持请问 @text 、@html 以及 @src 来访问元素的文本、HTML、和 src 属性。如果你想查找多个相同的选择器，可以使用 , 来分隔它们。

const scraper = new rtScraper();
const url = 'https://news.ycombinator.com/';

scraper.get(url, dataDefinition, (error, data) => {
  if (error) throw error;

  console.log(data);
});

在上面的代码中，我们首先创建了一个新的 rtScraper 实例，然后使用 get() 方法来请求由 url 指定的网址，并为其提供数据定义对象。一旦 rt-scraper 完成了页面的爬取，就会调用我们指定的回调函数并将数据作为其参数传递给它。

如果我们只需要某些特定的数据而不是整个页面，可以使用 select() 方法来选择具有特定属性和值的元素。

例如，如果我们想获取 https://www.github.com 上搜索结果页面的前五个结果的标题链接和源代码链接。

-- -------------------- ---- -------
----- ------- - --- ------------
----- --- - -----------------------------------------------------

----- -------------- - -
  ---------- -------------------------
  -------- -------------------------
--

------------------- --------------- ---- -- -
  ------------------
---

在上述代码中，我们首先创建了一个新的 rtScraper 实例，然后使用 select() 方法来选择具有特定属性的元素，在这种情况下选择 .f4.text-normal>a，并获取其 href 属性。同样，我们还选择其他链接，并使用 @href 获取它们的 href 属性。

实际问题解析

当我们使用事先准备的示例代码测试 rt-scraper 时，有时会遇到一些问题。让我们看一下这些问题以及如何解决它们。

问题 1：数据解构和爬取的内容不匹配

一些情况下，我们可能遇到定义的数据结构和实际爬取的内容不匹配的问题。这可能是由于网站的布局或 HTML 结构更改而导致的，我们需要确保适当地更新代码以匹配类似的变化。更好地做法是增加容错性以满足代码在多种情况下的兼容性。

问题 2：无法在 Node.js 中使用 JSDOM 模块

当我们尝试在 Node.js 中使用 rt-scraper 函数时，我们可能会遇到 JSDOM 模块错误的问题。这是因为 JSDOM 模块在安装时已经过期，并且可以在 Node.js 版本更高的实例中正常工作的解决方案是，将 Node.js 更新到当前版本。

问题 3：在爬取网站时速度很慢

当我们尝试爬取大型网站时，可能会遇到爬取速度过慢的问题。这是由于 rt-scraper 需要一些时间来解析和检索页面的所有内容。我们可以通过引入一个缓存层来解决这个问题，该层将存储最近爬取的页面，并在稍后的代码执行中重复使用。

结论

rt-scraper 是一个出色的 JavaScript 应用程序，适用于任何需要在互联网上快速收集和处理数据的人或组织。本文介绍了使用该应用程序的方法以及可能出现的现实问题，为你提供了一种精心编写的程序来进行数据收集和处理。

您可以探索更多的功能和用法，在充分理解后可以对其做出进一步的自定义和修改。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/6005547b81e8991b448d1c19