npm 包 kerouac-robotstxt 使用教程-JavaScript中文网-JavaScript教程资源分享门户

介绍

NPM是一个 JavaScript 包管理器，可用于在项目中查找、安装和管理 JavaScript 包。其中，包括一些不同类型的包，比如 Web 开发中使用的工具包和库。其中一个工具包就是 kerouac-robotstxt。Kerouac-robotstxt 是一个基于 Node.js 构建的库，用于根据 robots.txt 规则限制 Web 爬虫的访问。

在本文中，我们将探讨如何在项目中使用 kerouac-robotstxt 包，以及如何集成它来限制爬虫的访问。我们将看到如何设置和使用 RobotsTxt 组件，以及如何在应用程序中实现它。

安装

安装该包非常简单，只需在终端中运行以下命令：

npm install kerouac-robotstxt

使用

安装完成后，我们需要在项目中引入该库：

const RobotsTxt = require('kerouac-robotstxt');

然后，我们可以创建一个 RobotsTxt 实例:

const robots = new RobotsTxt();

然后，我们可以使用 setRules() 方法来设置 robots.txt 规则：

const robotsRules = [
  'User-agent: *', // 不区分是哪个爬虫
  'Disallow: /admin', // 不允许访问网站管理界面
  'Disallow: /search', // 不允许访问搜索界面
  'Allow: /blog' // 允许访问博客页面
];

robots.setRules(robotsRules);

现在，我们已经可以通过调用 robots.allowed('/url') 方法来检查 URL 是否允许爬虫访问：

const allowed = robots.allowed('/blog/post-123'); // 判断 /blog/post-123是否允许被爬虫访问
console.log(allowed); // true， 允许访问

要注意的是，如果找不到对应 URL 的规则，返回值也是 true。如果规则中包含 Disallow: / 条件，则该网站上的所有 URL 都不允许被爬虫访问。

示例代码

-- -------------------- ---- -------
----- --------- - -----------------------------
----- ------ - --- ------------

-- ------
----- ----------- - -
  ------------ ---
  ---------- --------
  ---------- ---------
  ------- ------
--

-----------------------------

-- -- --- --------
----- ------- - ---------------------------------
--------------------- -- ----- ----

总结

在 Web 开发中，使用 kerouac-robotstxt 包是一个非常强大的工具。它可以让我们更好地控制爬虫的访问，并保护我们的网站免于攻击。通过本文的介绍，您应该已经学会了如何安装和使用 kerouac-robotstxt 包，以及如何为其设置爬虫规则。尝试在自己的项目中使用它，以保护自己的网站！

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/60066efd4c49986ca68d8a43