npm 包 robots-parse 的使用教程-JavaScript中文网-JavaScript教程资源分享门户

npm 包 robots-parse 的使用教程

光是爬虫不够，还要智能化，而智能爬取，必然离不开 robots.txt 文件。npm 包 robots-parse 就是一款能够解析该文件的 Node.js 库，下面就为大家详细讲解一下该库的使用方法。

安装

可以使用 npm 命令安装该库：

npm install robots-parse --save

使用

创建解析器实例

----- ------------ - ------------------------
----- ------ - ---------------------------------------------------

通过上述代码片段，我们创建了一个实例，并将其指向的地址设置为 https://www.example.com/robots.txt。

isAllowed 方法

该方法用于判断我们是否能够访问某个 URL。

--------------------------------------------------- ----------------
  ------------ -- ---------------------

其中第一个参数表示我们想要访问的 URL，第二个参数表示我们设置的 User-Agent。该方法返回一个 Promise 对象，如果结果为 true，则说明我们可以访问该地址。

getCrawlDelay 方法

该方法用于获取我们在 robots.txt 文件中设置的 Crawl-delay。

-------------------------------------
  ------------ -- ---------------------

getCrawlDelay 方法的唯一参数是我们设置的 User-Agent，该方法返回一个 Promise 对象，返回的结果是一个数字，表示我们该设置的 Crawl-delay。

getSitemap 方法

该方法用于获取我们在 robots.txt 文件中设置的 Sitemap。

-------------------
  ------------ -- ---------------------

getSitemap 方法没有参数，返回的结果是一个字符串，表示我们在 robots.txt 中设置的 Sitemap。

示例代码

----- ------------ - ------------------------
----- ------ - ---------------------------------------------------

-------- ---------- -
  --------------------- ----------------
    ------------ -- -
      -- -------- -
        ----------------- ---------
        -- ----
      - ---- -
        ----------------- ---------
      -
    --
    ------------ -- --------------------
-

-----------------------------------------
----------------------------------------

-------------------------------------
  ------------ -- ------------------------------
  ------------ -- --------------------

-------------------
  ------------ -- ------------------------------
  ------------ -- --------------------

指导意义

通过本文的介绍，你学会了如何使用 npm 包 robots-parse 来解析 robots.txt 文件，这对于处理爬虫时的访问规则非常有用。同时，本文也讲解了如何使用 Promise 进行异步编程，这是 Node.js 编程的基础之一。

对于想要学习 Node.js 和前端开发的朋友，本文也是一个很好的入门教程。

来源：JavaScript中文网，转载请联系管理员！本文地址：https://www.javascriptcn.com/post/60067355890c4f7277583b56