npm 包 metalsmith-robots 使用教程

阅读时长 4 分钟读完

什么是 metalsmith-robots?

metalsmith-robots 是一个基于 metalsmith 的插件,用于生成 robots.txt 文件。robots.txt 文件是一个在网站根目录下的文本文件,用于指定搜索引擎爬虫在访问该网站时的爬取策略。该文件的编写规则是由全球知名搜索引擎 Google 和 Yahoo 共同发布的,可以帮助网站提高爬取效率并防止被恶意爬虫攻击。

如何使用 metalsmith-robots?

安装

首先需要在项目中安装 metalsmith 和 metalsmith-robots。

引入 plugin

在使用 metalsmith 生成网站的代码中引入 metalsmith-robots:

在这段代码中,我们将 robots 插件作为 metalsmith 的一个中间件使用,以在生成网站的过程中自动生成一个 robots.txt 文件。

配置

在 Metalsmith 的配置文件中,可以配置 metalsmith-robots 插件的一些参数。

-- -------------------- ---- -------
----- ---------- - ----------------------
----- ------ - -----------------------------

---------------------
  -------------
    ----------- ------------- -----
    --------- -----------------
    -------- ---------------------------------
  ---
  ---------

metalsmith-robots 支持以下参数:

  • userAgents - 一个数组,表示允许访问的搜索引擎爬虫(User-Agents)。如果该参数不存在,那么所有的搜索引擎爬虫都可以访问网站。
  • disallow - 一个数组,表示禁止访问的文件或文件夹。网站中任何一个 URL 包含该参数中的任意一个字符串时,爬虫都不能访问该 URL。
  • allow - 一个数组,表示允许访问的文件或文件夹。网站中任何一个 URL 包含该参数中的任意一个字符串时,爬虫都可以访问该 URL。
  • sitemap - 一个字符串,表示网站的 sitemap URL。

示例

下面是一个完整的示例,包括配置文件和网站文件夹结构:

-- -------------------- ---- -------
----- ---------- - ----------------------
----- ------ - -----------------------------

---------------------
  -------------
    ----------- ------------- -----
    --------- -----------------
    ------ ------
    -------- ---------------------------------
  ---
  ---------

示例中,我们限制了只有 Googlebot 和所有搜索引擎爬虫的访问。禁止访问名为“secret-page”的文件或文件夹,但允许访问网站根目录。在文件夹结构中,我们可以简单地模拟该配置所指定的策略:

-- -------------------- ---- -------
-----
--- ---------
--- --------
--- -----------------
--- --- ----------
--- --- --------------
---     --- ------------------
--- -----------
--- ----------

在生成后的 robots.txt 文件中,我们可以看到自动生成的策略:

-- -------------------- ---- -------
----------- ---------
--------- ------------

----------- -
--------- ------------

------ -

-------- -------------------------------

通过这个示例,我们可以看到 metalsmith-robots 插件与搜索引擎爬虫的交互方式,以及如何使用代码自动生成网站的 robots.txt 文件。

结论

metalsmith-robots 是一个非常有用的插件,可以帮助网站进行搜索引擎优化。其使用方法也相当简单,只需要在 Metalsmith 的配置文件中引用即可。与此同时,我们也可以根据自己的需求,灵活地配置 robots.txt 文件的策略,以适应不同的情况和需求。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/5eedb60db5cbfe1ea06114cd

纠错
反馈