npm 包 links-parser 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

在前端开发中，经常需要获取一个网页中的所有链接。手动解析 HTML 是一个繁琐的过程，会消耗大量的时间和精力。而 links-parser 就是一个非常好用的工具来帮助我们实现这个功能。

links-parser 是一个基于 Node.js 的 npm 包，它可以解析一个 HTML 字符串，并提取出其中的所有链接。本篇教程将详细介绍如何使用 links-parser 来获取指定 HTML 页面中的所有链接。

安装

在使用 links-parser 之前，需要先安装它。打开终端，执行以下命令：

npm install links-parser

使用

当 links-parser 安装完成后，就可以开始使用它了。下面是一个例子，使用 links-parser 提取一个 HTML 页面中的所有链接：

-- -------------------- ---- -------
----- ---------- - ------------------------

----- ---- - -
  ------
    ------
      ------------ ------ ------------
    -------
    ------
      ---------- -----------
      -------- -- -- ----------------------------------------------
      ----
        ------ ----------------------------
        ------ --------------------------------
      -----
    -------
  -------
--

----------------------------- -- -
  -------------------
---展开代码

运行以上代码，输出结果如下：

[
  'https://www.example.com',
  '/about',
  '/contact'
]

可以看到，使用 links-parser 很容易就可以提取出这个页面中的所有链接。

获取不同类型链接

我们可以通过不同的参数来指定要获取哪种类型的链接。

获取所有链接

默认情况下，links-parser 会返回所有类型的链接，包括 HTTP、HTTPS、FTP 等。例如：

linkParser(html).then((links) => {
  console.log(links);
});

获取 HTTP 链接

如果只想要获取 HTTP 链接，可以将 options 对象中的 urlFilter 字段设置为一个正则表达式，例如：

const options = {
  urlFilter: /^http:/
};

linkParser(html, options).then((links) => {
  console.log(links);
});

获取 HTTPS 链接

如果只想要获取 HTTPS 链接，可以将 options 对象中的 urlFilter 字段设置为一个正则表达式，例如：

const options = {
  urlFilter: /^https:/
};

linkParser(html, options).then((links) => {
  console.log(links);
});

获取指定域名下的链接

如果只想要获取某个域名下的链接，可以将 options 对象中的 urlFilter 字段设置为一个正则表达式，例如：

const options = {
  urlFilter: /^https?:\/\/(www\.)?example\.com/
};

linkParser(html, options).then((links) => {
  console.log(links);
});

详细配置

除了上述的参数外，links-parser 还提供了其他一些可以进行配置的参数，在特定场景下可以起到很好的作用。以下是一些常用的详细配置参数：

`aFilter`

用于指定要解析的链接所在的元素，默认为 a 标签。如果需要解析其他元素中的链接，可以将 aFilter 字段设置为一个 CSS 选择器。

例如，在以下 HTML 中，我们需要获取所有 span 标签中的链接：

<html>
  <body>
    <span><a href="https://www.example.com">example.com</a></span>
    <span><a href="https://www.example.org">example.org</a></span>
  </body>
</html>

可以使用以下方式来获取所有 span 标签中的链接：

-- -------------------- ---- -------
----- ---- - -
  ------
    ------
      -------- -----------------------------------------------------
      -------- -----------------------------------------------------
    -------
  -------
--

----- ------- - -
  -------- ----- --
--

---------------- --------------------- -- -
  -------------------
---展开代码

`excludeTags`

一个字符串数组，用于指定要排除的 HTML 标签。当设定了这个参数后，links-parser 会忽略这些标签中的链接。例如：

-- -------------------- ---- -------
----- ---- - -
  ------
    ------
      ----- --------------------------------------------------
      ------- -----------------------
    -------
  -------
--

----- ------- - -
  ------------ ----------
--

---------------- --------------------- -- -
  -------------------
---展开代码

`ignoreRelative`

一个布尔值，用于指定是否忽略相对链接。当设定为 true 时，links-parser 会只返回绝对链接。例如：

-- -------------------- ---- -------
----- ---- - -
  ------
    ------
      ----- --------------------------------------------------
      ----
        ------ ----------------------------
        ------ --------------------------------
      -----
    -------
  -------
--

----- ------- - -
  --------------- ----
--

---------------- --------------------- -- -
  -------------------
---展开代码

结语

至此，本文已经介绍了如何使用 links-parser 来提取一个 HTML 页面中的所有链接，以及如何使用一些详细配置参数来获取不同类型的链接。使用 links-parser 可以方便地实现前端开发中获取页面链接的功能。希望本文的教程能对前端开发者们有所帮助。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/114346

npm 包 links-parser 使用教程

前言

安装

使用