npm包 metascraper-readability使用教程

阅读时长 4 分钟读完

在前端开发中,我们经常会遇到需要从网页中提取数据的需求。而网页中包含的数据不仅仅是文本和图片,还包括标题、描述、作者、时间等元数据。为了更加高效地提取这些元数据,我们可以使用一个叫做metascraper-readability的npm包。本文将为大家介绍如何使用这个npm包来实现网页数据的提取。

1. 什么是metascraper-readability

metascraper-readability是一个npm包,它是metascraper的一个插件。Metascraper是一个可以从网页中提取元数据的工具集,包括了多个插件,如metascraper-description、metascraper-image、metascraper-logo、metascraper-title等。而metascraper-readability是其中一个重要的插件,它利用了readability.js这个库来提取出文章正文的内容。

Readability.js是一个开源的JavaScript库,它可以提取出一个网页中的主要内容。通过metascraper-readability插件,我们可以非常方便地将网页中的主要内容提取出来,进行下一步的处理。

2. 如何安装 metascraper-readability

我们可以使用npm来安装metascraper-readability,命令如下:

3. 如何使用 metascraper-readability

首先,需要引入metascraper-readability模块:

然后,我们就可以使用metascraper模块来提取文章的主要内容了:

-- -------------------- ---- -------
----- --- - --------------

----- --------- - ---------------------

----- - ----- ----- --- - - ----- --------------
----- -------- - ----- ------------- ----- --- --

----- ----------- - ----------------------------
------------------------
展开代码

上述代码中,我们用got模块来获取目标网页的HTML代码。然后,我们将获取到的HTML代码和目标URL作为参数传递给metascraper函数,metascraper会自动通过readability.js来提取相应的元数据,其中包括文章的主要内容,可以通过metadata.readability.content来获取。最后,我们只需要将其打印出来即可。

4. 示例代码

下面是一个完整的示例代码,可以通过执行以下命令运行:

-- -------------------- ---- -------
----- ----------- - ------------------------
  ------------------------------------
--
----- --- - --------------

----- -------- ------ -
  ----- --------- - ------------------------------------------

  ----- - ----- ----- --- - - ----- --------------
  ----- -------- - ----- ------------- ----- --- --

  ----- ----------- - ----------------------------
  ------------------------
-

------
展开代码

5. 总结

本文介绍了npm包metascraper-readability的使用方法,通过它可以轻松地从网页中提取出文章的主要内容。需要注意的是,这个npm包是依赖于readability.js这个库的,所以在使用之前需要先安装好readability.js。使用metascraper-readability可以大大提高网页数据提取的效率,让我们的工作更加高效。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/metascraper-readability