npm包 metascraper-readability使用教程-JavaScript中文网-JavaScript教程资源分享门户

在前端开发中，我们经常会遇到需要从网页中提取数据的需求。而网页中包含的数据不仅仅是文本和图片，还包括标题、描述、作者、时间等元数据。为了更加高效地提取这些元数据，我们可以使用一个叫做metascraper-readability的npm包。本文将为大家介绍如何使用这个npm包来实现网页数据的提取。

1. 什么是metascraper-readability

metascraper-readability是一个npm包，它是metascraper的一个插件。Metascraper是一个可以从网页中提取元数据的工具集，包括了多个插件，如metascraper-description、metascraper-image、metascraper-logo、metascraper-title等。而metascraper-readability是其中一个重要的插件，它利用了readability.js这个库来提取出文章正文的内容。

Readability.js是一个开源的JavaScript库，它可以提取出一个网页中的主要内容。通过metascraper-readability插件，我们可以非常方便地将网页中的主要内容提取出来，进行下一步的处理。

2. 如何安装 metascraper-readability

我们可以使用npm来安装metascraper-readability，命令如下：

npm install metascraper-readability

3. 如何使用 metascraper-readability

首先，需要引入metascraper-readability模块：

const metascraper = require('metascraper')([
  require('metascraper-readability')()
])

然后，我们就可以使用metascraper模块来提取文章的主要内容了：

-- -------------------- ---- -------
----- --- - --------------

----- --------- - ---------------------

----- - ----- ----- --- - - ----- --------------
----- -------- - ----- ------------- ----- --- --

----- ----------- - ----------------------------
------------------------展开代码

上述代码中，我们用got模块来获取目标网页的HTML代码。然后，我们将获取到的HTML代码和目标URL作为参数传递给metascraper函数，metascraper会自动通过readability.js来提取相应的元数据，其中包括文章的主要内容，可以通过metadata.readability.content来获取。最后，我们只需要将其打印出来即可。

4. 示例代码

下面是一个完整的示例代码，可以通过执行以下命令运行：

node index.js

-- -------------------- ---- -------
----- ----------- - ------------------------
  ------------------------------------
--
----- --- - --------------

----- -------- ------ -
  ----- --------- - ------------------------------------------

  ----- - ----- ----- --- - - ----- --------------
  ----- -------- - ----- ------------- ----- --- --

  ----- ----------- - ----------------------------
  ------------------------
-

------展开代码

5. 总结

本文介绍了npm包metascraper-readability的使用方法，通过它可以轻松地从网页中提取出文章的主要内容。需要注意的是，这个npm包是依赖于readability.js这个库的，所以在使用之前需要先安装好readability.js。使用metascraper-readability可以大大提高网页数据提取的效率，让我们的工作更加高效。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/metascraper-readability

npm包 metascraper-readability使用教程

1. 什么是metascraper-readability

2. 如何安装 metascraper-readability

3. 如何使用 metascraper-readability

4. 示例代码

5. 总结

程序员教程

程序员面试题库