简介
mercuryscraper
是一款基于 Node.js 的 npm 包,用于网站数据的爬取和解析。用户可以通过 mercuryscraper 快速、简便的获取网页内容,无需编写大量的 Web Scraping 代码。
安装
在安装之前,需要确保您已经安装了 Node.js 和 npm,安装完成之后,在命令行中输入以下指令:
$ npm install mercuryscraper
使用
const MercuryScraper = require('mercuryscraper'); (async () => { const response = await MercuryScraper.parse(url); console.log(response); })();
简单易懂吧,输入您需要抓取的网址,它会自动抓取并返回抓取结果。
示例
我们来看一个简单的例子,假设我们需要获取 http://quotes.toscrape.com/ 网站中的名言:
-- -------------------- ---- ------- ----- -------------- - -------------------------- ------ -- -- - ----- --- - ------------------------------ ----- -------- - ----- ------------------------- - ----- ------- ----------- ------- ------- ---- ------- --- ---------------------- -----
输出:

参数
MercuryScraper.parse(url, options)
中的 options 是可选的,它包含以下参数:
html
:需要解析的 HTML 结构,可以是 CSS 选择器、XPath 表达式或一个回调函数。title
:需要获取的标题,支持 CSS 选择器、XPath 表达式或一个回调函数。author
:需要获取的作者,支持 CSS 选择器、XPath 表达式或一个回调函数。date_published
:需要获取的日期,支持日期字符串、CSS 选择器、XPath 表达式或一个回调函数。lead_image_url
:需要获取的主图链接,支持 URL 字符串或一个回调函数。dek
:需要获取的描述信息,支持 CSS 选择器、XPath 表达式或一个回调函数。next_page_url
:需要获取的下一页链接,支持 URL 字符串或一个回调函数。excerpt
:需要获取的摘要信息,支持 CSS 选择器、XPath 表达式或一个回调函数。word_count
:需要获取的单词数,支持整数或一个回调函数。direction
:需要获取的方向信息,支持字符串(ltr 或 rtl)或一个回调函数。url
:用于重写原始url
的新url
,支持 URL 字符串或一个回调函数。
总结
通过 mercuryscraper,您可以轻松地获取网站数据,快速完成 Web Scraping 任务。希望这个教程对您有所帮助,如果您有任何疑问,请在评论区留言。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/60066f3c1d8e776d08040a43