简介
nutella-scrape 是一个基于 Node.js 的 npm 包,用于实现 Web 页面的自动爬取和数据提取,可以帮助前端开发者快速的获取网站信息。
安装
使用 npm 进行安装:
npm install nutella-scrape
使用方法
初始化
首先需要引入 nutella-scrape 模块:
const nutella = require('nutella-scrape');
接着需要初始化一个 scraper 实例:
const scraper = nutella();
抓取数据
要抓取数据,需要指定目标网站的 URL 和 CSS 选择器:
const targetUrl = "https://example.com/"; const cssSelector = "h1"; scraper(targetUrl, cssSelector).then((data) => { console.log(data); }).catch((err) => { console.log("Error: ", err); });
在这个例子中,我们会获取 example.com 网站上的第一个 h1 标签内的文本。
自定义配置
nutella-scrape 同样支持自定义配置,可以传递一个 options 对象来进行设置。
const scraper = nutella({ userAgent: "Mozilla/5.0 Chrome/80.0.3987.149 Safari/537.36", timeout: 10000 });
这里我们设置了请求头中的 User-Agent,以及请求的超时时间。
动态页面
nutella-scrape 并不支持动态页面的抓取,但是可以通过使用第三方库如 puppeteer 或 cheerio 来实现。
示例代码
使用 nutella-scrape 获取 IP 地址
-- -------------------- ---- ------- ----- ------- - -------------------------- ----- ------- - ---------- ----- --------- - ------------------------- ----- ----------- - ------- ------------------ ------------------------ -- - ----------------- -- ------- --- - - ------------- -------------- -- - ------------------- -- ----- ---
使用 puppeteer 获取动态页面数据
-- -------------------- ---- ------- ----- ------- - -------------------------- ----- --------- - --------------------- ----- ------- - ---------- ----- --------- - ------------------------- ----- --------------- - ----- -- -- - ----- ------- - ----- ------------------- ----- ---- - ----- ------------------ ----- --------------------- ----- ----------- - ----- --------------------------- ----- --------------------------- ---------- ----- ----------------------------- ----- ----------------------------------- ----- ------------ - ----- ---------------- -- - ----- ----- - ---------------------------------- -- ---- ----- ----- - -------------------------- -- ---------------- ------ ------ --- ----- ---------------- ------ ------------------------ - ----------------------------- -- - ------------------ -------------- -- - ------------------- -- ----- ---
总结
nutella-scrape 是一个简单易用的 Node.js 爬虫库,可以帮助前端开发者快速的获取网站信息。虽然它不能处理动态页面,但是它可以被轻松的扩展到一个更大的项目中。如果你需要爬取一些简单的数据,使用 nutella-scrape 可能是最好的选择。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/60066f963d1de16d83a66d2e