简介
f2e-spider 是一个前端爬虫 npm 包,可以用于爬取指定 URL 的 HTML 和 JS、CSS 资源。该包是基于 Node.js 编写的,可以在命令行或 Node.js 代码中使用。
安装
使用 npm 进行全局安装:
npm install f2e-spider -g
安装完成后,就可以使用 f2e-spider 命令了。
使用
命令行
在命令行中,可以使用 f2e-spider 命令进行 URL 爬取。
例如,可以使用以下命令爬取百度首页:
f2e-spider https://www.baidu.com
爬取后的 HTML 存储在当前目录下的 index.html 文件中,JS 和 CSS 文件存储在同级目录下的 js 和 css 文件夹中。
Node.js
在 Node.js 中,可以通过引入 f2e-spider 模块进行使用。
首先,需要使用 npm 安装该模块:
npm install f2e-spider --save
然后在代码中引入:
const f2eSpider = require('f2e-spider');
调用 f2eSpider 方法即可爬取指定 URL,例如:
const url = 'https://www.baidu.com'; const outputDir = './output'; f2eSpider(url, outputDir).then(() => { console.log('爬取完成!'); }).catch((err) => { console.error('爬取失败:' + err); });
其中,第一个参数为要爬取的 URL,第二个参数为输出的目录。
参数说明
f2eSpider 方法的参数如下:
url
要爬取的 URL,必填参数。
outputPath
输出的目录,可以是相对路径或绝对路径,默认为当前目录。如果目录不存在,会自动创建。
maxDepth
最大爬取深度,指从起始页面开始,最多爬取到哪一层页面。默认值为 2,表示只爬取起始页面和其直接链接页面。如果设置为 -1,则会一直爬取,直到没有新页面。
filter
是否过滤 URL,可以传入一个函数。函数的参数为当前要爬取的 URL,返回值为 true 表示需要爬取该 URL,false 表示不需要爬取。默认不过滤。
例如,可以按照以下方式过滤某些 URL:
-- -------------------- ---- ------- ----- ------ - ----- -- - ------ --------------------- -- ----------------------- -- -------------- ---------- - ------ ---------- -- - --------------------- -------------- -- - --------------------- - ----- ---
示例代码
以下是一个完整的示例代码,可以爬取一个指定 URL 的所有页面,并将 HTML 和 CSS、JS 资源存储到指定目录下。
-- -------------------- ---- ------- ----- --------- - ---------------------- ----- --- - ------------------------ ----- --------- - ----------- ----- ------ - ----- -- - ------ --------------------- -- ----------------------- -- -------------- ---------- - ------ ---------- -- - --------------------- -------------- -- - --------------------- - ----- ---
结语
通过本文的介绍,相信您已经掌握了 f2e-spider 包的使用方法。这个包可以帮助您快速地爬取指定 URL 的页面和资源,是前端工具箱中不可或缺的一部分。希望本文对您有所帮助。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6005736781e8991b448e9645