前言
现如今,爬虫已经成为了非常普遍的一个应用场景,很多人都会用各种语言来写爬虫,因此在这里,我们介绍用 JavaScript 模块化工具 npm 来进行爬虫的操作。
crawler-dashboard 正是一个基于 NodeJs 的爬虫库,本文将详细介绍 npm 包 crawler-dashboard 使用教程。
安装
在本地项目路径下运行以下命令行:
npm install crawler-dashboard
或者,在 package.json 的依赖列表中添加:
{ "dependencies": { "crawler-dashboard": "^1.0.0" } }
然后执行:
npm install
即可安装。
使用
- 导入依赖
在项目中,需要引入两个依赖:
const CrawlerDashboard = require('crawler-dashboard').CrawlerDashboard; const Crawler = require('crawler');
其中,CrawlerDashboard 基于 Express.js,因此需要引入 express,以及基于 request 的爬虫模块 Crawler。
-- -------------------- ---- ------- ----- ------- - ------------------- ----- ------- - ------------------- ----- ---------------- - ---------------------------------------------- ----- --- - ---------- ----- ------- - --- ---------- ----- --------- - --- ------------------ ----- ----- -------- ------- ---
- 设置基本配置项
在调用 CrawlerDashboard 的构造函数时,我们需要设置基本参数项:
const dashboard = new CrawlerDashboard({ port: 8080, // 启动端口号 crawler: crawler, maxDepth: 5, // 爬虫最大深度 maxRequests: 1000, // 最大请求次数 maxConcurrency: 10, // 最大并发数 delay: 1000 // 爬取页面之间的延时 });
- 开始爬虫
app.listen(9000, function () { console.log('Server running on port 9000!'); dashboard.start(); });
这时,在浏览器中打开 http://localhost:8080/
即可访问爬虫仪表板。
教程
crawler-dashboard 提供丰富的爬虫展示信息和操作,可以很方便的监控数据和前端界面进行爬虫操作。
在爬虫运行时,crawler-dashboard 会自动记录上下文,因此可以很方便的暂停和恢复爬虫。
crawler-dashboard 提供了以下操作:
- 暂停和恢复爬虫:在爬虫运行中,可以通过点击页面中的暂停和继续按钮来停止和恢复爬虫的运行;
- 删除已经爬取的 url:新添加的url尚未被爬取,可以通过选中并点击 delete 按钮来删除已爬取的 url;
- 添加目标 url:通过添加目标 url 来增加待爬取的 url,点击 add 按钮来确认添加。
crawler-dashboard 根据爬取的 url 地址自动生成爬虫树,可以通过爬虫树来查看爬虫进度和结构。
示例代码
-- -------------------- ---- ------- ----- ------- - ------------------- ----- ------- - ------------------- ----- ---------------- - ---------------------------------------------- ----- --- - ---------- ----- ------- - --- ---------- ----- --------- - --- ------------------ ----- ----- -------- ------- --- ------------------------ ------------------- --------- ---- -------------------------- ------------------- -------------------- ---- ---------------------------- ------------------- ---- ------------------------------ ------------------- ---------- ---- --------------------------- ------------------- --------------- ------------ ---- --------------------------- ------------------- ---------- --------- ---- ---------------------------- ------------------- --------- ---- -------------------------- ------------------- --------- ---- ------------------------ --------------- -------- ---- ---------------------- ------------------- -------- ---- ------------------- ---------- ---- ---------------- -------- -- - ------------------- ------- -- ---- -------- ------------------ ---
结论
crawler-dashboard 是一款前端开发必备的爬虫监控工具,无论你是初学者还是职业开发者都可以轻松上手,建议大家多加尝试。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/60055b1681e8991b448d8c1f