在前端开发中,经常需要获取网站上的数据,而爬虫就是一种常见的方式。本文将介绍如何使用 Node.js 和 Express 框架来实现爬虫功能,包括如何设置路由、如何发起 HTTP 请求、如何解析 HTML 网页以及如何存储数据。
准备工作
在开始之前,需要安装 Node.js 和 Express 框架。可以通过以下命令进行安装:
npm install express
设置路由
首先,需要设置路由来接收爬虫请求,并返回爬取到的数据。在 Express 中,可以使用 app.get
方法来设置路由,如下所示:
const express = require('express'); const app = express(); app.get('/spider', (req, res) => { // TODO: 爬虫功能实现 });
以上代码中,当用户访问 /spider
路径时,会触发回调函数并执行爬虫功能。
发起 HTTP 请求
接下来,需要发起 HTTP 请求来获取网页的 HTML 内容。可以使用 axios
模块来发送请求,如下所示:
-- -------------------- ---- ------- ----- ----- - ----------------- -------------- -------------- -- - -- ----- -- ---- -- -- ------------ -- - ------------------- ---
以上代码中,url
是需要爬取的网页地址。当请求成功时,会返回响应对象 response
,其中包含了 HTML 内容。当请求失败时,会抛出错误并打印到控制台中。
解析 HTML 内容
获取到 HTML 内容后,需要对其进行解析,以获取需要的数据。可以使用 cheerio
模块来解析 HTML 内容,如下所示:
const cheerio = require('cheerio'); const $ = cheerio.load(response.data); const title = $('title').text(); const content = $('#content').text();
以上代码中,response.data
是响应对象中的 HTML 内容。cheerio.load
方法可以将 HTML 内容转化为 DOM 对象,以方便进行操作。$('selector').text()
方法可以根据选择器获取对应元素的文本内容。
存储数据
最后,需要将爬取到的数据进行存储。可以使用 MongoDB 数据库来存储数据。在使用之前,需要先安装 mongoose
模块,如下所示:
npm install mongoose
然后,在代码中连接数据库并定义数据模型,如下所示:
-- -------------------- ---- ------- ----- -------- - -------------------- ---------------------------------------------- - ---------------- ---- --- ----- ------ - ---------------- ----- ------------- - --- -------- ------ ------- -------- ------ --- ----- ------- - ------------------------- ---------------
以上代码中,mongoose.connect
方法用于连接数据库,Schema
和 Article
分别用于定义数据模型和创建数据模型实例。
最后,可以将爬取到的数据存储到数据库中,如下所示:
-- -------------------- ---- ------- ----- ------- - --- --------- ------ ------ -------- ------- --- -------------- -------- -- - ---------------------- -- ------------ -- - ------------------- ---
以上代码中,article
是数据模型实例,article.save()
方法可以将实例保存到数据库中。
完整示例代码
-- -------------------- ---- ------- ----- ------- - ------------------- ----- ----- - ----------------- ----- ------- - ------------------- ----- -------- - -------------------- ----- --- - ---------- ---------------------------------------------- - ---------------- ---- --- ----- ------ - ---------------- ----- ------------- - --- -------- ------ ------- -------- ------ --- ----- ------- - ------------------------- --------------- ------------------ ----- ---- -- - ----- --- - -------------------------- -------------- -------------- -- - ----- - - ---------------------------- ----- ----- - ------------------ ----- ------- - --------------------- ----- ------- - --- --------- ------ ------ -------- ------- --- -------------- -------- -- - ---------------------- -- ------------ -- - ------------------- --- ----------------- -- ------------ -- - ------------------- ----------------- --- --- ---------------- -- -- - ----------------------- ---
总结
本文介绍了如何使用 Node.js 和 Express 框架来实现爬虫功能,包括如何设置路由、如何发起 HTTP 请求、如何解析 HTML 网页以及如何存储数据。希望本文对读者有所帮助,同时也提醒读者在进行爬虫时需要遵守相关法律法规。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/65643eb1d2f5e1655dda91e3