npm 包 @jnv/scrapoxy 使用教程-JavaScript中文网-JavaScript教程资源分享门户

前言

在爬虫的世界中，我们最为熟悉的就是爬虫框架组件 Scrapy 了。而在 Scrapy 中，请求的下发方式主要有两种，一种是顺序发送请求; 另一种是使用并发代理池并发请求。通常情况下，Scrapy 的并发请求是通过集成 scrapy-redis 进行实现的，这个方法也已经被广泛使用。但是，就算是并发代理池的使用，我们仍旧无法保证每个请求都能成功得到响应，这就需要更负责的去验证和维护我们的代理池。而在这种情况下，我的推荐是 Scrapoxy。

Scrapoxy 概述

Scrapoxy 是一个由 Node.js 实现的高匿代理池，可以让你的爬虫通过一个 IP 地址并且提供 HTTP 和 HTTPS 代理的形式获得目标数据。Scrapoxy 支持对代理的管理，扩展性， IP 质量控制等多种方法。

Scrapoxy 的使用

1. 安装 Scrapoxy

Scrapoxy 可以使用 npm 包进行安装，使用以下命令行：

npm install @jnv/scrapoxy

2. 启动 Scrapoxy

在安装完成后，我们就可以使用 Scrapoxy 来启动代理池。

$ scrapoxy start config.yaml

其中，config.yaml 是代理池的配置文件，具体可以参照 Scrapy 部分的下载和安装 Scrapy进行详细的查看和使用。

在命令执行后，我们就能够获取到 Scrapoxy 的启动信息。

3. 使用 Scrapoxy

在使用 Scrapoxy 的过程中，实现起来比较简单，我们只需要在 Scrapy 的 settings.py 配置文件中增加如下配置即可：

DOWNLOADER_MIDDLEWARES = {
    'scrapoxy.downloadmiddlewares.proxy.ProxyMiddleware': 100,
}

这个中间件可以将 Scrapy 的请求通过 Scrapoxy 提供的代理 IP 地址进行代理。还有需要注意的是，在请求时，需要将 Scrapoxy 的地址作为 Scrapy 的 setting 内的 PROXY_POOL 地址填入。

PROXY_POOL = 'http://localhost:8889'

如果需要更加详尽的设置，可以参照 Scrapoxy 的文档进行更多的调整和配置。

示例代码

# settings.py
DOWNLOADER_MIDDLEWARES = {
    'scrapoxy.downloadmiddlewares.proxy.ProxyMiddleware': 100,
}

PROXY_POOL = 'http://localhost:8889'

总结

Scrapoxy 提供了一种全新的方式来实现高匿代理池的管理，通过学习使用 Scrapoxy，可以更加稳定可靠地获取目标网站的数据。在实际的爬虫实践中，我也同样使用了 Scrapoxy 的 proxy 机制。在此，我希望这个技术文章能够对广大的开发人员提供一些帮助。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/600553e781e8991b448d139d