npm 包 google-search-scraper 使用教程

阅读时长 5 分钟读完

npm 是 Node.js 的包管理器,可以方便地下载和管理 Node.js 模块,其中也包括许多前端类的模块。在前端开发中,有时需要通过爬虫工具获取网页数据,而 google-search-scraper 就是一个通过 Node.js 快速从 Google 搜索结果中提取信息的工具包。

安装

首先,我们要先安装 Node.js 和 npm。安装完成后,在命令行中输入以下代码来安装 google-search-scraper:

安装完成后,我们就可以正式开始使用它了。

基本使用

google-search-scraper 可以对指定的关键字进行 Google 搜索,并得到相应的搜索结果。基本使用方法如下所示:

-- -------------------- ---- -------
----- ------- - ---------------------------------

----- ------- - -
  -------- -------
  --------- --------
  ---- -----
--

----------------------- ----- ---- ----- -- -
  -----------------
--

上面的代码会输出搜索结果的 URL,其中 options 是搜索的参数,包括:

  • keyword:必填,搜索的关键字
  • language:可选,搜索的语言,默认为英语
  • tld:可选,搜索的地区,默认为美国

执行以上代码后,返回的 url 就是 Google 搜索结果的 URL。

参数详解

除了上述三个常用参数外,google-search-scraper 还有一些比较常用和常见的参数,例如:

  • resultsPerPage:每个搜索页面显示的搜索结果数目,默认为 100。
  • totalResults:搜索结果总数,如果不指定,google-search-scraper 会自动计算。
  • numPages:需要爬取的页面数,如果不指定,google-search-scraper 会一直爬取下去直到到达搜索结果的总数或者超时。
  • timeout:超时时间,单位为毫秒,默认为 10000。
  • captchaDelay:如果被 Google 验证码拦截,等待一段时间再继续访问,单位为毫秒,默认为 10000。
  • headers:请求头,可以指定 User-Agent 来伪装成不同的设备浏览网页。

完整的 options 示例:

-- -------------------- ---- -------
----- ------- - -
  -------- -------
  --------- --------
  ---- -----
  --------- --
  --------------- ---
  ------------- ----
  -------- -----
  ------------- -----
  -------- -
    ------------- ------------ -------- -- ----------- ------------------ ------- ---- ------ -------------------- --------------
    ------------------ ----------------
  --
--

获取结果

google-search-scraper 返回搜索结果的 URL,那么如何得到我们想要的搜索结果呢?我们可以使用类似 Cheerio 或者 JSDOM 的工具来进行解析得到。

以下是一个使用 Cheerio 解析搜索结果的示例代码:

-- -------------------- ---- -------
----- ------- - ---------------------------------
----- ------- - -------------------

----- ------- - -
  -------- -------
  --------- --------
  ---- -----
  --------- --
  --------------- ---
--

----------------------- ----- ---- ----- -- -
  -- ----- -----------------
  ----- - - ------------------------
  ----- ------------- - ---

  ------------------- -------- -- -
    ----- -------- - -----------
    ----- ----- - --------------------------
    ----- ---- - --------------------------------
    ----- ----------- - --------------------------------
    -------------------- ------ ----- ----------- ---
  --

  ---------------------------
--

运行以上代码,就可以得到搜索结果的标题、链接和描述。

总结

通过上述介绍,我们已经能够使用 google-search-scraper 快速地获取 Google 搜索结果,并且使用 Cheerio 或者其他类似的工具进行解析。同时,我们还介绍了 google-search-scraper 的常用参数,以及如何获取对应的搜索结果。

在实际的开发过程中,google-search-scraper 可以帮助我们快速获取大量的搜索结果,从而进行数据挖掘和分析,提高效率和准确性,也可以用于竞品分析和 SEO 优化等方面。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/91190