npm 包 hexo-selenium-site-parser 使用教程

阅读时长 5 分钟读完

前言

随着互联网的发展,网站内容量越来越大,爬虫的技术也越来越高级,传统的爬虫方法恰恰相反,越来越不够用,为了解决这一问题,selenium 催生了。

针对 hexo 静态站点进行 selenium 抓取,我们可以使用 npm 包 hexo-selenium-site-parser。

hexo-selenium-site-parser 是什么?

hexo-selenium-site-parser 是一个基于 selenium 的 hexo 静态站点页面抓取工具。该工具通过 selenium 对页面进行操作,获取想要的内容,并以简洁美观的形式输出至控制台或写入文档,方便后续处理。

hexo-selenium-site-parser 的安装

使用 npm 即可快速安装 hexo-selenium-site-parser。

安装完成后,可以使用下列代码进行测试:

成功返回以下信息

-- -------------------- ---- -------
-
  ------ ---------------------
  -------- ---------
  -------------- ---
  ----------- ---
  ------------- ----------------------------------------------------------
  ---------- ---------- ----------
  --------- ---
-

hexo-selenium-site-parser 的使用

hexo-selenium-site-parser 的使用相对简单,只需要提供抓取页面的 url 地址即可。但值得注意的是,由于 selenium 的特性,抓取速度相对较慢,所以不要频繁抓取页面,以免被网站服务器视为恶意访问。

以下是使用示例:

-- -------------------- ---- -------
----- ------ - ------------------------------------

--------------------------------------------------------------------------- -
  -- -- ---- --
  ----- -----
  -- ----
  ----------- -----
  -- -- ---- --
  -------- -----
------------- ----- -- -
  -- ----
  ---------------------------------

  -- ----------- -
    ---------------------------------
  -

  -- ----------------- -
    ---------------------------------------------
  -

  -- -------------- -
    ---------------------------------------
  -

  -- ---------------- -
    -- - ------ -- --- ---------
    ----- ---------------------------------------------------- --------------- ---------

    ----------------------------- -----------------------
  -

  -- ------------- -
    -- -----------
    ----- ----------------------------------------------------- ------------

    -------------------------- ------------------------
  -
--

执行结果如下:

hexo-selenium-site-parser 的应用

hexo-selenium-site-parser 的使用场景很多,可以为我们提供一些非常方便的功能。例如,我们可以通过此工具获取网站的文章内容,并进行分析、统计等处理,进而输出比较现代化的图形化视图。同时,也可以辅助我们进行一些需要认证的网页操作,比如:登录/签到,抽奖等等。

结语

本文介绍了 npm 包 hexo-selenium-site-parser 的使用以及应用,希望对大家有所帮助。当然,selenium 还有更多更复杂的应用,需要大家在平时的项目中多加探索,有需要的同学可以参考官方文档。

参考资料

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/600559e181e8991b448d76e0

纠错
反馈