前言
随着互联网的发展,网站内容量越来越大,爬虫的技术也越来越高级,传统的爬虫方法恰恰相反,越来越不够用,为了解决这一问题,selenium 催生了。
针对 hexo 静态站点进行 selenium 抓取,我们可以使用 npm 包 hexo-selenium-site-parser。
hexo-selenium-site-parser 是什么?
hexo-selenium-site-parser 是一个基于 selenium 的 hexo 静态站点页面抓取工具。该工具通过 selenium 对页面进行操作,获取想要的内容,并以简洁美观的形式输出至控制台或写入文档,方便后续处理。
hexo-selenium-site-parser 的安装
使用 npm 即可快速安装 hexo-selenium-site-parser。
npm install --save hexo-selenium-site-parser
安装完成后,可以使用下列代码进行测试:
const parser = require('hexo-selenium-site-parser') parser('https://google.com').then((res) => console.log(res))
成功返回以下信息
-- -------------------- ---- ------- - ------ --------------------- -------- --------- -------------- --- ----------- --- ------------- ---------------------------------------------------------- ---------- ---------- ---------- --------- --- -
hexo-selenium-site-parser 的使用
hexo-selenium-site-parser 的使用相对简单,只需要提供抓取页面的 url 地址即可。但值得注意的是,由于 selenium 的特性,抓取速度相对较慢,所以不要频繁抓取页面,以免被网站服务器视为恶意访问。
以下是使用示例:
-- -------------------- ---- ------- ----- ------ - ------------------------------------ --------------------------------------------------------------------------- - -- -- ---- -- ----- ----- -- ---- ----------- ----- -- -- ---- -- -------- ----- ------------- ----- -- - -- ---- --------------------------------- -- ----------- - --------------------------------- - -- ----------------- - --------------------------------------------- - -- -------------- - --------------------------------------- - -- ---------------- - -- - ------ -- --- --------- ----- ---------------------------------------------------- --------------- --------- ----------------------------- ----------------------- - -- ------------- - -- ----------- ----- ----------------------------------------------------- ------------ -------------------------- ------------------------ - --
执行结果如下:
$ node index.js URL:https://futurist.se/gldt/wp-admin/admin.php?page=gldt_latest_news Screenshot:文件保存至 /home/user/test.png Article:文件保存至 /home/user/test.html
hexo-selenium-site-parser 的应用
hexo-selenium-site-parser 的使用场景很多,可以为我们提供一些非常方便的功能。例如,我们可以通过此工具获取网站的文章内容,并进行分析、统计等处理,进而输出比较现代化的图形化视图。同时,也可以辅助我们进行一些需要认证的网页操作,比如:登录/签到,抽奖等等。
结语
本文介绍了 npm 包 hexo-selenium-site-parser 的使用以及应用,希望对大家有所帮助。当然,selenium 还有更多更复杂的应用,需要大家在平时的项目中多加探索,有需要的同学可以参考官方文档。
参考资料
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/600559e181e8991b448d76e0