npm 包 gsutil-crawler 使用教程

阅读时长 3 分钟读完

前言

在进行一些数据处理过程中,我们常常需要从 Google Cloud Storage 上下载一些数据,而 gsutil 是一个 Google 官方提供的命令行工具,可以帮助我们上传下载数据到 GCS 上。但是在一些特殊的情况下,我们需要遍历 GCS 上的所有数据,这时候 gsutil 就无法满足我们的需求了。那么这时候我们可以使用一个 npm 包,它叫做 gsutil-crawler。本文将介绍如何使用 gsutil-crawler。

安装

首先,我们需要先安装 gsutil-crawler。

使用

gsutil-crawler 提供了一个 crawl 函数,该函数接收一个参数 options 对象,这个对象包含三个属性:

  • bucket: GCS 存储桶的名称
  • prefix: 存储桶的前缀
  • delimiter: 分隔符

在执行 crawl 函数之前,我们需要先设置 gsutil 的授权。

然后,在我们的 JavaScript 代码中,我们可以这样使用它:

-- -------------------- ---- -------
----- - ----- - - -------------------------

-------
  ------- ------------
  ------- -------------
  ---------- ---
--
  ------------- -- -
    ------------------
  --
  ------------ -- -
    ------------------
  --

上述代码中,我们设定的 bucketmy-bucketprefixmy-folder/delimiter/。然后,我们调用 crawl 函数,它会返回一个 Promise,当 Promise resolve 时会返回一个数组,这个数组包含了所有符合给定前缀和分隔符的文件的 GCS 对象名称。

示例代码

-- -------------------- ---- -------
----- - ----- - - -------------------------

----- -------- ---- -- -
  --- -
    ----- ----- - ----- -------
      ------- ------------
      ------- -------------
      ---------- ---
    --
    ------------------
  - ----- ----- -
    ------------------
  -
-

------

总结

通过阅读本文,你应该已经了解了如何使用 gsutil-crawler 这个 npm 包。它可以帮助你遍历 Google Cloud Stroage 上的数据,帮助你更好地完成数据处理任务。希望本文能够对你有所帮助!

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/60065f80238a385564ab6b42

纠错
反馈