MongoDB aggregation pipeline 的使用及应用场景-JavaScript中文网-JavaScript教程资源分享门户

前言

MongoDB 是一个基于文档存储的 NoSQL 数据库，相对于传统的关系型数据库如 MySQL，在存储结构、查询语言等方面都有所不同。其中，MongoDB 的聚合管道（aggregation pipeline）是其一个重要的特性，能够对文档进行多个操作的串联，以实现更加灵活的数据处理。本文将详细介绍 MongoDB 聚合管道的使用和应用场景，并提供示例代码，希望能帮助读者更好地理解聚合管道的用法和优势。

MongoDB 聚合管道

MongoDB 的聚合管道是一个数据处理框架，让用户可以通过一系列的操作对文档进行转换和组合。聚合管道可以经过多次转换操作，最终产生处理后的结果。其基本的组成结构如下图所示：

pipeline: [
   { $stage1: {} },
   { $stage2: {} },
   ...
   { $stageN: {} }
]

每个 $stage 表示一个转换操作，如 $match 表示过滤、$group 表示分组，操作的顺序决定了处理结果。通过多个阶段操作，我们可以实现各种有趣的数据分析需求，如统计分析、数据清洗、关联查询等。

下面将介绍聚合管道的常用操作和应用场景：

聚合管道常用操作

1. $match

$match 操作用于过滤出符合条件的文档，相当于 SQL 中的 WHERE 子句。常用的操作符有 $eq（等于）、$ne（不等于）、$lt（小于）、$lte（小于等于）、$gt（大于）、$gte（大于等于）等等，示例如下：

db.sales.aggregate([
   { $match: { product: "apple" } }
])

表示筛选出 product 字段等于 apple 的文档。

2. $project

$project 操作用于筛选出需要的字段，并命名输出的字段名，相当于 SQL 中的 SELECT 子句。示例如下：

db.sales.aggregate([
   { $match: { product: "apple" } },
   { $project: { item: 1, date: 1, sales: "$price" } }
])

表示输出 item、date 和 price 字段，其中将 price 字段重命名为 sales。

3. $group

$group 操作是进行聚合操作的核心，可以统计指定字段的总计、平均值、最大值、最小值等等。示例如下：

db.sales.aggregate([
   { $group: { _id: "$item", totalSaleAmount: { $sum: "$price" } } }
])

表示对 item 字段进行分组，统计出每个 item 对应的 price 字段总和，并将处理结果保存到新的 totalSaleAmount 字段中。

4. $sort

$sort 操作用于对处理结果进行排序，支持升序和降序两种方式。示例如下：

db.sales.aggregate([
   { $sort: { date: -1 } }
])

表示按照 date 字段进行倒序排序。

5. $limit / $skip

$limit / $skip 操作用于限制处理结果的数量和偏移量。示例如下：

db.sales.aggregate([
   { $sort: { date: -1 } },
   { $limit: 5 },
   { $skip: 2 }
])

表示先按照 date 字段进行倒序排序，然后限制输出结果的数量为 5，并跳过前两个结果。

聚合管道应用场景

1. 数据统计分析

通过 $match 和 $group 操作，我们可以轻松地进行数据统计和分析。比如统计每个用户的购买金额、每个商品的销售量、每个地址的订单量、每个时间段的访问量等等。通过聚合管道，我们可以定义出一系列的转换操作，最终得到处理后的数据结果，方便进行后续的可视化展示和分析。

db.sales.aggregate([
   { $match: { date: { $gte: ISODate("2020-01-01"), $lt: ISODate("2020-02-01") } } },
   { $group: { _id: "$user", totalAmount: { $sum: "$price" } } }
])

表示筛选出 2020 年 1 月份的数据，统计每个用户的购买金额。

2. 数据清洗和转换

有时候我们的原始数据可能存在一些杂乱无章、格式不规范等问题，需要进行清洗和转换。通过 $match、$project 和 $group 等操作，我们可以对数据进行有效的筛选和转换，使其符合我们的使用需求，同时也减轻了后续的数据处理负担。

db.sales.aggregate([
   { $project: { _id: 1, date: 1, user: { $toLower: "$user" } } },
   { $group: { _id: "$user", totalAmount: { $sum: "$price" } } }
])

表示输出 _id、date 和 user 字段，并将 user 字段转化为小写字母，然后根据 user 字段进行分组统计。

3. 数据关联查询

MongoDB 的聚合管道还支持多个集合的关联查询，常常在需要多个数据源联合处理时使用。通过 $lookup 操作，我们可以对多个集合进行关联查询，并在后续的操作中继续使用这些数据。示例如下：

-- -------------------- ---- -------
--------------------
   - --------
      -
        ----- --------
        ----------- -------
        ------------- ------
        --- ----------
      -
   --
   - -------- ----------- --
   - --------- - ---- -- ----- -- ----- ----------------- -------- -- ------ - - --
   - ------- - -------- ------- - --
   - ------- - ---- -------- ---------------- - ----- -------- - - -
--展开代码

表示对 sales 集合进行关联查询，将 user 字段和 users 集合中的 _id 关联起来，然后按照 user 和 product 字段进行筛选和分组统计，最终输出统计结果。

总结

MongoDB 的聚合管道是其一个强大而灵活的特性，能够为我们的数据处理和分析带来更多的可能性。通过本文的介绍，相信大家已经掌握了聚合管道的基本操作和应用场景，并能够在实际开发中进行灵活应用。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/65ab8607add4f0e0ff52d0bd

MongoDB aggregation pipeline 的使用及应用场景

前言