C++ 代码性能优化：详解缓存与对齐技巧-JavaScript中文网-JavaScript教程资源分享门户

前言

在计算机科学中，性能通常是最重要的考虑因素之一。虽然我们写的代码语法正确，逻辑清晰，并且功能正常，但是如果运行速度太慢，那么它可能无法达到预期的效果。C++ 是一种非常流行的编程语言，它完全可以用于开发高性能应用程序。本文将详细介绍一些 C++ 中优化性能的技巧，其中包括缓存与对齐技巧。

缓存

缓存是计算机中提高性能的重要机制之一。简单来说，缓存是一块高速内存，通过将常用的数据复制到缓存中，可以大大减少 CPU 和内存之间的数据访问等待时间，从而提高程序的执行效率。为了了解缓存是如何工作的，请先了解计算机内存的层次结构，如下所示：

寄存器：这是最快的存储设备，也是最小的存储设备。
缓存：这是介于寄存器和主存之间的存储设备。缓存可以分为多级，越靠近 CPU 的缓存速度就越快，同时它们的容量也越小。
主存：这是存储内存数据的地方。主存的速度比寄存器和缓存慢得多，但是它可以存储更多的数据。
磁盘：这是存储大量数据的设备，但是速度比主存慢得多。因为它们是不可移动的所以它们被用作持久存储。

CPU 每次执行指令时，需要从主存中获取数据。由于主存比寄存器和缓存慢，因此 CPU 等待主存可以大大降低代码的性能。为了提高代码性能，缓存被用来存储经常使用的数据，当 CPU 需要访问这些数据时，缓存可以提供更快的访问速度。

缓存的大小是有限的，因此我们需要使用缓存策略来确定哪些数据将存储在缓存中。下面介绍一些缓存优化的技巧。

缓存友好的数据结构

在 C++ 中，数组和指针通常是最常见的数据结构。但是，它们可能不是缓存友好的。缓存友好的数据结构应该满足以下要求：

数据应该是紧凑的，没有间隔，这样可以使缓存更加高效。
数据应该是连续的，这样可以使缓存预测更准确。

例如，以下代码片段定义了一个结构体：

struct my_struct {
    int a;
    char b;
    long c;
};

在该结构体中，每个元素的大小不同，因此它们之间存在空隙。这意味着无法将该结构体中的所有元素放入一个 CPU 缓存行中。为了避免这种情况，可以对结构体进行重新排序，使其大小相同，同时将对象按照类型分类，如下所示：

struct my_struct_cache_friendly {
    int a;
    long c;
    char b;
};

通过重新排序，该结构体的大小相同，CPU 可以更有效地利用缓存空间。这是一个很好的改进，但是我们可以做得更好。编译器会尝试通过成员对齐来优化结构体存储，这可能会在结构体的边缘添加空隙。有一些编译器可以通过指定 __attribute__((packed)) 来禁用对齐，如下所示：

struct my_struct_cache_friendly_unaligned {
    int a __attribute__((packed));
    long c __attribute__((packed));
    char b __attribute__((packed));
};

这样就确保了结构体的成员被正确地分配在一个连续的内存块中。但是，这样做可能会增加访问时的成本，而且这样的做法也不符合 C++ 标准。

空间局部性

为了更好地利用缓存，我们还应该注意空间局部性。空间局部性指的是在我们访问某个内存位置时，我们通常会接下来访问相邻的内存位置。因此，如果我们能够将最常用的数据放在连续位置，就可以提高 CPU 的缓存利用率。

例如，以下代码片段计算一个矩阵中所有元素的总和：

double sum = 0.0;
for (int i = 0; i < rows; i++) {
    for (int j = 0; j < cols; j++) {
        sum += matrix[i][j];
    }
}

该代码串行访问了矩阵中的每个元素，它具有很好的空间局部性。对于每个元素，它的下一个元素都在相邻的内存位置。

时间局部性

尽管空间局部性可以优化缓存性能，但是时间局部性也很重要。时间局部性指的是在我们访问某个内存位置时，我们通常会在未来的一段时间内再次访问该位置。这就是为什么缓存可以加速重复访问相同的数据的原因。所以，为了获得最好的性能，我们应该根据数据使用的频率将它们排序。

例如，以下代码片段使用选择排序算法对数组进行排序：

for (int i = 0; i < n - 1; i++) {
    for (int j = i + 1; j < n; j++) {
        if (array[i] > array[j]) {
            std::swap(array[i], array[j]);
        }
    }
}

由于选择排序算法对数组中的每个元素执行了多次访问，因此它具有很好的时间局部性。

对齐

在计算机中，数据类型必须按照特定的方式对齐，这样 CPU 才能够有效地访问它们。如果数据类型没有正确地对齐，那么 CPU 可能需要额外的操作才能读取数据，这将增加代码的运行时间。

在 C++ 中，可以使用 alignas 关键字来对齐数据类型。例如，以下代码将结构体对齐到 64 字节的边界：

struct my_struct {
    int a;
    long b;
    char c;
} alignas(64);

请注意，某些编译器可能需要使用特定的选项才能支持 alignas 关键字。

总结

优化 C++ 代码的性能是非常重要的，缓存和对齐技巧是这项工作的关键。在本文中，我们介绍了缓存和对齐的基本概念，并提出了一些优化技巧。虽然这些技巧并不一定适用于所有的代码，但是了解它们可以帮助我们编写更高效的代码，并提高我们的性能要求。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/64f2d1cef6b2d6eab3c64258