C++11 并行编程优化方法探究

前言

随着计算机硬件的不断升级,多核处理器已成为现代计算机的标配。而并行编程技术则成为了充分利用多核处理器的关键。C++11 中新增的并行编程库,使得 C++ 语言在并行编程方面具有了更为强大的能力。

本篇文章将介绍 C++11 并行编程的基本概念和使用方法,并探究一些优化方法,以帮助读者更好地理解并行编程的本质和优化技巧。

基本概念

C++11 并行编程库主要包括以下几个部分:

  • std::thread:线程库,用于创建和控制线程。
  • std::mutex:互斥量库,用于保护共享数据的访问。
  • std::condition_variable:条件变量库,用于线程间的通信。
  • std::futurestd::promise:异步编程库,用于异步执行任务并获取结果。

在并行编程中,常常需要使用多个线程同时执行某个任务,并在任务完成后将结果合并。这种情况下,需要保证多个线程之间的数据访问不会发生冲突,否则会导致数据不一致等问题。因此,需要使用互斥量和条件变量来保护共享数据的访问。

异步编程则是指将一个任务放到一个线程中执行,同时在主线程中继续执行其他任务,等到异步任务完成后再获取结果。异步编程可以提高程序的响应速度,同时也可以充分利用多核处理器的能力。

使用方法

创建线程

使用 std::thread 类创建线程非常简单,只需要传入一个函数指针或可调用对象即可:

#include <iostream>
#include <thread>

void hello() {
    std::cout << "Hello, World!" << std::endl;
}

int main() {
    std::thread t(hello);
    t.join(); // 等待线程结束
    return 0;
}

上面的代码中,我们定义了一个 hello 函数,然后使用 std::thread 类创建一个线程 t,并将 hello 函数作为线程的入口点。最后使用 join 函数等待线程结束。

保护共享数据的访问

在多线程编程中,需要保证多个线程之间的数据访问不会发生冲突。为此,需要使用互斥量来保护共享数据的访问。

以下是一个简单的例子,演示如何使用互斥量来保护共享数据的访问:

#include <iostream>
#include <thread>
#include <mutex>

std::mutex mtx; // 互斥量

void increment(int& x) {
    for (int i = 0; i < 1000000; ++i) {
        std::lock_guard<std::mutex> lock(mtx); // 使用互斥量保护共享数据的访问
        ++x;
    }
}

int main() {
    int x = 0;
    std::thread t1(increment, std::ref(x));
    std::thread t2(increment, std::ref(x));
    t1.join();
    t2.join();
    std::cout << "x = " << x << std::endl;
    return 0;
}

上面的代码中,我们定义了一个互斥量 mtx,然后在 increment 函数中使用 std::lock_guard 类来保护共享数据 x 的访问。std::lock_guard 类是一个 RAII(资源获取即初始化)类,用于在作用域结束时自动释放互斥量。

main 函数中,我们创建了两个线程 t1t2,并将共享数据 x 的引用作为参数传入。最后使用 join 函数等待线程结束,并输出 x 的值。

线程间的通信

在多线程编程中,常常需要使用条件变量来实现线程间的通信。条件变量可以用于等待某个条件的发生,或者通知其他线程某个条件的发生。

以下是一个简单的例子,演示如何使用条件变量实现线程间的通信:

#include <iostream>
#include <thread>
#include <mutex>
#include <condition_variable>

std::mutex mtx; // 互斥量
std::condition_variable cv; // 条件变量
bool ready = false;

void worker() {
    std::unique_lock<std::mutex> lock(mtx);
    while (!ready) {
        cv.wait(lock); // 等待条件变量
    }
    std::cout << "Worker is working..." << std::endl;
}

int main() {
    std::thread t(worker);
    std::this_thread::sleep_for(std::chrono::seconds(3));
    {
        std::lock_guard<std::mutex> lock(mtx);
        ready = true;
    }
    cv.notify_one(); // 通知条件变量
    t.join();
    return 0;
}

上面的代码中,我们定义了一个互斥量 mtx 和一个条件变量 cv,然后在 worker 函数中使用 std::unique_lock 类来锁定互斥量,并使用 cv.wait 函数等待条件变量的发生。在 main 函数中,我们创建了一个线程 t,并在 3 秒后设置 readytrue,然后使用 cv.notify_one 函数通知条件变量的发生。最后使用 join 函数等待线程结束。

异步编程

异步编程可以使用 std::futurestd::promise 类来实现。std::future 类表示一个异步操作的结果,std::promise 类则用于异步执行任务并设置结果。

以下是一个简单的例子,演示如何使用 std::futurestd::promise 类实现异步编程:

#include <iostream>
#include <future>

int add(int a, int b) {
    return a + b;
}

int main() {
    std::promise<int> p;
    std::future<int> f = p.get_future();
    std::thread t([&p]() {
        p.set_value(add(1, 2));
    });
    std::cout << "1 + 2 = " << f.get() << std::endl;
    t.join();
    return 0;
}

上面的代码中,我们创建了一个 std::promise 对象 p,并使用 get_future 函数获取一个 std::future 对象 f。然后在一个新的线程中异步执行 add 函数,并将结果设置为 p 的值。在主线程中,我们使用 f.get 函数获取异步操作的结果。最后使用 join 函数等待线程结束。

优化方法

并行算法

并行算法是指能够在多个线程中同时执行的算法。C++11 中提供了一些常用的并行算法,如 std::for_eachstd::transformstd::reduce 等。

以下是一个简单的例子,演示如何使用并行算法加速一个向量的计算:

#include <iostream>
#include <vector>
#include <algorithm>
#include <numeric>
#include <chrono>

int main() {
    std::vector<double> v(10000000, 1.0);
    auto start = std::chrono::high_resolution_clock::now();
    std::for_each(std::execution::par, v.begin(), v.end(), [](double& x) {
        x = std::sin(x);
    });
    auto end = std::chrono::high_resolution_clock::now();
    std::cout << "Time: " << std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count() << " ms" << std::endl;
    double sum = std::reduce(std::execution::par, v.begin(), v.end());
    std::cout << "Sum: " << sum << std::endl;
    return 0;
}

上面的代码中,我们创建了一个包含 10000000 个元素的向量 v,然后使用 std::for_each 函数对向量中的每个元素求正弦值,并使用并行执行策略 std::execution::par 实现并行计算。最后使用 std::reduce 函数对向量中的所有元素求和,并使用并行执行策略 std::execution::par 实现并行计算。最后输出计算结果和时间。

数据局部性优化

数据局部性是指程序访问数据的局部性质,即程序访问的数据通常是连续的或者离得很近的。数据局部性优化可以提高程序的性能,特别是在多核处理器上。

以下是一个简单的例子,演示如何使用数据局部性优化加速矩阵乘法的计算:

#include <iostream>
#include <vector>
#include <chrono>

const int N = 1000;

void matmul(const std::vector<std::vector<double>>& a, const std::vector<std::vector<double>>& b, std::vector<std::vector<double>>& c) {
    for (int i = 0; i < N; ++i) {
        for (int j = 0; j < N; ++j) {
            double sum = 0;
            for (int k = 0; k < N; ++k) {
                sum += a[i][k] * b[k][j];
            }
            c[i][j] = sum;
        }
    }
}

void matmul_opt(const std::vector<std::vector<double>>& a, const std::vector<std::vector<double>>& b, std::vector<std::vector<double>>& c) {
    for (int i = 0; i < N; ++i) {
        for (int k = 0; k < N; ++k) {
            for (int j = 0; j < N; ++j) {
                c[i][j] += a[i][k] * b[k][j];
            }
        }
    }
}

int main() {
    std::vector<std::vector<double>> a(N, std::vector<double>(N, 1.0));
    std::vector<std::vector<double>> b(N, std::vector<double>(N, 1.0));
    std::vector<std::vector<double>> c(N, std::vector<double>(N, 0.0));
    auto start = std::chrono::high_resolution_clock::now();
    matmul(a, b, c);
    auto end = std::chrono::high_resolution_clock::now();
    std::cout << "Time: " << std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count() << " ms" << std::endl;
    start = std::chrono::high_resolution_clock::now();
    matmul_opt(a, b, c);
    end = std::chrono::high_resolution_clock::now();
    std::cout << "Time: " << std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count() << " ms" << std::endl;
    return 0;
}

上面的代码中,我们定义了两个矩阵 ab,并分别使用两种算法 matmulmatmul_opt 计算它们的乘积。其中 matmul 算法按照矩阵乘法的定义计算,而 matmul_opt 算法则使用数据局部性优化,将矩阵 a 中的一行和矩阵 b 中的一列存储在同一块内存中,以提高数据局部性。最后输出两种算法的计算时间。

总结

本篇文章介绍了 C++11 并行编程的基本概念和使用方法,并探究了一些优化方法,包括并行算法和数据局部性优化。并行编程可以充分利用多核处理器的能力,提高程序的性能。同时,需要注意保护共享数据的访问和线程间的通信,以避免发生数据不一致等问题。

来源:JavaScript中文网 ,转载请注明来源 本文地址:https://www.javascriptcn.com/post/65c1f55eadd4f0e0ffbf2ad9