浅谈CUDA并行计算体系

2016-03-05叶毅嘉

无线互联科技 2015年6期

叶毅嘉

摘要：近年来，图形处理器（Graphic Process Unit，GPU）的快速发展使得其逐步用于通用计算。在性能各异的并行计算平台中，英伟达（NVIDIA）公司推出的计算统一设备架构（compute Unified Device Architecture，CUDA）因为充分利用GPU（Graphic Processing Unit）强大的计算能力实现了通用并行计算而受到研究者们的青睐。

关键词：图形处理器；CUDA；并行处理

0 引言

CUDA（Compute Unified Device Architecture）模型是由英伟达（NVIDIA）公司推出的一种基于GPU通用计算的编程模型和计算体系。该架构不需要借助图像学API，直接使用类C语言即可完成并行计算，使得使用GPU处理图像中的复杂计算成为可能。

1 CUDA编程模型

CUDA将CPU串行处理和GPU并行处理完美的结合起来。一个完整的CUDA程序是由主机（CPU）程序和设备（GPU）程序共同组成，主机程序主要是为设备程序的运行做前期准备工作，主要包括数据初始化、数据拷贝、内核函数间数据交换等。而设备程序主要就是完成并行计算的任务。CUDA编程模型分为两个主要部分：CUDA软件架构和CUDA硬件架构。其中CUDA软件架构又包括了软件栈、通用编程模型和存储模型三个方面。下面将从上述内容对CUDA的编程模型进行介绍。

1.1 软件模型

根据NVIDIA的官方文档，CUDA的软件体系共分3个方面：CUDA设备驱动程序、CUDA运行时库和编程接口、CUDA官方函数库。其中，设备驱动器是直接作用于GPU上的，开发者可以通过CUDA运行时库和CUDA函数库中的函数调用来使用设备。CUDA编程模型可以根据不同的需求提供不同的API，开发者可根据对GPU的控制程度来使用。并且为了很好的利用CUDA架构，CUDA还提供了一系列的辅助开发、调试的工具。

1.2 硬件模型

软件程序的运行是建立在硬件的基础上的，而GPU之所以能够比CPU处理数据更加有效，在于GPU中有更多的晶体结构可用于计算。而在CUDA的硬件架构中，流处理器阵列是由多个线程处理器簇组成，而每个TPC又是由多个流处理器组成的。每个流处理器拥有一套完整的逻辑处理单元，就有一系列的功能，如取值、编码、译码等。每个流处理器是由8个流处理单元和2组超级函数单元构成。

2 线程模型

在CUDA编程模型中是通过大量的并行线程来实现计算的，因此CUDA架构下最小的执行单元线程（thread）。每个线程块中是由多个可以通信的线程组成，每个线程和线程块都有唯一的标示ID，则可以通过索引确切定位到每个线程。线程的索引和线程的ID是与线程块的维度所确定的，一维线程索引和ID是相同的，二维维度为（m，n）的线程块，线程索引（x，y）所对应的线程ID为x+y*m；三维维度为（m，n，k）的线程块，线程索引（x，y，z）所对应的线程ID为x+y*m+z*m*n。CUDA线程的开辟是根据所需解决问题的数据大小来确定的，而每个线程块内的线程数由于其共享一个核心处理器的存储器资源，则块内线程数量是有限制的，这个可以通过NVIDIA给出的资料查询。一般为了使每个线程块的调度达到最优值，每个块内的线程数一般设为16的倍数，但不能超过限定值。

3 存储器模型

CUDA内部存储器的结构是由寄存器、全局存储器、共享内存、本地寄存器、常量内存和纹理内存组成。下面是对这6个存储器的介绍：

寄存器位于GPU晶体片中，在各种CUDA存储结构中，它的访问速度快，因为它是线程所私有的，不允许其他线程访问和使用。但由于GPU硬件的限制，寄存器不是无限的，每个线程块中的寄存器是事先分配好的。但如果内核函数中分配的寄存器数量超过了寄存器的总数，编译器会默认的将数据转入设备端的本地内存中，这样就会大大降低程序数据访问的效率。

全局寄存器也称之为线性寄存器，占设备内存的DRAM的大部分空间，在内核函数运行时，所有的线程都可以读写其中的数据。正因如此，它的访问速度较慢，耗时较多，线程访问全局寄存器一般都要花费几百个时间周期。全局寄存器一般在CPU中完成数据空间的开辟、数据的拷贝和传输、数据的释放等操作。

常量存储器位于显存中，空间大小一般为64K，是一段只读的地址空间，由于其具有缓存并且无访问冲突的优势，常常用于常数的访问。

本地存储器是位于编译器分配的全局存储中，是归每个线程所私有的数据空间，与全局存储器相同，其在程序运行过程中不会缓存，所以其访问速度也较慢。本地存储器一般用来存放内核函数所声明的变量。

共享存储器是可以被同一块中的所有线程访问的可读写存储器，它的生存期就是块的生命期。在没有冲突的情况下，访问共享存储器几乎与访问寄存器一样快，是实现线程间通信的最好方法。在同一个块内，所有的线程都能够读共享存储器中的数据，相比于AMD的显卡来说，共享存储器是NVIDIA显卡的一项特色。其和寄存器一样位于GPU的晶体芯片中，所以其访问速度较之全局内存和本地内存来说，其效率较高，并且可以减少线程块中的线程通信的时间，一般只有2个时间周期。但由于其空间较小，一般每个SM有一个16K大小的共享寄存器，并且其数据只能在一个线程块中共享。这就容易导致各线程块中的数据不同步，容易引起数据混乱，为保证数据在程序执行中的同步性，CUDA中使用syncthreads（）函数来实现线程块的同步。

纹理存储器是GPU中专门用来渲染纹理的图像处理单元，它是一块只读空间。在内核函数运行的过程中，使用纹理寄存器首先需将数据与纹理绑定。纹理存储器与常数存储器一样具有缓存机制。纹理存储器相较于其它存储器有两大优势：一是纹理存储器中的数据可以反复使用，避免了数据的重复读取，提高了效率；二是可以拾取坐标对应位置附近领域内的像元数据，该优势在对图像进行处理中，可以提高局部性数据读取效率。

4 结语

21世纪人类面临的众多重要科技课题，这些课题没有万亿次以上的计算能力是无法解决的。GPU与生俱来就有强大的计算能力，NVIDIA公司推出了cuDA架构使开发的难度大大降低，程序员可以很容易地利用GPU这个计算工具进行并行程序的开发。现在GPU在非图形领域得到了广泛的应用，基于GPU的通用计算研究也逐渐深入。

无线互联科技

2015年6期

浅谈CUDA并行计算体系

杂志排行

无线互联科技的其它文章