CUDA主题的文章列表，还有CUDA的技术要点_第1页

GPU 的硬件基本概念，Cuda和Opencl名词关系对应

GPU的硬件基本概念Nvidia的版本：　　实际上在nVidia的GPU里，最基本的处理单元是所谓的SP(StreamingProcessor)，而一颗nVidia的GPU里，会有非常多的SP可以同时做计算;而数个SP会在附加一些其他单元，一起组成一个SM(StreamingMultiprocessor)。几个SM则会...

代码星球·2021-02-25

GPGPU OpenCL/CUDA 高性能编程的10大注意事项

转载自：http://hc.csdn.net/contents/content_details?type=1&id=3411.展开循环如果提前知道了循环的次数，可以进行循环展开，这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。1#include2usingnamespacest...

代码星球·2021-02-25

5.2 CUDA Histogram直方图

Histogramming是一种从大的数据集中提取典型特征和模式的方式.在统计学中，直方图（英语：Histogram）是一种对数据分布情况的图形表示，是一种二维统计图表，它的两个坐标分别是统计样本和该样本对应的某个属性的度量。图像直方图（英语：ImageHistogram）是用以表示数字图像中亮度分布的直方图，标绘了图...

代码星球·2021-02-24

6.2 CUDA streams

nivdia给出的解释是:Asequenceofoperationsthatexecuteinissue-orderontheGPU. 可以理解成在GPU上执行的操作序列.比如下面的这些动作.cudaMemcpy()kernellaunchdevicesynccudaMemcpy()不同的流操作可能是交叉执行...

代码星球·2021-02-24

6.1 CUDA: pinned memory固定存储

在CUDA编程中,内存拷贝是非常费时的一个动作.从上图我们可以看出:1.CPU和GPU之间的总线bus是PCIe,是双向传输的.2.CPU和GPU之间的数据拷贝使用DMA机制来实现,非常容易理解,为了更快的传输速度. 我们都知道，虽然在运行速度上硬盘不如内存，但在容量上内存是无法与硬盘相提并论的。...

代码星球·2021-02-24

5.1 CUDA atomic原子操作

和许多多线程并行问题一样，CUDA也存在互斥访问的问题，即当一个线程改变变量Ｘ,而另外一个线程在读取变量Ｘ的值，执行原子操作类似于有一个自旋锁，只有等Ｘ的变量在改变完成之后，才能执行读操作，这样可以保证每一次读取的都是最新的值.在kernel程序中，做统计累加，都需要使用原子操作：atomicAdd();原子操作很明显...

代码星球·2021-02-24

4.4 CUDA prefix sum一步一步优化

前缀求和由一个二元操作符和一个输入向量组成，虽然名字叫求和，但操作符不一定是加法。先解释一下，以加法为例：第一行是输入，第二行是对应的输出。可以看到，Output[1]=Input[0]+Input[1]，而Output[length-1]就是整个输入向量元素之和。为什么要使用并行计算？假如用串行计算来计算输出向量，那...

代码星球·2021-02-24

4.2 CUDA Reduction 一步一步优化

每个线程是基于一个树状的访问模型，从上至下，上一层读取数据相加得到下一层的数据．不停的迭代，直到访问完所有的数据．利用这么多的线程块(threadblock)我们需要做的事情如下：１．　处理非常大的数组２．　让GPU的每个处理器保持忙碌３．　每个threadblock迭代减少数组的区域．　比如这个图，第一次是８个数据，...

代码星球·2021-02-24

2.3CUDA矩阵乘法

能相乘的两个矩阵，必须满足一个矩阵的行数和第二个矩阵的列数相同. A(N*P)*B(P*M)=C(N*M).　其中P是行数，N是列数，　从宽高的角度来说，即A的宽度和B的高度是相同的．C矩阵=ha*wb.其中C(i,j)=A矩阵中的i行和B矩阵中的j列进行点乘得到该点的值．//C=A*BvoidMatrixM...

代码星球·2021-02-24

2.2CUDA-Memory(存储)和bank-conflict

在CUDA基本概念介绍有简单介绍CUDAmemory。这里详细介绍：每一个线程拥有自己的私有存储器，每一个线程块拥有一块共享存储器(Sharedmemory)；最后，grid中所有的线程都可以访问同一块全局存储器(globalmemory)。除此之外，还有两种可以被所有线程访问的只读存储器：常数存储器（constant...

代码星球·2021-02-24

2.1CUDA-Thread

在HOST端我们会分配block的dimension，grid的dimension。但是对应到实际的硬件是如何执行这些硬件的呢？如下图：lanuchkernel执行一个grid。一个Grid有8个block，可以有两个硬件执行单元，一个执行一个block,需要执行4次，或者像右边有4个执行单元，一共执行两次。这个就很灵...

代码星球·2021-02-24

CUDA学习资料分享(随时更新)

1.Programming_Massively_Parallel_Processors.pdf2.CUDA_C_Programming_Guide.pdf3. CUDA范例精解通用GPU编程.pdf4.GPU高性能编程CUDA实战中文.pdf5. CUDA深入浅出.pdf...

代码星球·2021-02-24

CUDA网格限制

如图...

代码星球·2021-02-24

CUDA基本概念

CUDA计算模型CUDA中计算分为两部分，串行部分在Host上执行，即CPU，而并行部分在Device上执行，即GPU。相比传统的C语言，CUDA增加了一些扩展，包括了库和关键字。CUDA代码提交给NVCC编译器，该编译器将代码分为Host代码和Device代码两部分。Host代码即为原本的C语言，交由GCC,ICC或...

代码星球·2021-02-24

win10+tensorflow1.12+cuda9.0+cudnn7.0+vs2017+anaconda3.6 +keras

https://www.cnblogs.com/hezhiyao/p/8292512.htmlhttps://blog.csdn.net/jay100500/article/details/72809338https://blog.csdn.net/weixin_39290638/article/details/800...

代码星球·2021-02-23