CUDA

CUDA
Тип	GPGPU
Разработчик	NVIDIA Corporation
Операционная система	Windows XP и выше, OS X, Linux
Аппаратная платформа	Поддерживаемые GPU
Последняя версия	5.5 (15 августа 2013)
Лицензия	Freeware
Сайт	nvidia.ru/object/cuda_home_new_ru.html

CUDA (англ. Compute Unified Device Architecture) — программно-аппаратная архитектура параллельных вычислений, которая позволяет существенно увеличить вычислительную производительность благодаря использованию графических процессоров фирмы NVIDIA.

CUDA SDK позволяет программистам реализовывать на специальном упрощённом диалекте языка программирования Си алгоритмы, выполнимые на графических процессорах NVIDIA, и включать специальные функции в текст программы на Cи. Архитектура CUDA даёт разработчику возможность по своему усмотрению организовывать доступ к набору инструкций графического ускорителя и управлять его памятью.

Содержание

1 Программная архитектура
2 Оборудование
3 Преимущества
4 Ограничения
5 Поддерживаемые GPU и графические ускорители^[4]
6 Особенности и спецификации различных версий
7 Пример
8 CUDA как предмет в вузах
9 Ссылки
- 9.1 Официальные ресурсы
- 9.2 Неофициальные ресурсы
10 Примечания
11 См. также

Программная архитектура

Первоначальная версия CUDA SDK была представлена 15 февраля 2007 года. В основе интерфейса программирования приложений CUDA лежит язык Си с некоторыми ограничениями. Для успешной трансляции кода на этом языке, в состав CUDA SDK входит собственный Си-компилятор командной строки nvcc компании Nvidia. Компилятор nvcc создан на основе открытого компилятора Open64 и предназначен для трансляции host-кода (главного, управляющего кода) и device-кода (аппаратного кода) (файлов с расширением .cu) в объектные файлы, пригодные в процессе сборки конечной программы или библиотеки в любой среде программирования, например в NetBeans.

В архитектуре CUDA используется модель памяти грид, кластерное моделирование потоков и SIMD-инструкции. Применима не только для высокопроизводительных графических вычислений, но и для различных научных вычислений с использованием видеокарт nVidia. Ученые и исследователи широко используют CUDA в различных областях, включая астрофизику, вычислительную биологию и химию, моделирование динамики жидкостей, электромагнитных взаимодействий, компьютерную томографию, сейсмический анализ и многое другое. В CUDA имеется возможность подключения к приложениям, использующим OpenGL и Direct3D. CUDA - кроссплатформенное программное обеспечение для таких операционных систем как Linux, Mac OS X и Windows.

22 марта 2010 года nVidia выпустила CUDA Toolkit 3.0, который содержал поддержку OpenCL.^[1]

Оборудование

Платформа CUDA Впервые появились на рынке с выходом чипа NVIDIA восьмого поколения G80 и стала присутствовать во всех последующих сериях графических чипов, которые используются в семействах ускорителей GeForce, Quadro и NVidia Tesla.

Первая серия оборудования, поддерживающая CUDA SDK, G8x, имела 32-битный векторный процессор одинарной точности, использующий CUDA SDK как API (CUDA поддерживает тип double языка Си, однако сейчас его точность понижена до 32-битного с плавающей запятой). Более поздние процессоры GT200 имеют поддержку 64-битной точности (только для SFU), но производительность значительно хуже, чем для 32-битной точности (из-за того, что SFU всего два на каждый потоковый мультипроцессор, а скалярных процессоров - восемь). Графический процессор организует аппаратную многопоточность, что позволяет задействовать все ресурсы графического процессора. Таким образом, открывается перспектива переложить функции физического ускорителя на графический ускоритель (пример реализации — nVidia PhysX). Также открываются широкие возможности использования графического оборудования компьютера для выполнения сложных неграфических вычислений: например, в вычислительной биологии и в иных отраслях науки.

Преимущества

По сравнению с традиционным подходом к организации вычислений общего назначения посредством возможностей графических API, у архитектуры CUDA отмечают следующие преимущества в этой области:

Интерфейс программирования приложений CUDA (CUDA API) основан на стандартном языке программирования Си с некоторыми ограничениями. По мнению разработчиков, это должно упростить и сгладить процесс изучения архитектуры CUDA^[2]
Разделяемая между потоками память (shared memory) размером в 16 Кб может быть использована под организованный пользователем кэш с более широкой полосой пропускания, чем при выборке из обычных текстур
Более эффективные транзакции между памятью центрального процессора и видеопамятью
Полная аппаратная поддержка целочисленных и побитовых операций
Поддержка компиляции GPU кода средствами открытого LLVM^[3]

Ограничения

Все функции, выполнимые на устройстве, не поддерживают рекурсии (в версии CUDA Toolkit 3.1 поддерживает указатели и рекурсию) и имеют некоторые другие ограничения

Поддерживаемые GPU и графические ускорители^[4]

Перечень устройств от производителя оборудования Nvidia с заявленной полной поддержкой технологии CUDA приведён на официальном сайте Nvidia: CUDA-Enabled GPU Products (англ.).

Фактически же, в настоящее время на рынке аппаратных средств для ПК поддержку технологии CUDA обеспечивают следующие периферийные устройства^[4]:

Версия спецификации	GPU	Видеокарты
1.0	G80, G92, G92b, G94, G94b	GeForce 8800GTX/Ultra, 9400GT, 9600GT, 9800GT, Tesla C/D/S870, FX4/5600, 360M, GT 420
1.1	G86, G84, G98, G96, G96b, G94, G94b, G92, G92b	GeForce 8400GS/GT, 8600GT/GTS, 8800GT/GTS, 9600 GSO, 9800GTX/GX2, GTS 250, GT 120/30/40, FX 4/570, 3/580, 17/18/3700, 4700x2, 1xxM, 32/370M, 3/5/770M, 16/17/27/28/36/37/3800M, NVS420/50
1.2	GT218, GT216, GT215	GeForce 210, GT 220/40, FX380 LP, 1800M, 370/380M, NVS 2/3100M
1.3	GT200, GT200b	GeForce GTX 260, GTX 275, GTX 280, GTX 285, GTX 295, Tesla C/M1060, S1070, Quadro CX, FX 3/4/5800
2.0	GF100, GF110	GeForce (GF100) GTX 465, GTX 470, GTX 480, Tesla C2050, C2070, S/M2050/70, Quadro Plex 7000, Quadro 4000, 5000, 6000, GeForce (GF110) GTX 560 TI 448, GTX570, GTX580, GTX590
2.1	GF104, GF114, GF116, GF108, GF106	GeForce 610M, GT 430, GT 440, GT 640, GTS 450, GTX 460, GTX 550 Ti, GTX 560, GTX 560 Ti, 500M, Quadro 600, 2000
3.0	GK104, GK106, GK107	GeForce GTX 690, GTX 680, GTX 670, GTX 660 Ti, GTX 660, GTX 650 Ti, GTX 650, GeForce GTX 680MX, GeForce GTX 680M, GeForce GTX 675MX, GeForce GTX 670MX, GTX 660M, GeForce GT 650M, GeForce GT 645M, GeForce GT 640M
3.5	GK110, GK208	Tesla K40, K20X, K20, GeForce GTX TITAN, GTX780Ti, GTX 780, Quadro K6000, GT 630, GT 640(Rev.2), GeForce 7**M

Nvidia GeForce для настольных компьютеров
GeForce GTX 590
GeForce GTX 580
GeForce GTX 570
GeForce GTX 560 Ti
GeForce GTX 560
GeForce GTX 550 Ti
GeForce GTX 520 ^[5]
GeForce GTX 480
GeForce GTX 470
GeForce GTX 465
GeForce GTX 460
GeForce GTS 450
GeForce GTX 295
GeForce GTX 285
GeForce GTX 280
GeForce GTX 275
GeForce GTX 260
GeForce GTS 250
GeForce GT 240
GeForce GT 220
GeForce 210
GeForce GTS 150
GeForce GT 130
GeForce GT 120
GeForce G100
GeForce 9800 GX2
GeForce 9800 GTX+
GeForce 9800 GTX
GeForce 9800 GT
GeForce 9600 GSO
GeForce 9600 GT
GeForce 9500 GT
GeForce 9400 GT
GeForce 9400 mGPU
GeForce 9300 mGPU
GeForce 8800 GTS 512
GeForce 8800 GT
GeForce 8600 GTS
GeForce 8600 GT
GeForce 8500 GT
GeForce 8400 GS

Nvidia GeForce для мобильных компьютеров
GeForce GTX 580M
GeForce GTX 570M
GeForce GTX 560M
GeForce GT 555M
GeForce GT 540M
GeForce GT 525M
GeForce GT 520M
GeForce GTX 485M
GeForce GTX 480M
GeForce GTX 470M
GeForce GTX 460M
GeForce GT 445M
GeForce GT 435M
GeForce GT 425M
GeForce GT 420M
GeForce GT 415M
GeForce GTX 285M
GeForce GTX 280M
GeForce GTX 260M
GeForce GTS 360M
GeForce GTS 350M
GeForce GTS 160M
GeForce GTS 150M
GeForce GT 335M
GeForce GT 330M
GeForce GT 325M
GeForce GT 240M
GeForce GT 130M
GeForce G210M
GeForce G110M
GeForce G105M
GeForce 310M
GeForce 305M
GeForce 9800M GTX
GeForce 9800M GT
GeForce 9800M GTS
GeForce 9700M GTS
GeForce 9700M GT
GeForce 9650M GS
GeForce 9600M GT
GeForce 9600M GS
GeForce 9500M GS
GeForce 9500M G
GeForce 9300M GS
GeForce 9300M G
GeForce 9200M GS
GeForce 9100M G
GeForce 8800M GTS
GeForce 8700M GT
GeForce 8600M GT
GeForce 8600M GS
GeForce 8400M GT
GeForce 8400M GS

Nvidia Tesla*
Tesla C2050/C2070
Tesla M2050/M2070/M2090
Tesla S2050
Tesla S1070
Tesla M1060
Tesla C1060
Tesla C870
Tesla D870
Tesla S870

Nvidia Quadro для настольных компьютеров
Quadro 6000
Quadro 5000
Quadro 4000
Quadro 2000
Quadro 600
Quadro FX 5800
Quadro FX 5600
Quadro FX 4800
Quadro FX 4700 X2
Quadro FX 4600
Quadro FX 3700
Quadro FX 1700
Quadro FX 570
Quadro FX 470
Quadro FX 380 Low Profile
Quadro FX 370
Quadro FX 370 Low Profile
Quadro CX
Quadro NVS 450
Quadro NVS 420
Quadro NVS 290
Quadro Plex 2100 D4
Quadro Plex 2200 D2
Quadro Plex 2100 S4
Quadro Plex 1000 Model IV

Nvidia Quadro для мобильных компьютеров
Quadro 5010M
Quadro 5000M
Quadro 4000M
Quadro 3000M
Quadro 2000M
Quadro 1000M
Quadro FX 3800M
Quadro FX 3700M
Quadro FX 3600M
Quadro FX 2800M
Quadro FX 2700M
Quadro FX 1800M
Quadro FX 1700M
Quadro FX 1600M
Quadro FX 880M
Quadro FX 770M
Quadro FX 570M
Quadro FX 380M
Quadro FX 370M
Quadro FX 360M
Quadro NVS 5100M
Quadro NVS 4200M
Quadro NVS 3100M
Quadro NVS 2100M
Quadro NVS 320M
Quadro NVS 160M
Quadro NVS 150M
Quadro NVS 140M
Quadro NVS 135M
Quadro NVS 130M

Модели Tesla C1060, Tesla S1070, Tesla C2050/C2070, Tesla M2050/M2070, Tesla S2050 позволяют производить вычисления на GPU с двойной точностью.

Особенности и спецификации различных версий

Feature support (unlisted features are supported for all compute capabilities)	Compute capability (version)
	1.0	1.1	1.2	1.3	2.x	3.0	3.5
Integer atomic functions operating on 32-bit words in global memory	Нет	Да
atomicExch() operating on 32-bit floating point values in global memory	Нет	Да
Integer atomic functions operating on 32-bit words in shared memory	Нет		Да
atomicExch() operating on 32-bit floating point values in shared memory
Integer atomic functions operating on 64-bit words in global memory
Warp vote functions
Double-precision floating-point operations	Нет			Да
Atomic functions operating on 64-bit integer values in shared memory	Нет				Да
Floating-point atomic addition operating on 32-bit words in global and shared memory
_ballot()
_threadfence_system()
_syncthreads_count(), _syncthreads_and(), _syncthreads_or()
Surface functions
3D grid of thread block
Warp shuffle functions	Нет					Да
Funnel shift	Нет						Да
Dynamic parallelism

Technical specifications	Compute capability (version)
Technical specifications	1.0	1.1	1.2	1.3	2.x	3.0	3.5
Maximum dimensionality of grid of thread blocks	2				3
Maximum x-, y-, or z-dimension of a grid of thread blocks	65535					2³¹-1
Maximum dimensionality of thread block	3
Maximum x- or y-dimension of a block	512				1024
Maximum z-dimension of a block	64
Maximum number of threads per block	512				1024
Warp size	32
Maximum number of resident blocks per multiprocessor	8					16
Maximum number of resident warps per multiprocessor	24		32		48	64
Maximum number of resident threads per multiprocessor	768		1024		1536	2048
Number of 32-bit registers per multiprocessor	8 K		16 K		32 K	64 K
Maximum number of 32-bit registers per thread	128				63		255
Maximum amount of shared memory per multiprocessor	16 KB				48 KB
Number of shared memory banks	16				32
Amount of local memory per thread	16 KB				512 KB
Constant memory size	64 KB
Cache working set per multiprocessor for constant memory	8 KB
Cache working set per multiprocessor for texture memory	Device dependent, between 6 KB and 8 KB
Maximum width for 1D texture reference bound to a CUDA array	8192				65536
Maximum width for 1D texture reference bound to linear memory	2²⁷
Maximum width and number of layers for a 1D layered texture reference	8192 x 512				16384 x 2048
Maximum width and height for 2D texture reference bound to a CUDA array	65536 x 32768				65536 x 65535
Maximum width and height for 2D texture reference bound to a linear memory	65000 x 65000				65000 x 65000
Maximum width and height for 2D texture reference bound to a CUDA array supporting texture gather	N/A				16384 x 16384
Maximum width, height, and number of layers for a 2D layered texture reference	8192 x 8192 x 512				16384 x 16384 x 2048
Maximum width, height and depth for a 3D texture reference bound to linear memory or a CUDA array	2048 x 2048 x 2048					4096 x 4096 x 4096
Maximum width (and height) for a cubemap texture reference	N/A				16384
Maximum width (and height) and number of layers for a cubemap layered texture reference	N/A				16384 x 2046
Maximum number of textures that can be bound to a kernel	128					256
Maximum width for a 1D surface reference bound to a CUDA array	Not supported				65536
Maximum width and number of layers for a 1D layered surface reference					65536 x 2048
Maximum width and height for a 2D surface reference bound to a CUDA array					65536 x 32768
Maximum width, height, and number of layers for a 2D layered surface reference					65536 x 32768 x 2048
Maximum width, height, and depth for a 3D surface reference bound to a CUDA array					65536 x 32768 x 2048
Maximum width (and height) for a cubemap surface reference bound to a CUDA array					32768
Maximum width (and height) and number of layers for a cubemap layered surface reference					32768 x 2046
Maximum number of surfaces that can be bound to a kernel					8	16
Maximum number of instructions per kernel	2 million				512 million

Architecture specifications	Compute capability (version)
Architecture specifications	1.0	1.1	1.2	1.3	2.0	2.1	3.0	3.5
Number of cores for integer and floating-point arithmetic functions operations	8^[6]				32	48	192	192
Number of special function units for single-precision floating-point transcendental functions	2				4	8	32	32
Number of texture filtering units for every texture address unit or render output unit (ROP)	2				4	8	32	32
Number of warp schedulers	1				2	2	4	4
Number of instructions issued at once by scheduler	1				1	2^[7]	2	2

Пример

Этот пример кода на C++ загрузки текстур из изображения в массив на GPU:

cudaArray* cu_array;
texture<float, 2> tex;
 
// Allocate array
cudaMalloc( &cu_array, cudaCreateChannelDesc<float>(), width, height );
 
// Copy image data to array
cudaMemcpy( cu_array, image, width*height, cudaMemcpyHostToDevice);
 
// Bind the array to the texture
cudaBindTexture( tex, cu_array);
 
// Run kernel
dim3 blockDim(16, 16, 1);
dim3 gridDim(width / blockDim.x, height / blockDim.y, 1);
kernel<<< gridDim, blockDim, 0 >>>(d_odata, width, height);
cudaUnbindTexture(tex);
 
__global__ void kernel(float* odata, int height, int width)
{
   unsigned int x = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int y = blockIdx.y*blockDim.y + threadIdx.y;
   float c = texfetch(tex, x, y);
   odata[y*width+x] = c;
}

Пример программы на языке Python, перемножающий элементы массива средствами GPU. Взаимодействие идёт с использованием PyCUDA ^[8]

import pycuda.driver as drv
import numpy
 
drv.init()
dev = drv.Device(0)
ctx = dev.make_context()
 
mod = drv.SourceModule("""
__global__ void multiply_them(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""")
 
multiply_them = mod.get_function("multiply_them")
 
a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)
 
dest = numpy.zeros_like(a)
multiply_them(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1))
 
print dest-a*b

CUDA как предмет в вузах

На Украине курсы по CUDA читаются в Киевском институте системного анализа.^[9]

Ссылки

Официальные ресурсы

CUDA Zone (рус.) — официальный сайт CUDA
CUDA GPU Computing (англ.) — официальные веб-форумы, посвящённые вычислениям CUDA

Неофициальные ресурсы

Tom's Hardware

Дмитрий Чеканов. nVidia CUDA: вычисления на видеокарте или смерть CPU?. Tom's Hardware (22 июня 2008 г.). Проверено 20 января 2009. Архивировано из первоисточника 4 марта 2012.
Дмитрий Чеканов. nVidia CUDA: тесты приложений на GPU для массового рынка. Tom's Hardware (19 мая 2009 г.). Проверено 19 мая 2009. Архивировано из первоисточника 4 марта 2012.

iXBT.com

Алексей Берилло. NVIDIA CUDA — неграфические вычисления на графических процессорах. Часть 1. iXBT.com (23 сентября 2008 г.). Проверено 20 января 2009. Архивировано из первоисточника 4 марта 2012.
Алексей Берилло. NVIDIA CUDA — неграфические вычисления на графических процессорах. Часть 2. iXBT.com (22 октября 2008 г.). — Примеры внедрения NVIDIA CUDA. Проверено 20 января 2009. Архивировано из первоисточника 4 марта 2012.

Другие ресурсы

Боресков Алексей Викторович. Основы CUDA (20 января 2009 г.). Проверено 20 января 2009. Архивировано из первоисточника 4 марта 2012.
Владимир Фролов. Введение в технологию CUDA. Сетевой журнал «Компьютерная графика и мультимедиа» (19 декабря 2008 г.). Проверено 28 октября 2009. Архивировано из первоисточника 4 марта 2012.
Игорь Осколков. NVIDIA CUDA – доступный билет в мир больших вычислений. Компьютерра (30 апреля 2009 г.). Проверено 3 мая 2009.
Владимир Фролов. Введение в технологию CUDA (1 августа 2009 г.). Проверено 3 апреля 2010. Архивировано из первоисточника 4 марта 2012.
GPGPU.ru. Использование видеокарт для вычислений
ParallelCompute.sourceforge.net. Центр Параллельных Вычислений

Примечания

nVidia Launches CUDA Toolkit 3.0, expands OpenCL (англ.). Архивировано из первоисточника 4 марта 2012.

CUDA Programming Guide. Chapter 1. Introduction to CUDA → 1.2 CUDA: A New Architecture for Computing on the GPU

[1]

↑ Приобрели CUDA?

ASUS оснащает свою версию GeForce GT 520 пассивным кулером - Ferra.ru

↑ Cores perform only single-precision floating-point arithmetics. There is 1 double-precision floating-point unit.

↑ The first scheduler is in charge of the warps with an odd ID and the second scheduler is in charge of the warps with an even ID.

PyCUDA. Архивировано из первоисточника 4 марта 2012.

↑ В Дубне будут учить решать задачи на GPU и в среде CUDA. 3DNews (28 декабря 2009 года). Проверено 10 февраля 2010.

См. также

GPGPU

AMD FireStream

Параллельные вычислительные системы

SIMD

OpenCL

OpenACC

Nvidia

Графические
процессоры

Ранние NV1 • NV2

Семейство RIVA 128 • TNT • TNT2

Семейство GeForce GeForce 256 • GeForce 2 • GeForce 3 • GeForce 4 • GeForce FX • GeForce 6 • GeForce 7 • GeForce 8 • GeForce 9 • GeForce 100 • GeForce 200 • GeForce 400 • GeForce 500 • GeForce 600 • GeForce 700 • GeForce 800 (англ.)русск. • GeForce 900 (англ.)русск. • GeForce 1000 (англ.)русск. • GeForce 1100 (англ.)русск.

Рабочие станции и HPC Quadro • (Plex • CX) • Tesla

Технологии SLI • PureVideo • TurboCache • PhysX • CUDA • OptiX • FXAA • 3D Vision

Чипсеты
материнских
плат

Семейство GeForce GeForce 8 • GeForce 9 • ION

Семейство nForce nForce 220 / 415 / 420 • nForce2 • nForce3 • nForce4 • nForce 500 • nForce 600 • nForce 700

Технологии ESA • EPP • LinkBoost • MXM • MCP • SoundStorm • SLI

Прочее

Консоли NV2A (Xbox) • RSX (PlayStation 3) • SHIELD

SoC GoForce • Tegra (Tegra APX 2500 • Tegra (серия 600) • Tegra APX 2600 • Tegra 2 • Tegra 3 • Tegra 4 • Tegra 4i • Tegra K1 • Tegra X1)

Драйверы / ПО ForceWare • System Tools • nView • Gelato • CUDA • Cg

Приобретения 3dfx Interactive • ULi • Hybrid Graphics • PortalPlayer • Mental Images • Ageia • Icera

Это заготовка статьи о компьютерах. Вы можете помочь проекту, дополнив её.
Это примечание по возможности следует заменить более точным.

Miami-art.ru

Создание и развитие сайта

Лучшее

CUDA

Содержание

Программная архитектура

Оборудование

Преимущества

Ограничения

Поддерживаемые GPU и графические ускорители^[4]

Особенности и спецификации различных версий

Пример

CUDA как предмет в вузах

Ссылки

Официальные ресурсы

Неофициальные ресурсы

Примечания

См. также

Miami-art.ru

Создание и развитие сайта

Лучшее

CUDA

Содержание

Программная архитектура

Оборудование

Преимущества

Ограничения

Поддерживаемые GPU и графические ускорители[4]

Особенности и спецификации различных версий

Пример

CUDA как предмет в вузах

Ссылки

Официальные ресурсы

Неофициальные ресурсы

Примечания

См. также

Поддерживаемые GPU и графические ускорители^[4]