CUDA

[英伟达] [北京或者上海] [深度学习性能优化-CUDA]

2024-10-21T09:05:57Z

我们目前正在寻找一名深度学习性能软件工程师！我们正在扩展我们的推理研究与开发。我们寻求优秀的软件工程师和高级软件工程师加入我们的团队。我们专注于开发 GPU 加速的深度学习软件。全球的研究人员正在使用 NVIDIA GPU 推动深度学习的革命，这在众多领域实现了突破。加入我们的团队，构建使新解决方案成为可能的软件。与深度学习社区合作，在 Tensor-RT 中实现最新算法的公开发布。我们需要你能够在快节奏、以客户为中心的团队中工作，并且具备出色的沟通技巧。

你将要做的工作包括：

开发高度优化的推理深度学习内核
进行性能优化、分析和调整
与汽车、图像理解和语音理解等领域的跨协作团队合作，开发创新解决方案
偶尔出差参加会议和为客户进行技术咨询和培训

我们希望看到的资质：

相关学科（计算机工程、计算机科学与工程、计算机科学、人工智能）的硕士或博士学位或同等经验
有帮助的软件敏捷技能
出色的 C/C++编程和软件设计技能
Python 经验者优先
具有性能建模、分析、调试和代码优化的知识，或对 CPU 和 GPU 的架构知识
希望有 GPU 编程经验（ CUDA 或 OpenCL ）
5 年相关工作经验

如果感兴趣请联系：

微信：18867144803 简历投递： xiaozhao@nvidia.com

请备注投递的岗位方向如：姓名+深度学习性能优化

训练 SVC 声音模型 2060 12g 和 8G 的 3060TI 哪个快

2024-06-17T01:41:01Z

我看 2060 拥有 1920 个 CUDA 核心但 12G
3060TI 搭载了 4864 个 CUDA 核 8G
应该是 3060TI 更快吧能块多少呢

win11 使用 cuda 调用两个 gpu 计算时，自带任务管理器看不到 gpu2 的使用率？

2023-12-07T12:53:35Z

用 nvdia-smi 可看到功耗明显增加了，
用 gpu-z 也可以看到

是不是 win11 的 bug ？

[cuda 函数劫持] cuda12.2 版本新增了一个函数 cuGetProcAddress_v2，请问如何进行劫持？

2023-11-11T03:41:57Z

“static inline CUresult cuGetProcAddress_v2_ptsz(const char *symbol, void **funcPtr, int driverVersion, cuuint64_t flags, CUdriverProcAddressQueryResult *symbolStatus) {
const int procAddressMask = (CU_GET_PROC_ADDRESS_LEGACY_STREAM|
CU_GET_PROC_ADDRESS_PER_THREAD_DEFAULT_STREAM);
if ((flags & procAddressMask) == 0) {
flags |= CU_GET_PROC_ADDRESS_PER_THREAD_DEFAULT_STREAM;
}
return cuGetPr”

这个就是新增的函数结构。似乎跟之前的 cuGetProcAddress 函数差不多，只是新增了 CUdriverProcAddressQueryResult 这个结构体。请问这个函数该如何劫持呢？

Set Max_split_size_mb To Avoid Oom In Pytorch

2023-07-26T04:25:01Z

我们在 k8s 中部署了 stable-diffusion-webui 供任何想要体验的 Stable Diffusion Model 的用户使用. 随着一个又一个的请求, 我们频繁的遇到 CUDA 的 OOM 错误. 其中的一小部分确实是因为用户请求需要的资源超过了对应 GPU 能够提供的内存.

剩下的, 占大部分的, 是类似如下的令人困惑的场景.

{"error": "OutOfMemoryError", "detail": "", "body": "", "errors": "CUDA out of memory. Tried to allocate 1024.00 MiB (GPU 0; 11.76 GiB total capacity; 7.92 GiB already allocated; 784.31 MiB free; 10.63 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF"}

根据对 memory_stats 的理解:

GPU 的内存是 11.76G
pytorch 已经从 GPU 出请求的内存是 10.63G
pytorch 已经分配给用户的内存是 7.92G
pytorch 还可以分配的内存为 784.31M, 远小于 reserved 减 allocated 的 2.71G

这部分内存去哪儿了呢? 为什么在用户申请的时候依然没有被回收呢?

pytorch 是如何分配内存的?.

当用户请求内存时, pytorch 的处理流程可以简化为:

尝试通过 get_free_block 去寻找满足要求的空闲 Block
如果失败, 则通过 trigger_free_memory_callbacks 去回收已分配但不再使用的 Block 后, 再次尝试 get_free_block
如果失败, 则通过 alloc_block 去向 GPU 申请新的 Block
如果失败, 则通过 release_available_cached_blocks 将已申请但未分配的 Block 释放后再次尝试 alloc_block
如果失败, 则通过 release_cached_blocks 将所有已申请但未分配的 Block 释放, 再次尝试 alloc_block

我们注意到 pytorch 向 GPU 申请和分配给用户的内存都以 Block 为单位. pytorch 向 GPU 申请的 Block 大小并不固定, 受当时用户请求内存大小的影响. 用户释放内存后, Block 返回给 pytorch 并成为空闲状态. 用户下次申请时优先会复用空闲 Block, 而不是直接向 GPU 申请.

如果用户申请的内存大小小于满足要求的空闲 Block, pytorch 会进行一次 split 操作. 将 Block 分割成两个 Block, 除去用户请求大小的内存会被分割成一个独立的 Block, 留待后用并通过双向链表和分配给用户的 Block 相关联.

trigger_free_memory_callbacks 的回收过程会将相邻的空闲 Block 合并, 提高后续分配的灵活性.

相较于其他内存管理机制, pytorch 的内存管理相对简略:

pytorch 回收 Block, 只尝试合并相邻的空闲的 Block, 并不会进行搬运操作来处理不相连的空闲 Block
一旦 Block 被分割, 则 pytorch 无法将其释放. cudaMalloc 和 cudaFree 是对称的, 你无法仅释放某次分配的一部分内存.

上述的两点, 造成了 pytorch 可能因为 Block 碎片化, 导致大量内存无法被使用.

假设在某次分配内存时, pytorch 根据用户请求向 GPU 申请了一个 256M 的 Block.
<-------------------------- 256M ----------------------------->

经过多次分配和回收, 其使用情况可能变成如下.
<-- 28M(allocated) --><-- 100M(free) --><-- 28M(allocated) --><-- 100M(free) -->

此时如果用户申请 160M 内存:

虽然空闲的总内存大于 160M, 但是因为没有大于 160M 的 Block, 所以无法分配
pytorch 也无法将空闲的 100M+100M 内存返回给 GPU, 导致也无法向 GPU 申请 160M 内存.

max_split_size_mb 的作用

max_split_size_mb 的作用在于禁止 pytorch 对任何大于该大小的 Block 进行分割操作, 从而控制碎片化的程度. 我们上文讲诉的都是在未主动设置 max_split_size_mb 的情况下的逻辑, 此时 max_split_size_mb 取默认值 MAX_INT.

我们并没有找到官方推荐的 max_split_size_mb, 我们也不熟悉 pytorch 和 nvida, 很难给出一个很好的推荐值. 从实际使用来和直观逻辑来说, 128/256/512 之类的值都是可选的, 切实的避免了 OOM, 也没有导致明显的性能负担.

garbage_collection_threshold

pytorch 默认仅在无法获取到合适的空闲 Block 时触发回收, 这个值可以控制当 allocated/capacity 超过此值时触发主动的回收.

Expandable Segments

pytorch 最新(>v2.0.1)的 master 分支中添加了 Expandable Segments, 可能也可以缓解碎片化的问题.

References

[英伟达 NVIDIA] [上海/北京/深圳] [CUDA 相关岗位]

2023-06-09T10:09:29Z

[ 地点 ] ：Shanghai/Beijing/Shenzhen

[ 发送简历到 ] :xiaozhao@nvidia.com

[ WeChat 可加微信 ] ：18867144803

代码能力〉工作年限

Deep Learning Performance Architect-Compiler/LLM-TensorRT

主要做的是围绕深度学习端到端的 AI 软件全栈，包括但不限于训练框架、核心计算库、推理优化工具（比如 TensorRT ），AI 编译器，模型压缩等全栈软件栈。以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。

Required skills: 良好 C++编程，熟悉 AI 软件栈底层或者计算机体系结构，熟悉上层算法与 Python 是加分项。

地点：北京与上海

Deep Learning Performance Architect-TensorRT

负责 NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(e.g. TensorRT 模型导入的流程和相关工具，图优化，算子的 CUDA 实现及代码生成，算子性能优化等)，以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时，还将与 NVIDIA GPU 体系结构设计团队合作来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。

岗位基本要求: 熟练掌握 C++编程

其它密切相关的技能 /经验: 深度学习框架 /深度学习编译器开发，性能分析 /建模 /优化相关的方法论 /工具，计算机体系结构相关知识，CUDA kernel 开发 /优化

地点：北京与上海

Deep Learning Performance Architect-Operator

主要做的是针对不同 GPU 架构为 TensorRT, cuDNN, cuBLAS, cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现，包含在线代码生成，代码融合等相关开发工作，以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。

Required skills: 良好 C++编程，熟悉计算机体系结构，有 TVM, MLIR 相关开发经验是加分项。

地点：上海与北京

Deep Learning Performance Architect

主要做的是围绕运算架构的全栈优化，包括但不限于深度学习模型分析与预测，架构的性能分析，编译器性能分析以及对主流运算架构，软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。

Required skills: 良好 C++/Python ，熟悉 AI 软件或者计算机体系结构。

地点：北京与上海

Developer Technology Engineer-AI

客户的深度学习和高能性计算应用在 NVIDIA 生态上的移植和优化。这些应用包括大语言模型，CV ，Speech,推荐系统和分子动力学，计算力学，计算量子化学等。通过算法和工程优化，提供系统级的优化方案。深度与内部架构和产品团队合作，构建和完善 NVIDIA 软硬件加速生态。

Required skills: Required Skills: 良好 C/C++编程能力，分析能力和沟通能力，熟悉深度学习或 GPU 加速计算软件栈，扎实的深度学习理论基础或精通 GPU 架构和优化。

地点：北京，上海与深圳

如果实现 openmpi 和 cuda 编程的结合

2022-03-03T02:04:27Z

各位 V 友好，我刚接触 cuda 编程。现在可以实现利用单 cpu 和 gpu 来加速运算。现在需要实现多 cpu 和 gpu 来进一步加速运算，看网上例子，需要用到 openmpi, 还要开启它的 cuda 支持。请问：这条道路是否正确？还有哪些需要注意的地方，cuda 代码的修改，或者配置啥的？

怎么把显卡显存中的 rgba 图像渲染输出？

2022-01-31T12:27:55Z

问个技术问题，开始觉得很简单，但是搜了很久没结果。。。我用 NVIDIA 的 nvdec 把 4 个 h264 的视频解码出来成了 rgba 的 4 张 raw 图像，请问我怎么把它输出到显卡的 4 个 dp 口？最好是 NVIDIA 的 api ，OpenGL 啊 drm 之类的包装过的也行

如何实现 CUDA 的分布式并行运算？

2021-08-06T11:38:23Z

导师给了一个程序，实现了一个中间件可以实现 CPU 和 GPU 运算的负载均衡。

我的初步想法是把 CUDA 程序打包成 exe 或者.so 啥的，然后用 Python 调用，使用 Celery 实现分布式集群。

希望大家能有更好的想法

游戏本上用 cuda 是什么体验？

2021-05-07T01:48:50Z

1 、有人在游戏本上用过 cuda 么？体验如何？考虑到重量增大，待机变短，发热。同算力的增强相比。综合利弊得失，带个游戏本跑 cuda 是否值得？

2 、考虑到移动办公，数据安全（数据和代码上传到云端不太放心），如果用游戏本+cuda，是否还有其他丝滑体验的方案？

3 、各位大神现在是怎么解决移动开发的呢？

4 、工作当中用 cuda 和不用 cuda 对比，出结果的时间能节省多少？可否分享一下“真实”对比案例？

Tesla k20m 使用问题

2021-01-11T05:59:26Z

有人用过这显卡吗？网上花 300 淘到的，插上后，开机主板报显卡错了，是我操作不对，还是这卡有问题？

CUDA on WSL

2020-06-18T19:40:48Z

https://devblogs.nvidia.com/announcing-cuda-on-windows-subsystem-for-linux-2/

关于使用 GPU 生成随机数（cuda/opencl）

2019-08-11T14:16:02Z

由于特殊原因（原因很特殊（手动狗头））并不能使用 cuda 自带的随机函数。

因此，翻车了....。

目的：在不使用 cuda 自带的随机函数前提下，使用 cuda/opencl 的一个内核函数生成 10000 个高斯分布的随机数。

本人已尝试一下步骤：

1.在 cpu 生成 10000 的随机函数（应该是线性同余算法）

2.在 cpu 使用 The Box – Muller transform （听说和线性同余算法使用起来会翻车..）算法将步骤 1 的随机数转成正态分布

3.然后检验是否为正态分布，结果是对的.

4.至此，已经生成了一个 10000 个服从高斯分布的随机数啦，将其保存到数组 a。

事实上需要不断生成并使用数组 a。

因此考虑 GPU

分析：上述的 cpu 代码是序列进行的，也就是只有一个随机种子，然后在一个线程内完成了 10000 个随机数的生成。

然后将代码改改放到 GPU 上面来生成。(目标是实现与 cuda 的函数 curandGenerateNormal(cuda::generator, cudaRand, number, 0.0, 1.0); 一摸一样的功能)。

为了得到与 curandGenerateNormal 函数相同的结果，我尝试每个内核线程维护一个种子，也就是有 10000 个随机数种子。(调用一次内核，然后执行一万个线程，每隔线程使用自己的种子生成一个随机数，然后组合到数组 a 中) 但是目前，我做了试验中，如果每个内核线程维护一个种子，每个线程维护 a[i](i 为线程 id),最后的出来的并不服从高斯分布。

也就是说，纵向去看的话（ cpu 串行）是可以得到高斯分布的随机数，横向并不行。

也就是说，假如有 a 数组，b 数组....z 数组中，每个数组自个是高斯分布，但是 a...z 中，各取一个出来，组合在一起，并不服从高斯分布。

而如果从直观上出发，上述应该也服从高斯分布，但是由于随机种子的问题，可能导致其 a....z 可能有相关性。具体原因我也不是很清楚。

不知道表达清楚没，各位兄台有没有了解过相关的信息？

一句话概括就是：curandGenerateNormal 函数相同的功能...

所以想问问大伙有做过相关的研究吗？

cuda 计算 titan v 为何比 rtx2080ti 更慢？

2019-07-06T08:59:28Z

指的是双精度。

不知道是不是编译的时候双精度需要添加一些其他指令？

下面是 kernel。

void CSR(int i,unsigned int N, unsigned int *xadj,unsigned int *adjncy, double *dataxx,double *datayy,double *datazz, double *Cspin, double *CHDemag,double *CH)

{

if(i < N) { double dot[3]={0,0,0}; for(int n = xadj[i] ; n < xadj[i+1]; n++) { unsigned int neigh=adjncy[n]; printf("%d\n",n); printf("%f,%f,%f\n",dataxx[n],datayy[n],datazz[n]); double val[3] = {dataxx[n],datayy[n],datazz[n]}; for(unsigned int co = 0 ; co < 3 ; co++) { dot[co]+=(val[co]*Cspin[3*neigh+co]); } } double a=CHDemag[3*i]; double b=CHDemag[3*i+1]; double c=CHDemag[3*i+2]; CH[3*i]=a+dot[0]; CH[3*i+1]=b+dot[1]; CH[3*i+2]=c+dot[2]; }

}

通过显卡参数来看，rtx 应该是没有双精度计算单元的。而 titan v 的双精度应该还行。

而我跑的时候，titan v 比 rtx 慢了三分之一。。

求解

DeOldify

2019-01-21T00:27:22Z

https://github.com/jantic/DeOldify/blob/master/README.md

一个有趣的 CUDA 项目，可以将黑白老照片变成彩色的。

不死心问一下笔记本 1050 支持 cudnn 吗？

2017-06-18T04:02:43Z

http://i.imgur.com/4s1hBfN.png

不死心问一下笔记本 1050 支持 cudnn 吗？

既然支持 cuda，怎么会不成功呢？

http://i.imgur.com/mT99ID0.jpg

Python+CUDA，大家有什么推荐的值得深入学习了解的项目或者著作么？

2016-10-12T11:07:25Z

目前需求是用到图形识别和数据的整理和统计，数量级也就是几十万条的，不算很大。

写 CUDA，使用专业卡与游戏卡有什么区别？

2016-08-06T13:17:19Z

比如说三千块左右的显卡， GTX 1070 拥有 1920 个流处理单元， 8G 显存。 Quadro M2000 只有 768 个单元， 4G 显存。

游戏卡的诱惑太大了啊，显存大，单元多...我知道专业卡在 CAD 方面可能有加成，但是不知道对于 CUDA 这种并行计算有没有优化，或者说可以更加稳定？

急求推荐个 5k 人民币左右的运算 GPU，能装 ubuntu 就行，跑深度学习用的，必须在 nvidia 运算能力表里面的卡

2016-07-26T04:37:59Z

不是用来打游戏，是搞深度学习用的（ CUDA ／ caffe ／ DIGITS ）

之前花 30k 一块的价格，买了几块 tesla K40C ，装 ubuntu 跑深度学习了，运算能力真是强悍，但是另一位导师接受不了这个采购价格，只能买 5k 左右的卡，求推荐！能装 ubuntu 就行，（他之前有块泰坦，装 ubuntu 显示 unknown chipset maxwell ），应该是麦克斯韦架构的卡装不了 ubuntu ，我也不太清楚具体情况。

要求：在这张表里的卡 https://developer.nvidia.com/cuda-gpus

价格 5k 左右就行，给推荐点，谢谢各位

OpenCL/CUDA/云存储求牛人指导，小伙伴们来围观：）

2016-06-17T01:29:17Z

最近考虑换工作（换行业），希望转到人工智能等新领域，但是对这些领域商业应用上接触很少,目前比较中意 CUDA 和 EMC 存储相关的工作。求指导？
1 ，简单了解了一下 CUDA/openCL ，感觉确实杀伤力迅猛，对 ML 之类的应用确实有催化剂的作用，但是目前真正使用 OpenCL/CUDA 作为底层基础的成功案例多吗？未来市场是否会持续扩张。
2 ，存储部分在云计算 /人工智能未来是什么角色？目前主流商业市场上游有哪些产业 /公司？
3 ，前些日子感觉 FPGA/GPU/TPU 撕 B 了一顿，这些高大深的领域我们也只是看客？
个人对这些计算结构不是很了解，简单认为 FPGA 作为底层中间实现了标准的 OpenCL 不知道有没有大规模的商用案例。看起来确实会比 GPU 等效率高很多。
GPU 应该是目前成功的商业案例，但是 CUDA 自己官网上说全球有 700+计算集群，这个 700 不是到是什么概念。
TPU 不说了没有公开资料，个人认为应该局限性比较大。

小白求喷. :)

想了想用 WebGL 能不能做科学计算

2015-10-04T02:45:09Z

发现是可以的，用 canvas 的每个像素模拟一个矩阵的值，然后在 fragment shader 里面计算就可以实现矩阵乘法了

把 float16 的近似物放在 rgba 中（ a 几乎不能用），然后到 fragment 里面还原，最后输出到屏幕上的图像就是计算结果

大概在 650m 下面可以有 150Gflops+的成绩（ float16 ）

然后我在想这东西有什么卵用……（我知道这个世界上有个无人鸟的 webcl ）

有人用雷电转 PCI-e 设备外接显卡跑过 CUDA 的么？

2015-07-03T15:59:31Z

自己只有两个macbook pro retina，想学学caffe什么的，现在在用parallel desktop跑linux，感觉挺慢的。有没有人用外接显卡做GPU编程的？能工作么？

关于 GPU CUDA 编程的优化问题

2013-11-01T06:30:41Z

最近在研究 GPU CUDA 编程，不知道有没有 V2EXer 对这方面比较了解的？

在把基础的 Hello、vecAdd 那些程序看了之后，着手实现一个类 grep 命令；然后利用一个大文件测试性能。

对比测试后发现，我用 CUDA 实现的 mygrep 比 linux 自带的 grep 慢很多：1m55s v.s. 0m3s

汗颜……

有没有熟悉这方面的朋友可以留个联系方式指点+探讨一下？

CPU or GPU? CUDA or OpenCL ?

2011-05-22T04:48:43Z

RT..
酱
我用 OpenCL 居然没速度..
用 CUDA 最快用 CPU 很慢..

CUDA

[英伟达] [北京或者上海] [深度学习性能优化-CUDA]

训练 SVC 声音模型 2060 12g 和 8G 的 3060TI 哪个快

win11 使用 cuda 调用两个 gpu 计算时，自带任务管理器看不到 gpu2 的使用率？

[cuda 函数劫持] cuda12.2 版本新增了一个函数 cuGetProcAddress_v2，请问如何进行劫持？

Set Max_split_size_mb To Avoid Oom In Pytorch

pytorch 是如何分配内存的?.

max_split_size_mb 的作用

garbage_collection_threshold

Expandable Segments

References

[英伟达 NVIDIA] [上海/北京/深圳] [CUDA 相关岗位]

如果实现 openmpi 和 cuda 编程的结合

怎么把显卡显存中的 rgba 图像渲染输出？

如何实现 CUDA 的分布式并行运算？

游戏本上用 cuda 是什么体验？

Tesla k20m 使用问题

CUDA on WSL

关于使用 GPU 生成随机数（cuda/opencl）

cuda 计算 titan v 为何比 rtx2080ti 更慢？

DeOldify

不死心问一下笔记本 1050 支持 cudnn 吗？

Python+CUDA，大家有什么推荐的值得深入学习了解的项目或者著作么？

写 CUDA，使用专业卡与游戏卡有什么区别？

急求推荐个 5k 人民币左右的运算 GPU，能装 ubuntu 就行，跑深度学习用的，必须在 nvidia 运算能力表里面的卡

OpenCL/CUDA/云存储求牛人指导，小伙伴们来围观 ：）

想了想用 WebGL 能不能做科学计算

有人用雷电转 PCI-e 设备外接显卡跑过 CUDA 的么？

关于 GPU CUDA 编程的优化问题

CPU or GPU? CUDA or OpenCL ?

OpenCL/CUDA/云存储求牛人指导，小伙伴们来围观：）