网站地图官方微信:
网站首页 樊相镇 定安镇 思恩镇 鱼溪镇 长滩乡 达溪镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 中办、国办发文,拟新建改扩建 1000 所以上优质普高,将带来哪些影响?可能面临哪些挑战? |

    日本不愧是先遣服啊,又一次跑到前面去了。 我以前玩日本游戏...

    查看详情>>
  • | Vim 有什么奇技淫巧? |

  • | 只能选一个,你选谁? |

  • | 为什么 IPv6 突然不火了? |

  • | 为什么面对 Adobe 的版权要求下,vposy 大神还能从容不迫? |

  • | MiniMax 推出全球首个开源大规模混合架构的推理模型 MiniMax-M1,其有何技术优势? |

  • | 深圳房价能跌到什么位置? |

  • | 大海捞针还捞着了是一种什么样的体验? |

  • | 鱼缸里突然在水面角落出现很多想泡沫一样的气泡是怎么回事? |

  • | Python+rust会是一个强大的组合吗? |

  • | 如何评价B站峰哥亡命天涯直播中说面包就是比馒头好吃,中国古代不吃面包是因为贫穷,没有足够的柴火? |

  • 结论前置:比较完我个人觉得mac mini易用性和同级的mi...

    2025-06-20
  • 我估计了一下,大概可以做到百元以内,大概率免费。 使用Clo...

    2025-06-20
  • 马上要成功了,有的人目前目光短浅、自以为是。 一句话非常重...

    2025-06-20
  • 这个问题要说清两件事,第一,到底是谁帮谁?第二,龙芯到底在d...

    2025-06-20

关注我们

添加微信好友,关注最新动态