网站地图官方微信:
网站首页 上安镇 洪善镇 王显乡 双楼乡 花田乡 两亭镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 匿名说一下你最近的烦恼吧? |

    我是事业单位编制,宝宝六个月了,和公婆同住,每天哺乳***一...

    查看详情>>
  • | rust学了一段时间,感觉比c++简单,能取代c++,你们觉得会取代吗? |

  • | 前端,后端,全栈哪个好找工作? |

  • | 谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么? |

  • | 以前大力推广的沼气池,怎么现在越来越少了? |

  • | 为什么没有核动力货轮? |

  • | duckdb的性能如何? |

  • | 如果全球都停止出口粮食,中国能否自给自足? |

  • | 为什么日本人口密度这么大还能住一户建,中国只能住楼房? |

  • | 中国军事力量在亚洲能排第一吗? |

  • | 微软暂停专用 Xbox 掌机开发,转而优化 Windows 11 的掌机游戏体验,这背后原因有哪些? |

  • 我做了个小程序,想要帮用户整理归纳出门前携带的行李。 因为...

    2025-06-19
  • 最近更着duckdb的 这个官方博客 做了下实验。 随机生成...

    2025-06-19
  • JAVA 是没办法直接调用 ffmpeg 的,ffmpeg ...

    2025-06-19
  • 没设么错误 jb做swift根本打不过xcode 你在苹果的...

    2025-06-19

关注我们

添加微信好友,关注最新动态