Nsight Compute是一个用于CUDA应用程序的交互式内核分析器。它通过用户界面和命令行工具提供详细的性能指标和API调试。此外,它的基线特性允许用户在工具中比较结果。NVIDIA Nsight Compute提供了一个可定制的、数据驱动的用户界面和度量集合,并且可以通过分析脚本对后处理结果进行扩展。
本篇记录使用Nsight Compute图形化界面分析CUDA程序性能的步骤。
同时,NVIDIA提供命令行工具Nsight Compute Cli ,其能够完成细粒度的性能剖析,参考
Nsight Compute与nvprof metrics 对照
1.单击菜单栏上的Connet,弹出如下界面,设置要剖析的执行程序路径等运行相关参数;选择Interactive Profile模式,可以对剖析流程进行控制;所有参数设置完成后,单击Launch开始性能分析。
2.在API Stream页面控制剖析软件执行到目标核函数(Next Trigger 中添加目标核函数),然后单击菜单栏的 Profile Kernel对核函数进行剖析
3.生成性能分析结果,在结果页面可以通过切换Page选项查看重点关注的参数,如Source ,Detail等
Detail信息:展示核函数整体执行的一些性能指标
Source信息:展示源码中每行代码及汇编指令执行使用资源情况