转载

Some important new features since VTune(TM) Amplifier XE 2016

VTune Amplifier XE 2016 版部分值得尝试的新特性:

1.    Driveless hardware event-based sampling

由于某种原因,VTune的驱动在某些环境下不能安装,如没有root权限或系统是基于虚拟的环境,等等。但是Perf工具是可以运行的,可惜没有图形界面,不便于分析。VTune™ Amplifier XE 2016 可以实现与Perf的无缝对接,也即,直接使用VTune Amplifier的命令,可以采集Perf的性能数据,其结果可以在VTune Amplifier的图形界面浏览。具体可以看这篇博客

2.    Hardware event-based sampling analysis with call stack info

早期的VTune Amplifier版本不支持调用栈的信息收集,当使用PMU性能计数器采集信息时。只有User mode(basic hotspots、concurrency、locksandwaits 分析)的性能采样(才缺省)采集调用栈的信息。具体的方法可以参看这篇博客,有关工具命令行的常见使用方法,由于版本更新,可能还要参阅文档。或者用命令行查:如,amplxe-cl –help collect advanced-hotspots,查阅有关advanced-hotspots分析的所有选项。

3.    Support Intel SDK based OpenCL* Application

有些用户使用Intel Media SDK 开发OpenCL的应用程序,VTune Amplifier 不仅可以收集CPU的性能数据,还可以收集GPU的性能数据。具体使用可以查阅文档或参看这篇博客

4.    Analyze the report after running OpenMP* program, to know performance issues on spin time, overhead time, Wait time/rate, etc.

VTune Amplifier 增强报告直接指出OpenMP程序的具体性能缺陷,另外一个亮点是给出了理论上性能提升的空间(Performance Gain),具体使用可以查阅文档或参看这篇博客

5.    Support  EBS analysis within Virtual Machine (VM) for KVM with Linux Kernel 3.2 and QEMU 1.4

以前PMU based events sampling只是在VMware Fusion* 5 and 或者以上版本支持,其他的VM都不行(当然basic hotspot可以)。目前很多用户使用Guest OS 环境基于KVM,利用virtualized on-chip PMU 性能计数器采集性能数据变为可能。有些具体设置会碰到些问题,参阅这篇博客

6.    Support “-column” option to display selective columns in report

有时采集的性能数据比较多,如general-exploration分析,可能用户感兴趣的就几项,用户可以对报告过滤,结果看上去简单整洁。可以参照这篇博客

另外还可以根据用户要求组合数据,如加上:”-group-by thread,function“

7.    New Memory Access analysis

除了支持以前的内存带宽数据,还可以追踪函数中的allocated/deallocated memory objects, 有的时候比较有用,还有平均读取memory的Cycles,用法可以参见这篇博客

8.    Provide Loop trip count

性能数据以前是以函数为单位的,现在可以细化到“循环”级,如果单个热点函数有若干个热点循环,这就比较有用。

9.    Provide more metrics for system wide context switches

以前advanced-hotspots 分析给出的是CPU时间和并行度,现在可以给出”Effective CPU time”,”Spin time”,”Overhead time”, 这样优化就有了目标。

10.    HPC Performance Characterization  

这是VTune提供的新的预定义分析类型,其给出的性能指标都是高性能计算所需要的,故称之为HPC Performance Characterization。 这种分析类型的指标还未最终定型,所以此分析类型称之为“Preview Feature”,也希望得到比较多的使用反馈。

注意:这种分析类型,只在Intel® Xeon Core™第三代、第五代、第六代 处理器平台使用。

主要的指标有GFLOPS, CPU Utilization, Memory Bound, FPU Utilization,等。如图示例:

Some important new features since VTune(TM) Amplifier XE 2016

11.    Use command line to list supported events on current platform.

具体的命令就是:amplxe-cl -collect-with runsa -knob event-config=?

用户不使用预定义的分析类型,而直接使用事件(Event)的性能计数器采集数据。

原文  https://software.intel.com/zh-cn/blogs/2016/02/14/some-important-new-features-since-vtunetm-amplifier-xe-2016
正文到此结束
Loading...