AMD、Intel峰值浮點性能大戰(zhàn)
AMD和Intel一向都是性能的佼佼者,Kaveri APU帶來了推土機架構(gòu)的第三個版本“壓路機”,而眼瞅著FX、Opteron系列更新無望,APU更是極有可能成為這一架構(gòu)的唯一用武之地。那么,它的理論性能如何?所搭配的GCN GPU又是怎樣呢?下面就讓小編為您解答。
AMD、Intel峰值浮點性能大戰(zhàn):
一個問題是,現(xiàn)在的CPU、GPU都支持動態(tài)加速,很難確定峰值計算時的確切頻率。本文中CPU使用基準頻率,GPU則是加速頻率,因為在多線程、異構(gòu)計算中,CPU不太可能加速。如果有需要,你也可以根據(jù)本文的結(jié)論推算出自己所需要頻率下的相應(yīng)性能。
GPU方面最新得到官方確認的是,Kaveri APU fp64雙精度的性能是fp32單精度的16/1,與主流的GCN架構(gòu)顯卡相同(HD7900及其上是1/4)。
CPU峰值性能取決于代碼編寫、編譯的SIMD指令集架構(gòu),這里考慮三種:SSE、AVX、AVX FMA(FMA3/FMA4)。
Intel在架構(gòu)設(shè)計上的領(lǐng)先凸顯無疑,各項指標都完秒,Haswell更是優(yōu)化AVX、FMA指令集代碼的首選。
Trinity/Kaveri里的推土機架構(gòu)是兩個整數(shù)單元共享一個浮點單元,自然很吃虧,SSE性能甚至還不如K10老架構(gòu)的Llano,但是后者不支持AVX。
GPU峰值性能考慮了Haswell GT2、GT3e兩種核顯,后者集成了128MB嵌入式緩存,兼具四級緩存的作用。
GPU fp64的支持其實有點混亂,因為部分GPU盡在部分API下才支持它。Intel GPU fp64的比例沒有官方公布,估計是fp16 1/4,但是Intel只在DirectCompute API下才能實現(xiàn)fp64,OpenCL下完全不行。
AMD Trinity/Richland APU更亂,OpenCL fp64的支持不符合標準規(guī)范,而是使用了私有的擴展cl_amd_fp64,DirectCompute/MS C++ AMP下似乎也不支持fp64。
Kaveri就好多了,所有API下都標準支持fp64,是所有集顯方案中最齊全的,美中不足的就是Direct3D fp64還不如Haswell,跟獨立顯卡的差距自然也很大,但是它擁有獨特的HSA異構(gòu)系統(tǒng)架構(gòu),非常適合CPU+GPU聯(lián)合加速的應(yīng)用。
Kaveri fp64性能其實并不太好,CPU、GPU加起來也才大約110GFlops,因此做一般的加速計算還可以,特別是fp32異構(gòu)應(yīng)用超越Haswell GT2、Ivy Bridge,但是高性能應(yīng)用上不夠。
GT3e Iris Pro也有不少亮點,特別是有強大的CPU輔助,比較適合Windows 8 C++ AMP的開發(fā),但缺點是Linux系統(tǒng)下現(xiàn)在不支持OpenCL,驅(qū)動還在開發(fā)。
簡單地說,Kaveri規(guī)格全面,性能均衡,Haswell部分突出,但有缺失。