Nehalem-EX:極致的性能表現(xiàn)
為了測試Nehalem-EX的性能,我們采用了一些實際的并發(fā)應用,測試平臺采用了配置兩顆至強X7560的戴爾R810,以及運行四顆至強X7350的惠普DL580 G3。在察看測試結(jié)果之前我們先來看看這兩個系統(tǒng)的差異:惠普DL580 G3配置了4顆四核X7350,主頻2.93GHz,具有4MB三級緩存;戴爾R810只配置了兩顆8核心X7560,主頻2.26GHz,具有12MB三級緩存;X7560支持超線程技術,而X7350不支持。雖然兩個測試平臺并不對等,但如果你采用的還是幾年前的至強7300平臺,可以從下面的數(shù)據(jù)中看到升級到至強7500平臺的性能提升。
我們測試的是很多常見的應用:LAME測試,將一個152MB的WAV文件轉(zhuǎn)換為256Kbps比特率的MP3文件;壓縮測試,采用gzip和bzip2來壓縮和解壓一個55MB的MP3文件;MD5測試,計算MD5總和到152MB的文件;MP4-to-FLV測試,將一個24MB的MP4文件轉(zhuǎn)化為FLV。這些測試都是單線程的,通過不斷增加的并發(fā)線程可以測試物理和邏輯核心、內(nèi)存帶寬、內(nèi)存互聯(lián)以及磁盤I/O。
在測試Nehalem-EX的時候,我們分別在超線程開啟/關閉的情況分別進行這些測試,操作系統(tǒng)是CentOS 5.4,為了消除磁盤I/O瓶頸,我們采用Ramdisk來虛擬硬盤。
在測試中,兩個平臺在一開始的時候差異并不明顯,在8個并發(fā)線程的時候,LAME和gzip測試中四顆X7350可以和兩顆Nehalem-EX相匹敵,并沒有明顯差異,但在其他測試中落后比較明顯。在16個并發(fā)線程的時候,在所有的測試中兩個平臺拉開了差距,在LAME和gzip測試中四顆X7350稍微的領先了Nehalem-EX,但是在其他測試中差距明顯。當并發(fā)線程的數(shù)量超過了兩個平臺邏輯CPU的數(shù)量,Nehalem-EX在所有測試中一路領先。
事實上,由于差距巨大,我們在48、64和96個并發(fā)線程的時候進行了很多次測試來驗證結(jié)果。例如,在64個并發(fā)線程的時候,Nehalem-EX平臺花費了2分鐘12秒完成MP4-to-FLV的測試,而X7350平臺要多花費30分鐘,這是一個巨大的性能差異,隨著線程數(shù)量的增加兩個平臺之間的性能差異更加明顯。
這種令人咋舌的性能提升有著多方面的原因,老的X7350平臺多出了兩顆CPU,并且具有670MHz的主頻優(yōu)勢,但是L3緩存只有4MB,而Nehalem-EX具有24MB。另外,X7350平臺缺乏QuickPath架構(gòu)的優(yōu)勢,內(nèi)存總線成為瓶頸。因而,在較重的負載測試中,Nehalem-EX“秒殺”掉了X7360,盡管物理核心數(shù)量相同并且頻率較低。在比較輕的負載測試中,差距并沒有這么明顯。

LAME MP3音頻轉(zhuǎn)換測試,8到96并發(fā)線程(單位秒,時間越短越好)
注意這個圖表,LAME測試是將一個152MB的WAV文件轉(zhuǎn)化為256Kbps的MP3文件,MP4-to-FLV測試是將24MB的MP4文件轉(zhuǎn)化為FLV,硬盤采用ramdisk虛擬。X7350平臺配置了4顆CPU,主頻2.93GHz,4MB L3緩存。X7560平臺配置了兩顆8核CPU,主頻2.26GHz,12MB L3緩存,6.4GT/s的QPI總線,1066MHz DDR3內(nèi)存。AMD 8435 “Istanbul”平臺配置了4顆6核心CPU,主頻2.6GHz,9MB L3緩存,4.8GT/s HyperTransport總線,800MHz DDR2內(nèi)存。另外一個AMD平臺配置了4顆四核心CPU。

MP4到FLV轉(zhuǎn)換測試,8到96并發(fā)線程(單位秒,時間越短越好)
更多并發(fā)線程下,Nehalem-EX優(yōu)勢更加明顯
我們在四CPU的AMD皓龍8435服務器上運行了同樣的測試,6核心、2.6GHz的“Istanbul”處理器已經(jīng)發(fā)布了一年多的時間,和Nehalem-EX已經(jīng)不太匹配,但是也可以做個參考。
從結(jié)果來看,24核心的AMD伊斯坦布爾系統(tǒng)在一些測試中可以接近開啟超線程的X7560平臺,盡管如此,16核心的AMD平臺和沒有開啟超線程的X7560平臺相比要差距明顯,大概要落后10%。兩個AMD平臺都要落后于X7560平臺,特別是在高并發(fā)線程的時候。畢竟AMD伊斯坦布爾不是最新的平臺,AMD最近發(fā)布了12核心皓龍6100處理器,我們希望它可以和Nehalem-EX一爭高下。

LAME MP3音頻轉(zhuǎn)換測試,64到192并發(fā)線程(單位為秒,時間越少越好)
注意這個圖表,LAME測試是將一個152MB的WAV文件轉(zhuǎn)化為256Kbps的MP3文件,MP4-to-FLV測試是將24MB的MP4文件轉(zhuǎn)化為FLV文件。測試采用ramdisk虛擬硬盤。X7560平臺配置了2顆2.26GHz的8核CPU,12MB L3緩存、6.4GT/s QPI總線、1066MHz DDR3內(nèi)存。AMD 8435伊斯坦布爾平臺配置了4顆主頻2.6GHz的6核CPU,9MB L3緩存,4.8GT/s HT總線。另外一個AMD平臺配置了4顆3核伊斯坦布爾CPU。

MP4轉(zhuǎn)化為FLV測試,64到192并發(fā)線程(單位為秒,時間越少越好)