標籤: 暫無標籤

Chipkill技術是IBM公司為了解決目前伺服器內存中ECC技術的不足而開發的,是一種新的ECC內存保護標準。我們知道ECC內存只能同時檢測和糾正單一比特錯誤,但如果同時檢測出兩個以上比特的數據有錯誤,則一般無能為力。目前ECC技術之所以在伺服器內存中廣泛採用,一則是因為在這以前其它新的內存技術還不成熟,再則在目前的伺服器中系統速度還是很高,在這種頻率上一般來說同時出現多比特錯誤的現象很少發生,正因為這樣才使得ECC技術得到了充分地認可和應用,使得ECC內存技術成為幾乎所有伺服器上的內存標準。

但隨著基於Intel處理器架構的伺服器的CPU性能在以幾何級的倍數提高,而硬碟驅動器的性能同期只提高了少數的倍數,因此為了獲得足夠的性能,伺服器需要大量的內存來臨時保存CPU上需要讀取的數據,這樣大的數據訪問量就導致單一內存晶元上每次訪問時通常要提供4(32位)或8(64位)比特以上的數據,一次性讀取這麼多數據,出現多位數據錯誤的可能性會大大地提高,而ECC又不能糾正雙比特以上的錯誤,這樣就很可能造成全部比特數據的丟失,系統就很快崩潰了。IBM的Chipkill技術是利用內存的子結構方法來解決這一難題。內存子系統的設計原理是這樣的,單一晶元,無論數據寬度是多少,只對於一個給定的ECC識別碼,它的影響最多為一比特。舉個例子來說明的就是,如果使用4比特寬的DRAM,4比特中的每一位的奇偶性將分別組成不同的ECC識別碼,這個ECC識別碼是用單獨一個數據位來保存的,也就是說保存在不同的內存空間地址。因此,即使整個內存晶元出了故障,每個ECC識別碼也將最多出現一比特壞數據,而這種情況完全可以通過ECC邏輯修復,從而保證內存子系統的容錯性,保證了伺服器在出現故障時,有強大的自我恢復能力。採用這種內存技術的內存可以同時檢查並修復4個錯誤數據位,伺服器的可靠性和穩定得到了更加充分的保障。

上一篇[王有喜]    下一篇 [illegal]

相關評論

同義詞:暫無同義詞