評論(0

英特爾酷睿微體系結構

標籤: 暫無標籤

1 英特爾酷睿微體系結構 -簡要介紹


  英特爾酷睿微體系結構是基於新型英特爾架構的台式機、筆記本電腦和主流伺服器多核處理器的基礎。英特爾酷睿微體系架構擁有一流的性能和多種創新特性,且針對多核進行了特別優化,樹立了高能效表現的新標準。   工作效率顯著增強,憑藉卓越的性能和能效,英特爾酷睿微體系架構為許多新的解決方案和外形設計奠定了良好的基礎。   家用電腦將具備強大的性能、超低的噪音、時尚的外形和高能效表現,以及更完善的用戶易用型娛樂系統。   對於 IT 人員,它可以減少設備的佔地面積、降低伺服器數據中心的功率和散熱負擔、提高客戶機和伺服器平台的響應能力、工作效率和能效。   對於筆記本電腦用戶,英特爾酷睿微體系架構擁有更強大的計算性能、更持久的電池使用時間和更加小巧的外形,以及強大的移動計算體驗。[3]   英特爾酷睿微體系結構,是一款領先節能的新型微架構,設計的出發點是提供卓然出眾的性能和能效,提高每瓦特性能,也就是所謂的能效比。英特爾酷睿微體系結構面向伺服器、台式機和筆記本電腦等多種處理器進行了多核優化,其創新特性可帶來更出色的性能、更強大的多任務處理性能和更高的能效水平,各種平台均可從中獲得巨大優勢:伺服器可以更快速,更低的功耗為企業節省大筆開支,創新技術保證安全穩定的運行。台式機可以在佔用更小空間的同時,為家庭用戶帶來更多全新的娛樂體驗,為企業員工帶來更高的工作效率。筆記本電腦用戶可以獲得更高的移動性能和更耐久的電池使用時間。英特爾酷睿微架構擁有4組解碼器,相比上代Pentium Pro (P6) / Pentium II / Pentium III / Pentium M架構擁有3組可多處理一組指令,簡單講,每個內核將變得更加「寬闊」,這樣每個內核就可以同時處理更多的指令。英特爾酷睿微體系結構在提升每個時鐘周期的指令數方面做了很多努力,例如新加入宏融合(Macro-Fusion)技術,它可以讓處理器在解碼的同時,將同類的指令融合為單一的指令,這樣可以減少處理的指令總數,讓處理器在更短的時間內處理更多的指令。為此英特爾酷睿微體系結構也改良了ALU(算術邏輯單元)以支持宏融合技術。[5]   英特爾寬區動態執行動態執行包含多項技術(數據流分析、預測執行、亂序執行與超標量),這些技術最先出現在英特爾奔騰Pro處理器、英特爾奔騰II處理器和英特爾奔騰III處理器的P6微架構中。在英特爾NetBurst微體系結構中,英特爾推出了高級動態執行引擎 —一個非常深、用以保持處理器執行單元不斷執行指令的亂序預測執行引擎。該微體系結構還採用了增強的分支預測演算法來減少分支出錯的次數。   現在對於英特爾酷睿微體系結構,英特爾通過英特爾寬區動態執行大幅增強了這一能力。它可以讓每個時鐘周期執行更多的指令,以縮短執行時間並改進能效。每個執行內核將變得更加寬闊,這樣它們就可以同時獲取、分配、執行和返回達4條完整的指令。(英特爾的移動和英特爾NetBurst微體系結構每次可處理3條指令)。進一步提高效率的特性包括可以進一步提高執行靈活性的更精確的分支預測、更深的指令緩衝區,以及可以縮短執行時間的其它特性。   其中一項可以縮短執行時間的特性就是微融合。在前幾代處理器中,每條進入的指令均會被單獨地解碼和執行。微融合可以在解碼期間將常用的指令對(如條件分支(conditional jump)后的比較)融合為單個內部指令(微操作)。這樣2條程序指令就可以作為1個微操作執行,以減少處理器必須執行的整體工作量。這增加了給定時間內可以運行的全部指令數量,或者減少了運行一定指令數量的時間。通過在更短的時間內完成更多的任務,微融合提高了整體性能和能效。   英特爾酷睿微體系結構還包含增強的運算邏輯單元(ALU),以進一步支持微融合。   它能夠在單個周期內執行組合的指令對,從而使性能得到提升。   英特爾酷睿微體系結構還改進了微操作融合 — 這是一種最先應用於英特爾奔騰M處理器的高能效技術。在現代主流處理器中,×86程序指令(微操作)在送往處理器管道接受處理之前,會被細分為多個組成部分,即微操作。微操作融合將「融合」源自相同宏操作中的微操作,以減少需要執行的微操作數量。微操作數量的減少可使時序安排工作更加高效,從而實現更低的功率和更高的性能。研究顯示,微操做融合可使亂序邏輯處理的微操作數量減少10%以上。在英特爾酷睿微體系結構中,可以內部融合至處理器的微操作數量將進一步增多。

2 英特爾酷睿微體系結構 -發展歷史


  2006 年,英特爾首次在採用 65納米硅製程技術的英特爾酷睿2 微體系結構處理器中引入了英特爾酷睿微體系結構。作為第一代多核優化型微體系結構,它擴展了英特爾奔騰M處理器的移動式微體系結構中首次提出的能效理念,並利用諸多全新的領先微體系結構創新特性對其進行了增強,由此實現了業界領先的性能、更高的能效表現和更快的多任務處理響應能力。   2007 年下半年,英特爾開始投產代號為「Penryn」的下一代英特爾酷睿2 處理器家族產品。Penryn 處理器家族基於英特爾業界領先的 45納米高K 金屬柵極硅製程技術和最新的英特爾酷睿微體系結構增強特性構建而成。英特爾酷睿微體系結構在英特爾早前大獲成功的革命性微體系結構(當前英特爾至強處理器家族和英特爾酷睿2 處理器家族所用)基礎之上,又進行了重大改進,這標誌著英特爾在每年推出一種新製程技術及增強型微體系結構或全新微體系結構的道路上又邁出了重大一步。   45納米Penryn家族中的雙核處理器擁有 4 億多個晶體管,四核處理器擁有8億多個晶體管。藉助全新微體系結構特性,該處理器家族產品還可在頻率不變的情況下實現更高的性能,同時增大50%的二級高速緩存,以及擴展的電源管理能力可讓能效表現再上新台階。Penryn 家族還採用了近50條全新的英特爾SSE4 指令,可進一步加快媒體應用和高性能計算應用的運行速度。Penryn 家族包括全新雙核台式機處理器、四核台式機處理器、四核伺服器處理器和雙核移動式處理器。

3 英特爾酷睿微體系結構 -創新要點


  台式機可以在佔用更小空間的同時,為家庭用戶帶來更多全新的娛樂體驗,為企業員工帶來更高的工作效率。筆記本電腦用戶可以獲得更高的移動性能和更耐久的電池使用時間。以下英特爾酷睿微體系結構的幾大創新點:
英特爾寬位動態執行
  英特爾寬位動態執行(Intel Wide Dynamic Execution)   衡量一款處理器的性能水平,已經不能再單純的以頻率的高低考量,而是更強調「每瓦特性能」,也就是所謂的能效比。「性能=頻率×每個時鐘周期的指令數」是英特爾提出的對性能的創新理解,英特爾寬位動態執行通過提升每個時鐘周期完成的指令數,從而顯著改進執行能力。   英特爾酷睿微架構擁有4組解碼器,相比上代Pentium Pro (P6)/Pentium II / Pentium III / Pentium M架構擁有3組可多處理一組指令,簡單講,每個內核會變得更加「寬闊」,這樣每個內核就可以同時處理更多的指令。英特爾酷睿微體系結構在提升每個時鐘周期的指令數方面做了很多努力,例如新加入宏融合(Macro-Fusion)技術,它可以讓處理器在解碼的同時,將同類的指令融合為單一的指令,這樣可以減少處理的指令總數,讓處理器在更短的時間內處理更多的指令。為此英特爾酷睿微體系結構也改良了ALU(算術邏輯單元)以支持宏融合技術。   Core擁有3個64-bit整數執行單元(Integer Execution Units),每個單元可以獨立處理一條64-bit整數數據,這樣Core就有了一套64-bit的CIU複雜整數單元(Complex Integer Unit),這和P6構架相同。然後Core另外有2個SIU簡單整數處理單元(Simple Integer Units)來快速運算較簡單的任務,其中一個SIU和分支執行單元BEU來共同完成部分的宏指令融合micro-ops fusion。對於INTEL的X86 CPU來說,這是首次可以在一周期內完成一階64-bit的整數運算,這使Core已經走到了IBM PowerPC 970的前面-PowerPC 970需要有2個周期的延遲。另外,因為3個IEU整數執行核心使用了各自獨立的PORT數據出口,所以整個Core處理器可以在一周期內同時執行3組64-bit的整數運算。   有著如此強大的整數處理單元,Core在性能上會比已有Pentium 4快的多,它在移動平台、伺服器、3D圖形上4倍於Pentium 4的性能表現會使全世界對INTEL CPU眼目一新。Core構架擁有2個浮點執行單元(Floating-Point Execution Units)同時處理向量和標量的浮點數據,位於PORT 1的FPEU-1浮點執行單元負責加減等簡單的處理,而PORT 2的FPEU-2浮點執行單元則負責乘除等運算,這樣在Core中就把FADD/VFADD和FMUL/VFMUL劃分為兩組,使其具備了在一周期中完成兩條浮點指令的能力。

4 英特爾酷睿微體系結構 -英特爾智能功率能力


  英特爾智能功率能力(Intel Intelligent Power Capability)   英特爾智能功率能力,可以進一步降低功耗,優化電源使用,從而為伺服器、台式機和筆記本電腦提供個更高的每瓦特性能。新一代處理器在製程技術方面做出優化,採用了先進的65nm應變硅技術、加入低K柵介質及增加金屬層,相比上代90nm製程減少漏電達1000倍。值得注意的是,英特爾加入了超精細的邏輯控制機能獨立開關各運算單元,具體來講,酷睿微體系結構採用先進的功率門控技術。以往功率門控技術實現起來十分困難,因為元件開關過程需要消耗一定的能源,而且由休眠到恢復工作也會出現延遲,但英特爾酷睿微體系結構已經解決這些問題。通過該特性,可以智能地打開當前需要運行的子系統,而其他部分則處於休眠狀態,這樣可能大幅降低處理器的功耗及發熱。   當INTEL最初兼容128-bit向量執行時,情況可能和編程人員及用戶所預想不太一樣,採用在P6和Banias構架上的SSE、SSE2和SSE3有2個重大的弱點,在ISA指令集架構方面,SSE最主要的缺點就是不支持3指令運算(Three-Operand),而支持Three-Operand的AltiVec則成為了當時更好的ISA。Core前端處理環節新的突出能力是宏指令融合(Macro-Fusion),可以把多個X86指令融合在一起發送到到一個編譯器轉換為一個Uops微指令。多種指令可以被融合,其中特別將compare和test指令融合到了分支指令(Branch Instructions)中。4個編譯器都具有融合能力,但整個單元每周期只能完成一次宏指令融合。除了在佔用更少ROB和RS的情況下,宏指令融合(Macro-Fusion)還節約了內核前端的帶寬,Core的解碼單元能比過去快的多得清空IQ指令列隊(Instruction Queue),而內核執行帶寬也同樣寬闊了很多,因為單個的ALU能同時執行2個X86指令,這些綜合性能的提高使Core的實際處理效率比P6構架要提高多倍,遠高於其可見的硬體單元增加幅度。
英特爾高級智能高速緩存
  英特爾智能高速緩存技術 (Intel Advanced Smart Cache)   以往的多核心處理器,其每個核心的二級緩存是各自獨立的,這就造成了二級緩存不能夠被充分利用,並且兩個核心之間的數據交換路線也更為冗長,必須要通過共享的前端串列匯流排和北橋來進行數據交換,影響了處理器工作效率。英特爾酷睿微結構體系結構採用了共享二級緩存的做法,有效加強了多核心架構的效率。這樣的好處是,兩個核心可以共享二級緩存,大幅提高了二級高速緩存的命中率,從而可以較少通過前端串列匯流排和北橋進行外圍交換。   英特爾高級智能高速緩存還有其他方面的優勢,每個核心都可以動態支配全部二級高速緩存。當某一個內核當前對緩存的利用較低時,另一個內核就可以動態增加佔用二級緩存的比例。甚至當其中的一個內核關閉時,仍可以保持全部緩存在工作狀態,另外也可以根據需求關閉部分緩存來降低功耗。這樣可以降低二級緩存的命中失誤,減少數據延遲,改進處理器效率,增加絕對性能和每瓦特性能。   Core的向量執行單元:當INTEL最初兼容128-bit向量執行時,情況可能和編程人員及用戶所預想不太一樣,採用在P6和Banias構架上的SSE、SSE2和SSE3有2個重大的弱點,在ISA指令集架構方面,SSE最主要的缺點就是不支持3指令運算(Three-Operand),而支持Three-Operand的AltiVec則成為了當時更好的ISA。這樣折衷的處理方案使P6構架在處理128-bit數據時增加了一倍以上的延遲,而當時PowerPC G4的AltiVec只需要1個周期就能完成。同樣不幸的是,Netburst的Pentium 4和Pentium M構架也都有這個弱點。   全新的Core終於擁有了一個周期完成128-bit向量運算的能力,INTEL終於把浮點和整數運算的內部帶寬擴大到了128-bit,這不僅改進了延遲一周期的缺點,只有過去半數的微指令處理量也同樣提高了解碼、派址和帶寬利用等多方面的速度。這樣全新構架的CPU會可以把128-bit的大量multiply/add/load/store/compare/jump等6套指令集成在一個周期中全部完成,其運用性能的飛躍幅度可想而知。   P6構架的內部浮點處理和MMX都只有64-bit的帶寬,所以進入SSE執行核心的只能是64-bit數據。為了讓64-bit的SSE來處理128-bit指令,P6構架必須把128-bit的數據切割為2個64-bit的連續部分來處理。INTEL還不能透露Core具體的流水線詳情,不過,Core採用14條流水線-這和 PowerPC 970是一樣的,而之前的Pentium 4 Prescott擁有30條,P6構架為12條。短的流水線意味著Core在頻率上的提升只能是緩慢的,而不能夠像Pentium 4那樣急速上升。也可以這樣猜想,其實Core的流水線設計和P6構架中的流水線是一模一樣的,額外多出來的2條流水線完全是為了預留下CPU頻率提升的空間而已。2條新的流水線各自成為Core流水線的入口和出口,成為了宏指令融合(Macro-Fusion)、微指令融合(Micro-Ops Fusion)等整合技術的輸送站。Core的ROB重排序緩衝區(reorder Buffer)和RS預留緩存(Reservation Station)要比過去的Pentium M大了接近一倍,而事實上還必須考慮到新的宏指令融合(Macro-Fusion)、微指令融合(Micro-ops Fusion)等高效率的融合技術,這樣以來,Core的內部轉接速度至少要比Pentium M提高了3倍以上。它內置2組SD簡單編譯器(Simple/fast Decoders)和1組CD複雜編譯器(Complex/slow Decoder),2組SD簡單編譯器負責將簡單X86指令轉換至Uops微指令(Micro-ops)然後傳送到MB微指令緩衝區(Micro-op Buffer)。複雜編譯器可以編譯4個Uops微指令,而一些類似字元串處理的舊式複雜任務還要通過專門的ME微碼引擎(Microcode Engine)來轉換為更加複雜的微指令,這些微指令再同時輸入到MB微指令緩衝區等待下一步重排序。
英特爾智能內存訪問
  英特爾智能內存訪問(Intel Smart Memory Access)   英特爾智能內存訪問是另一個能夠提高系統性能的特性,通過縮短內存延遲來優化內存數據訪問。英特爾智能內存訪問能夠預測系統的需要,從而提前載入或預取數據,反映到用戶的直接使用體驗上,就是大幅提高了執行程序的效率。   以前要從內存中讀取數據,就需要等待處理器完成前面的所以指令后才可以進行,這樣的效率顯然是低下的。而英特爾酷睿微體系結構中加入一項名為內存消歧的能力,它可以對內存讀取順序做出分析,智能地預測和裝載下一條指令所需要的數據,這樣能夠減少處理器的等待時間,減少閑置,同時降低內存讀取的延遲,而且它可以偵測出衝突並重新讀取正確的資料及重新執行指令,保證運算結果不會出錯誤,大大提高了執行效率。   MIF微指令融合早先在Pentium M構架上就已經採用過,它和MF宏指令融合有著相似的功效,但是原理完全不一樣。SD簡單編譯器(Simple/fast Decoder)把接收的單條X86指令轉譯為兩條微指令,連接的兩條微指令通過ROB發送到RS后,RS把兩條微指令分開來傳輸到不同的PORT中,平行的雙通道同時傳輸,也可以是單通道的連續傳輸,這則取決於具體的處理情況。相對舊的MIF微指令融合技術,新的MIF支持了PORT的連續傳輸。Core的三重分支預測單元實際上與Pentium M的預測單元是一樣的,在Core的分支預測核心中存在一個雙模態預測器和一個球型預測器,這些預測器記錄下過去的執行歷史並隨時通知內核前端的ROB和RS,ROB和RS從BTB分支目標緩衝器(Branch Target Buffer)中快速取回所需要的數據地址,常規預測如通知一個分支在循環中僅在奇次迭代發生, 而不在偶次迭代中發生等, 這些在動態執行(P6系列)處理器上的靜態預測技術還有有著長遠的發展空間。分支歷史表(Branch History Tables)不能夠記錄下足夠詳細的循環迴路歷史來準確預測下次的運算,所以每次循環迴路的運行都浪費了大量的亢余時間。循環迴路預測(Loop Detector)則可以記錄下每個循環迴路結束前的所有的詳細分支地址,當下一次同樣的循環迴路程序需要運算時,內核前端的ROB和RS就可以以100%的準確度來快速完成任務,Core構架擁有一個專門的運演算法則來進行這種循環迴路預測。   Core前端處理環節新的突出能力是宏指令融合(Macro-Fusion),可以把多個X86指令融合在一起發送到到一個編譯器轉換為一個Uops微指令。多種指令可以被融合,其中特別將compare和test指令融合到了分支指令(Branch Instructions)中。4個編譯器都具有融合能力,但整個單元每周期只能完成一次宏指令融合。間接分支預測(Indirect Branch Predictor)在運用時並不是立即分支,而是從寄存器中裝載需要的預測目標,它實際上是一個首選目標地址的歷史記錄表。在ROB和RS需要間接分支的時候它就可以提供幫助,ROB和RS就可以快速提取到適用的結果,這與P6構架用可預測的條件分支替換間接分支來改善性能是相反的。
英特爾高級數字媒體增強   英特爾高級數字媒體增強(Intel Advanced Digital Media Boost)(英特爾清晰視頻技術 )   上面提到了「性能=頻率×每個時鐘周期的指令數」這個新概念,而英特爾高級數字媒體增強也同樣是為了提高每個時鐘周期的指令數而誕生,它可以提高SIMD流指令擴展指令(SSE/SSE2/SSE3)的執行效率。之前的處理器需要兩個時鐘周期來處理一條完整指令,而Intel酷睿微體系結構則擁有128位的SIMD執行能力,一個時鐘周期就可以完成一條指令,效率提升明顯。   SSE指令集已經十分普遍地用於主流的軟體中,包括繪圖、影像、音頻、加密、數學運算等用途,單周期128位SIMD處理器能力令處理器擁有高能效表現。   基於以上這些先進的創新特性,英特爾酷睿微體系結構提供了比前代架構更卓越的性能和更高的能效,為伺服器、台式機和移動平台帶來了振奮人心的全新高能效表現。[1][2]

5 英特爾酷睿微體系結構 -產品介紹


  英特爾酷睿2雙核處理器家族包括五款專門針對企業、家庭和高端個人用戶定製的台式機處理器,以及五款專門為滿足移動生活需要而定製的移動處理器。基於英特爾酷睿2雙核處理器的工作站還可為設計、數字內容創建以及技術計算等提供業界領先的性能。   英特爾體系CPU系列產品:   Pentium Extreme系列   可能有人會認為這是奔騰系列產品   但是它跟奔騰有本質區別 不是沿用NETBURST架構而採用的是CONROE新架構   PE 2140 1.6Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W實際功耗   PE 2160 1.8Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W實際功耗   PE 2180 2.0Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W實際功耗   PE 2200 2.2Ghz 800FSB 1MB L2 CACHE X86-EM64T 65nm 19W實際功耗   Core 2 Duo Extreme系列   E4300 E4400 E4500 22W實際功耗 65nm   E6300 E6400 E6500 E6600 E6700 E6800 1033-1600FSB 最大6MB CACHE 65nm 22-65W實際功耗   E8XXX系列,45納米更低功耗,更高主頻   筆記本CORE T系列   T2XXX(65nm)(其中T2370、T2330、T2310、T2130、T2080、T2060、T2410、T2390是移動版的奔騰雙核)   T5XXX(65nm)   T7XXX(65nm)   T8XXX(45nm)T9XXX(45nm)   筆記本酷睿2雙核 P系列   P7500(MacbookAir)   P8XXX   筆記本酷睿雙核 U系列   U2XXX   U7XXX   筆記本酷睿雙核L系列   L2XXX   L7XXX   酷睿2雙核中,CPU類型還分E系,Q系,T系,X系,P系,L系,U系,S系   E系就是普通的台機的雙核CPU,功率65W左右   Q系就是四核CPU,功率會在100W-150W   T系是普通的筆記本CPU,功率在35W或者31W   X系是酷睿2雙核至尊版,筆記本的X系CPU的功率是45W,台機的X系的CPU功率是100W左右   P系是迅馳5的低電壓CPU,功率25W   L系是迅馳4的低電壓CPU,功率17W   U系是迅馳4的超低電壓CPU,功率5.5W   S系是小封裝系列,SL的功率是12W,SP的筆記本還沒有上市,功率未知   有些CPU的前面是QX的,有的QX系列CPU全部都是台式機的,功率在125W左右,預計會有一款QX9300的筆記本CPU,功率是45W

6 英特爾酷睿微體系結構 -相關評論


  Intel從NetBurst與K8微架構的戰役中,勇敢地公開反省市場上失利原因,吸取教訓並重新定立未來發展方向,Intel執行長Paul Otellini公開承認,早前處理器產品發展路線上確實出現嚴重的技術性錯誤,例如Tejas及Jayhawk的高時脈處理器計劃,但忽略了製程上可能出現的規限,導致產品嚴重超離量產的可能性,錯誤估計市場的需要,作出了不適當的產品規劃,Paul Otellini表示,Intel已上了寶貴的一課,且保證2006年下半年將挾全新Core微架構捲土重來,並取回領導優勢。   為提高公司的競爭力,Intel已表明加速微處理器架構的改革,以往他們在新微架構開發工作緩慢,直至舊有架構出現瓶頸或無法與對手抗行才改朝換代,但新政策將希望以2年更新一代微處理器架構,不會作出任何保留。計劃中2007年下半年推出45納米的Penryn取代現有的65奈米Merom、Conroe及Woodcrest。2008年上半年推出全新微架構的Nehalen,而2009年下半年將會推出32納米的Nehalen-C,2010年上半年則推出全新微處理器架構Gesher。
上一篇[林業遙感]    下一篇 [《玉隕》]

相關評論

同義詞:暫無同義詞