【導(dǎo)讀】計(jì)算機(jī)主要組件的封裝幾十年來(lái)相對(duì)穩(wěn)定,但現(xiàn)在正經(jīng)歷一場(chǎng)革命。例如,在內(nèi)存和中央處理器(CPU)之間已經(jīng)達(dá)到散熱和帶寬極限的情況下,業(yè)界正在尋求新的方案來(lái)提高性能并降低功耗。最近兩年,引領(lǐng)這一追求的是混合內(nèi)存立方體(HMC)構(gòu)想...
計(jì)算機(jī)主要組件的封裝幾十年來(lái)相對(duì)穩(wěn)定,但現(xiàn)在正經(jīng)歷一場(chǎng)革命。例如,在內(nèi)存和中央處理器(CPU)之間已經(jīng)達(dá)到散熱和帶寬極限的情況下,業(yè)界正在尋求新的方案來(lái)提高性能并降低功耗。
最近兩年,引領(lǐng)這一追求的是混合內(nèi)存立方體(HMC)構(gòu)想(圖1)。這是美光科技(Micron)提出的概念,業(yè)已被龐大的產(chǎn)業(yè)領(lǐng)導(dǎo)者聯(lián)盟——混合內(nèi)存立方體聯(lián)盟(Hybrid Memory Cube Consortium)所采用。
圖1 混合內(nèi)存立方體。
這一概念基于用一組高速串行連接取代傳統(tǒng)的DRAM總線,同時(shí)使內(nèi)存和運(yùn)算芯片在物理上非常接近,以便去掉驅(qū)動(dòng)DRAM總線的功率晶體管。由此產(chǎn)生的模塊可將內(nèi)存的功耗降低70%~90%,目前性能可達(dá)160GB/s水平,這是兩項(xiàng)令人矚目的進(jìn)展。未來(lái)的配置目標(biāo)是超過(guò)上述指針的兩倍,最終是使用多個(gè)內(nèi)存模塊實(shí)現(xiàn)1TB/s的吞吐率。
硅穿孔(TSV)是使能技術(shù)(enabling technology)。透過(guò)在邏輯模塊上堆棧內(nèi)存裸片并使用TSV將頂層連接到邏輯電路,使用大量的并行鏈路,可實(shí)現(xiàn)很小的面積占用。今天的產(chǎn)品通常有四個(gè)堆棧裸片,所以每個(gè)模塊的容量限制在16GB。
邏輯層可以是CPU、繪圖處理器(GPU)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)或只是控制邏輯,似乎所有這些選項(xiàng)都開(kāi)始出現(xiàn)。來(lái)看一些應(yīng)用,CPU選項(xiàng)看來(lái)顯而易見(jiàn),在CPU之上構(gòu)建DRAM得到的稍厚的混合芯片,應(yīng)用在智能型手機(jī)和平板計(jì)算機(jī)上令人關(guān)注,這是一種節(jié)省寶貴空間的方式,但更重要的是節(jié)省稀少且缺乏的電能。使用16GB容量的方案,已經(jīng)是個(gè)可行的建議,而更高密度的封裝將擴(kuò)大到整個(gè)市場(chǎng)。
在服務(wù)器中,更高的帶寬是吸引力所在。目前尚不清楚市場(chǎng)是否會(huì)跟進(jìn)CPU/內(nèi)存堆棧路徑,或是選擇多個(gè)內(nèi)存芯片的緊密并列封裝,后者可將帶寬提升到500+GB/s范圍并增加HMC容量。舉例來(lái)說(shuō),英特爾(Intel)的Knights Landing Phi芯片旨在使用堆棧內(nèi)存結(jié)構(gòu)(圖2)。
圖2 英特爾Knights Landing代號(hào)Xeon Phi處理器。(圖片來(lái)源:英特爾)
AMD和Nvidia這兩家GPU制造商選擇了采用多通道并行總線不同的模塊化方法(高帶寬內(nèi)存,HBM)。HMB比RAM總線寬得多,可提供更高帶寬。DRAM裸片堆棧和與GPU緊密耦合旨在解決性能和功耗問(wèn)題,將模塊方法應(yīng)用到GPU引發(fā)了與服務(wù)器相同的封裝問(wèn)題,因此解決方案的采用可能取決于GPU產(chǎn)品是針對(duì)消費(fèi)類(lèi)還是針對(duì)人工智能(AI)市場(chǎng)。
在服務(wù)器系統(tǒng)中用作加速器的FPGA,其本身的故事仍在不斷演繹,盡管像Altera/Intel和賽靈思(Xilinx)這樣的公司已經(jīng)為HMC提供了原型開(kāi)發(fā)板。
這種模塊化方法透露出主要的管道含義。然主導(dǎo)力的天平明顯地倒向內(nèi)存芯片制造商(如美光),而對(duì)沒(méi)代工廠的DIMM組裝廠商不利,但這并非一蹴可幾,因?yàn)橄到y(tǒng)結(jié)構(gòu)和芯片生態(tài)系統(tǒng)還沒(méi)有發(fā)展到可正確使用模塊化方案??赡艿那闆r是,智能型手機(jī)的封閉性將使其成為更容易滲透的市場(chǎng)。
服務(wù)器市場(chǎng)轉(zhuǎn)向模塊化方法,很可能會(huì)因服務(wù)器核心中以結(jié)構(gòu)為中心架構(gòu)的興起而變得復(fù)雜。諸如Gen-Z之類(lèi)的方法使得串行內(nèi)存連接成為將CPU、GPU、FPGA和外部通訊連接在一起的RDMA結(jié)構(gòu)的焦點(diǎn),它使所有服務(wù)器單元之間直接使用公共內(nèi)存,以及共享內(nèi)存和接口的跨集群成為可能。未來(lái)AMD和Nvidia的計(jì)劃將致力于內(nèi)存與GPU之間更緊密的耦合,以使當(dāng)前架構(gòu)將大量數(shù)據(jù)從CPU內(nèi)存?zhèn)鬏數(shù)紾PU內(nèi)存的問(wèn)題不再困難。
主導(dǎo)力的天平倒向芯片制造商不僅傷及DIMM制造商,還同樣殃及插卡制造商。服務(wù)器主板將可能具有針對(duì)適配驅(qū)動(dòng)器或LAN的SoC方案的ZIF插槽,以及用于內(nèi)存和計(jì)算組件的更多插槽。
但供貨商陣營(yíng)也并非一團(tuán)和氣。英特爾在談?wù)撆c業(yè)內(nèi)其他家不同的途徑。業(yè)內(nèi)有討論可更好填補(bǔ)Optane NVDIMM和L3高速緩存之間性能差距的高帶寬、低延遲(HBLL)DIMM方案,而不是用于服務(wù)器的HMC。
最后的難題是,雖然這些新的內(nèi)存速度非???,但容量有限,目前為16GB或更小。雖然這與DIMM類(lèi)似,但其架構(gòu)將當(dāng)今的許多模塊排除在外。隨著對(duì)TB容量?jī)?nèi)存的需求, 該問(wèn)題尚沒(méi)有得體的對(duì)策。英特爾在NVDIMM中內(nèi)置傲騰(Optane)的HBLL方法很可能是條解決之道。