NVIDIA全新顯卡Pascal解析到底強在哪

2023-12-05 01:03:37 2

2016上半年過得差不多了，顯卡市場上這一年來基本上沒什麼新品，不論是AMD還是NVIDIA主推的還是上一代架構的顯卡，恍恍惚惚之間28nm工藝的顯卡竟然支撐了4年時間，這在以往的GPU升級歷史上可不多見。之所以沉寂這麼久是雙方都在憋大招，AMD新一代顯卡架構為14nm工藝的Polaris（北極星），NVIDIA準備的則是16nm工藝的Pascal（帕斯卡），後者在GTC 2016大會上首次揭開了面紗，NVIDIA發布的Tesla P100專業卡使用了旗艦GP100核心。

也許是久未見新工藝新架構顯卡，現在看到GP100這樣的龐然大物都覺得興奮了，這幾天我們已經被各種Pascal顯卡爆料刷屏了。從Kepler到Maxwell架構，NVIDIA錢兩次都是選擇首發面向主流遊戲市場的核心GK104、GM204（Maxwell首發的其實是GM107這樣的低端核心），GK110、GM200大核心產品通常要晚半年時間，但這次的Pascal顯卡就跟當年的GF100費米架構一樣選擇了大核心首發，歷史終於輪迴了。

作為16nm工藝的新一代旗艦，NVIDIA的GP100核心到底有多強？或者說它與目前的架構有什麼質的不同？今天的超能課堂上我們就來分析下GP100核心的特色，回顧下它與Kepler、Maxwell架構有什麼不同。

Pascal與Kepler、Maxwell規格對比

切入正題之前我們先來了解下GP100核心與Kepler、Maxwell架構的規格，此前NVIDIA官方也公布了GP100核心與GK110、GM200核心的一些對比，這裡我們做了一份更詳細的規格表，並加入了GM204及GK104這兩款遊戲顯卡核心。

GP100核心與GK110、GM200、GM204、GK104核心規格對比

這份規格表內容非常多，初看之下會覺得手足無措，不過小編把需要重點關注的地方標紅了，簡單來說就是GP100核心電晶體密度再次攀升、CUDA核心大幅增加、雙精度性能逆天增長、緩存/寄存器容量翻倍、HBM 2顯存及NVLink總線，這幾點基本上能概括GP100核心的特色。

Pascal架構看點之一：計算性能是關鍵，雙精度性能逆市回歸

GP100的性能一經公布，給小編的感覺就是NVIDIA這次回歸了GK110大核心時代注重雙精度運算的設計，而且比之前更加變態——GK110架構中FP64雙精度與FP32單精度的比例不過1：3，每組SMX單元中有192個FP32單元，64個FP64單元，但GP100核心中每組SM單元中有64個FP32單元，但有32個FP64單元，FP64與FP32比例是1：2。

要知道，Maxwell架構中單雙精度比砍到了1/32，GK104核心中單雙精度比是1/24，這都遠遠低於Pascal核心，唯一能與之媲美的就是當年Fermi核心的Tesla加速卡了。

因此在雙精度性能上，GP100核心可以說突破天際了，FP64浮點性能可達5.3TFLOPS，而GK110核心不過1.68TFLOPS，GM200核心更是只有可憐的0.21TFLOPS，GP100雙精度性能達到了GK110核心的3倍多，是GM200核心的20多倍。

HPC很多應用需要雙精度性能，不過深度計算（deep learning）這樣的計算並不需要高精度運算，因為它天生自帶糾錯能力，而GP100的FP32 CUDA核心可以同時執行2個FP16半精度運算，因此FP16浮點性能高達21.6TFLOPS。NVIDIA在Tesla P100之外還推出了基於GP100核心的DGX-1深度學習超級計算機，由8顆GP100核心及2顆16核Xeon E5處理器組成，深度計算性能達到了170TFLOPS，號稱比250臺X86伺服器還要強大。

GK110核心架構示意圖

GM200核心架構示意圖

GP100核心架構示意圖

GP100為了提升計算性能，增強的不僅僅是雙精度單元，其L2緩存、寄存器文件也大幅提升，總計擁有4MB L2緩存、14MB寄存器文件。

總之，NVIDIA的GP100核心為了計算性能可謂煞費苦心，雙精度性能簡直逆天，不過NVIDIA針對高性能運算所做的設計固然討好HPC市場，但對遊戲市場來說雙精度是沒多少用處的，反而浪費了電晶體單元，提高了成本及功耗。

Pascal架構看點之二：升級16nm工藝，密度、能效提升

從AMD的HD 7970顯卡率先使用28nm工藝開始算起，TSMC的28nm工藝已經陪伴我們四年時間了，期間AMD、NVIDIA數次升級的新核心都沒有工藝升級，依然堅持28nm工藝，雙方都跳過了20nm工藝、直接進入了性能更好的FinFET工藝節點，只不過AMD選擇了三星/GF的14nm FinFET LPP工藝，NVIDIA堅持了老朋友TSMC的16nm FinFET Plus工藝。

TSMC的16nm FinFET工藝優勢

對半導體晶片來說，升級工藝通常意味著電晶體性能提升、功耗下降，同時電晶體密度大幅提升。具體到TSMC的16nm工藝，該公司此前表示其16nm工藝的電晶體密度是28nm HPM工藝的2倍左右，同樣的功耗下性能提升38%，同樣的速度下功耗降低54%，對比20nm工藝則是20%速度提升、35%功耗下降。

我們再來看下GP100核心的相關數據：

GP100核心的電晶體密度、頻率及TDP功耗

我們簡單地把幾款GPU的電晶體密度換算了下（電晶體數量除以核心面積，由於GPU核心的電路複雜，這種算法不一定精確，僅供參考），16nm工藝的GP100核心電晶體密度大約是2510萬每平方毫米，算起來電晶體密度比之前28nm工藝的Maxwell、Kepler恰好多一倍。

至於每瓦性能比，這裡使用的是FP32浮點性能與TDP功耗的比值，考慮到上述核心面向的市場不同，我們要知道側重高性能的GP100與遊戲市場的GM204、GK104對比TDP是不公平的，不過最終的結果依然顯示出16nm工藝的GP100在每瓦性能比上有明顯優勢。

從這一點也可以猜測，未來針對遊戲市場的Pascal核心（比如GP104、GP106）問世之後，它們勢必要閹割掉GP100核心上很多不必要的功能，優化功耗，所以其每瓦性能比無疑會更出色。

Pascal架構看點之三：HBM 2顯存登場，16GB很好很強大

早在2年前的GTC大會上，NVIDIA就公布了Pascal顯卡的2大特色——一個是NVLink總線，一個就是3D Memory，號稱容量、帶寬是目前顯卡的2-4倍，帶寬可達1TB/s，這個顯存實際上就是HBM 2顯存。有意思的是，NVIDIA此舉也意味著儘管AMD Fury顯卡搶先使用HBM顯存，但NVIDIA還是在新一代HBM顯存上搶了先，不知道AMD面對這種情況又是如何看的呢？

對於HBM 2顯存，我們之前也多次做過介紹，HBM 2顯存現在已經被JEDEC吸納為標準。相比第一代HBM顯存，HBM 2顯存IO位寬不變，但核心容量從2Gb提升到了8Gb，支持4Hi、8Hi堆棧，頻率從1Gbps提升到了2Gbps，帶寬從512GB/s提升到了1024GB/s，這也是TB/s帶寬的由來。

目前三星、SK Hynix已經或者正在量產HBM 2顯存，單顆容量是4GB的，NVIDIA的GTC大會上展示了SK Hynix的HBM 2顯存，GP100核心使用的應該也是Hynix的產品，每個GP100核心周圍堆棧了4顆HBM 2顯存，總容量是16GB，要比AMD的Fury顯卡的4GB HBM顯存容量高得多。

支持HBM顯存對NVIDIA來說還有個好處，那就是ECC校驗。此前的架構中，NVIDIA Tesla顯卡的ECC校驗需要佔用6.25%的顯存空間，這意味著有相當部分的顯存要被「浪費」，Tesla K40加速卡的12GB顯存中有750MB預留給ECC校驗，可用的內存容量就剩下11.25GB，而且這還會影響內存帶寬。

相比之下，HBM 2顯存原生支持ECC校驗，不需要額外的內存佔用，這不僅提高了顯存利用率，帶寬也不會受影響。

GTC大會展示的SK Hynix公司的4GB HBM2顯存

16GB HBM2顯存總量在Tesla及Quadro專業卡中不算第一，但HBM 2顯存超高的帶寬是GDDR5顯存望塵莫及的。不過值得注意的是，在GTC大會上展示的HBM 2顯存頻率標明是2Gbps的，但NVIDIA的GP100核心目前帶寬只有720GB/s，並沒有達到之前宣稱的TB/s帶寬，算下來頻率應該只有1.4Gbps左右，這說明GP100核心的HBM 2顯存並沒有全速運行，不清楚NVIDIA為何留了一手。

Pascal架構看點之四：NVLink可支持8路顯卡並行

如果說3D顯存是NVIDIA公布的Pascal的第一個關鍵特性，那麼NV Link總線就是另外一個關鍵了，它同樣是NVIDIA針對高性能運算開發的技術，號稱速度是PCI-E總線的5-12倍，前面提到的DGX-1深度計算超級計算機就使用了NV Link技術。

GP100顯卡背後的NV Link接口

NV Link的優點就是帶寬超高，目前PCI-E 3.0 x16帶寬不過16GB/s，用在遊戲顯卡上是足夠的，但在超算中就不夠看了，新一代的PCI-E 4.0規範又延期了，這就得靠NV Link總線了。NV Link實際上是NVIDIA與IBM合作開發的，每個通道的帶寬是40GB/s，GP100核心支持4個NV Link，雙向帶寬高達160GB/s，而且帶寬效率高達94%，這些都要比PCI-E總線更有優勢。

DGX-1的8路GP100顯卡並行就靠了NV Link技術

NV Link技術主要是為高性能運算而生的，IBM會在他們的Power 9處理器中使用該技術，Intel就不太可能使用NVIDIA的技術了，他們有自己的並行總線技術。對於普通消費者來說，NV Link意義不大，不過超高的帶寬、更低的延遲使得NV Link技術可以支持8路顯卡並行，對高玩來說有一定吸引力，不過多卡互聯的關鍵在於目前恐怕沒有哪些應用或者遊戲能夠完美支持8卡運行。

Pascal顯卡最關鍵的問題：消費級顯卡如何「閹割」

以上四點只是NVIDIA Pascal顯卡的部分特色，由於官方公布的細節還不夠多，我們對Pascal顯卡的了解還需要進一步深入。毫無疑問的是GP100大核心在高性能計算市場大有用武之地，不論是超高的雙精度性能、超高的每瓦性能比還是超高的顯存帶寬、超高的NV Link總線，GP100大核心都擁有極強的競爭力，也無怪乎該卡剛發布，歐洲最強的超級計算機就準備使用Tesla P100專業卡升級了。