深度解讀DX10架構!Shader激超2200MHz
2023-07-22 00:50:31 1
回望過去DX7時代3DFX的隕落;DX8時代NV與ATI的雙雄爭霸;DX9時代NV從NV30的絕對劣勢到NV40的反擊確立性能王者地位,作為業界最廣泛被使用的圖形接口,DirectX的每一次升級都給業界帶來近乎翻天覆地的變化,當然到了DX10時代來臨的時候同樣如此。機會總是稍瞬即逝的,如何能在DirectX更新換代時抓住先機是顯卡晶片廠商每一代顯示晶片的兵家必爭之地,G80的搶先發布無疑是給AMD R600給了沉重的壓力。
從G80開始NV為新一代的顯示晶片帶入了統一著色器架構(Unified Pipeline and Shader Design),簡單地說就是不同於從前那樣分開Pixel Shader、Vertex Shader等等不同類型的Shader單元去處理數據,而是以一個被稱為GigaThread的線程處理器根據不同的工作負荷分配流處理器完成各種指令。這樣設計的好處是,加上標量架構設計的配合,即便是面對各種各樣的圖形接口,顯示晶片都能夠以最高的工作效率運作,而不會出現Pixel或者Vertex上的自願浪費,影響效能。
以G80為例,128個標量化流處理器扮演著頂點著色器、幾何著色器、像素著色器等等的角色。與以往不同,當Pixel、Vertex等等的渲染工作就交由標量化流處理器完成,那麼大部分渲染工作的完成效能就涉及到流處理器頻率的問題。以往我們慣用提升顯卡效能的手段無非是提高顯卡核心頻率或者顯存頻率,再要提高效能充其量就是在顯存的時序上動些手腳,但在承繼了G80統一著色器架構的顯卡上,除了核心頻率以及顯存頻率外影響效能的還有標量流處理器Shader的頻率,而這個Shader的頻率在不少玩家口中流傳著一種說法就是Shader頻率決定了效能的高低,而核心頻率的作用被Shader頻率的作用淡化。
而事實上我們可以從NV官方放出的架構圖上見到,無論是Texture Flitering(TF)還是Texture Addressing(TA)都是和Streaming Processors分離的獨立單元,此外NV的官方文檔也提及了很重要的一點:CoreClock是控制著包括dispatch、textuneunit和ROP unit的效能,也就是說單單從理論上看,在顯卡處理運作的時候,實際上Shader頻率提升後,如果CoreClock維持,當Shader處理能力很強,但Textuneunit或者ROP一旦出現瓶頸,那麼顯卡性能還是不會有大幅提升。
值得一提的是,在高端的G80身上被驗證是成功的統一著色器架構被NVIDIA帶進Geforce 8系列中低端顯卡中。而事實上作為G80精簡3/4、7/8後的G84/G86並沒有表現出與G80性能精簡後同比列後相似的性能,實際上是流處理器優化的問題。