助力深度學習 NVIDIA發布兩款GPU加速器

2023-07-08 18:59:42 2

NVIDIA 今天宣布，旗下基於 Pascal? 架構的深度學習平臺再添新成員：新款 NVIDIA? Tesla? P4 和 P40 GPU 加速器及新軟體帶來大幅飆升的效率和速度，能更快速地處理人工智慧服務的推理工作負載。

NVIDIA聯合創始人、總裁兼執行長黃仁勳先生向大家介紹新款Tesla P4和P40加速器

語音激活的幫助、垃圾郵件過濾器以及電影和產品推薦引擎等現代 AI 服務正迅速變得更複雜，需要的計算能力比一年前的神經網絡最高高出 10 倍。目前基於 CPU 的技術無法提供現代 AI 服務所需的實時響應能力，導致用戶體驗較差。

Tesla P4 和 P40 專門設計為執行推理，也即使用經過訓練的深度神經網絡來識別語音、圖像或文字，以響應用戶和設備的查詢。這兩款 GPU 基於 Pascal 架構，包含基於 8 位 (INT8) 數據的專用推理指令，響應速度比 CPU 快 45 倍(1)，並且比發布尚不滿一年的 GPU 解決方案快 4 倍。

Tesla P4 為超大規模數據中心提供極高的能效。它外形小巧，能裝入大多數伺服器中，而且功耗極低（初始功率只有 50 瓦特），能效與處理推理工作負載的 CPU 相比提高 40 倍。對於視頻推理工作負載，一臺配備單個 Tesla P4 的伺服器可以取代 13 臺 CPU 伺服器(2)，而且總體擁有成本（包括伺服器成本和電力成本）可節省超過 800%。

Tesla P40 提供非常高的深度學習工作負載處理能力。它包含的 INT8 指令帶來 47 萬億次運算/秒 (TOPS) 的推理性能，使得一臺配備八個 Tesla P40 加速器的伺服器在性能上可以取代超過 140 臺 CPU 伺服器。(3)按每臺伺服器的成本大約 5,000 美元計算，僅伺服器購置成本就能節省超過 65 萬美元。

NVIDIA 加速計算事業部總經理 Ian Buck 說道：「憑藉 Tesla P100 以及今天推出的 Tesla P4 和 P40，NVIDIA 為數據中心帶來了極其罕見的端到端深度學習平臺，讓各行各業都能淋漓盡致地發揮 AI 的巨大潛能。它們使訓練時間從幾天縮短到幾小時，讓用戶能立即洞察玄機，還能實時響應消費者的詢問，向他們提供意見或建議。」

能加快推理速度的軟體工具

兩款創新的軟體助力 Tesla P4 和 P40，顯著加快 AI 推理速度，它們就是：NVIDIA TensorRT 和 NVIDIA DeepStream SDK。

TensorRT 是為優化將部署到生產環境的深度學習模型而創建的庫，能即時響應極其複雜的網絡。它通常以 32 位或 16 位數據的形式獲取接受訓練的神經網絡，並針對降低了精度的 INT8 操作優化這些網絡，從而最大程度地提高深度學習應用程式的處理能力和效率。

NVIDIA DeepStream SDK 利用 Pascal 伺服器的強大功能同時對最多達 93 路的高清視頻流進行實時解碼和分析，相比之下，雙 CPU 伺服器只能對 7 路視頻流這樣做。這解決了 AI 領域的一大挑戰：在自動駕駛汽車、交互式機器人、過濾和廣告投放等應用場合下，理解大批量的視頻內容。通過將深度學習能力集成到視頻應用程式中，公司能夠提供以前不可能提供的創新型智能視頻服務。

讓客戶的服務水平實現飛躍

如今，NVIDIA 客戶提供越來越新穎的 AI 服務，這些服務需要極高的計算性能。

百度高級研究人員 Greg Diamos 說道：「向每個用戶提供簡單和快速響應的體驗對我們很重要。我們在生產環境中部署了 NVIDIA GPU，提供由 AI 驅動的服務，例如我們的 Deep Speech 2 系統。通過使用 GPU，響應速度達到了未經加速的伺服器不可企及的水平。具備 INT8 功能的 Pascal 將實現更大的飛躍，我們期待它能給用戶帶來更好的體驗。」

規格：