武道至尊帝临小说,古风名字,盗墓笔记有声小说

NVIDIA AI推理平臺實現(xiàn)AI服務性能及效率巨大飛躍

發(fā)布時間：2019-08-01 13:55:00

人工智能革命如火如荼，為企業(yè)帶來新的機遇，使他們能夠另辟蹊徑來解決客戶面臨的挑戰(zhàn)。我們正在奔向一個AI遍地開花的未來，屆時每次客戶互動、每件產(chǎn)品和每項服務都將融入AI并借助AI實現(xiàn)改進。若要實現(xiàn)這一夢想，我們需要能夠加速各種現(xiàn)代AI應用的計算平臺，使企業(yè)能夠創(chuàng)造新的客戶體驗，重新審視他們如何滿足和超越客戶需求，以及以經(jīng)濟高效的方式擴展其基于AI的產(chǎn)品和服務。

雖然機器學習領域已歷經(jīng)數(shù)十年進步，但深度學習 (DL) 在最近六年才開始蓬勃發(fā)展。2012 年，多倫多大學的Alex Krizhevsky憑借使用NVIDIA GPU訓練的深度神經(jīng)網(wǎng)絡在ImageNet圖像識別大賽中一舉奪魁，戰(zhàn)勝了所有人類專家嘔心瀝血數(shù)十載研究出的算法。同年，斯坦福大學的吳恩達在認識到“網(wǎng)絡越大，認知越廣”后，與NVIDIA Research團隊合作開發(fā)出一種使用大型GPU計算系統(tǒng)訓練網(wǎng)絡的方法。這些開創(chuàng)性論文迅速點燃現(xiàn)代AI的爆發(fā)式發(fā)展，進而引發(fā)一系列“超人”般的成就。2015 年，Google和Microsoft在ImageNet挑戰(zhàn)賽中均超越了人類的最高得分。2016 年，DeepMind的AlphaGo打破歷史紀錄，戰(zhàn)勝了圍棋冠軍李世石，同時Microsoft的語音識別能力已達到人類水準。

GPU已經(jīng)證明它們能夠極有效地解決某些最復雜的深度學習問題，雖然NVIDIA深度學習平臺是業(yè)界標準的訓練解決方案，但其推理能力并非廣為人知。從數(shù)據(jù)中心到終端，部分全球領先企業(yè)已使用NVIDIA GPU構建其推理解決方案。

其中包括以下案例：

SAP的品牌影響力服務已實現(xiàn)40倍的增長，同時其成本降低到原來的 1/32。

Bing視覺搜索已將延遲時間縮短到原來的1/60，并將自身成本降低到 1/10。

思科的Spark Board和Spark Room Kit采用NVIDIA Jetson GPU，已實現(xiàn)無線4K視頻共享，同時運用深度學習提供語音和面部識別功能。

TensorRT超大規(guī)模推理平臺

NVIDIA TensorRT超大規(guī)模推理平臺旨在讓世界各地的每一位開發(fā)者和數(shù)據(jù)科學家都能運用深度學習。該平臺率先采用世界精尖的 AI 推理加速器：配備NVIDIA Turing Tensor核心的NVIDA Tesla T4 GPU。Tesla T4依托NVIDIA的全新 Turing架構，能夠加速適用于圖像、語音、翻譯和推薦系統(tǒng)等各種領域的神經(jīng)網(wǎng)絡。Tesla T4支持各種精度，并能加速各大DL框架，包括TensorFlow、PyTorch、MXNet、Chainer和Caffe2。

強大的硬件需要精尖軟件的加持，作為高性能深度學習推理平臺，NVIDIA TensorRT能為圖像分類、分割、物體檢測、機器語言翻譯、語音和推薦引擎等應用程序提供低延遲、高吞吐量推理。它可以快速優(yōu)化、驗證和部署經(jīng)過訓練的神經(jīng)網(wǎng)絡，從而在超大型數(shù)據(jù)中心、嵌入式GPU或車用GPU平臺上開展推理工作。TensorRT優(yōu)化程序和運行時支持Turing GPU在各類精度水平下發(fā)揮出色性能，從FP32到INT8無一不及。此外TensorRT還集成有TensorFlow，能夠支持各類采用ONNX格式的主要框架。

基于 NVIDIA Turing 架構的

Tesla T4 Tensor 核心 GPU

NVIDIA Tesla T4 GPU是全球頂級加速器，適用于所有AI推理工作負載。T4搭載 NVIDIA Turing Tensor核心，能夠提供革命性的多精度推理性能以加速各種的現(xiàn)代AI應用程序。T4是NVIDIA AI推理平臺的組成部分，能夠支持各類AI框架并提供全面的工具和集成功能，從而大幅簡化高級AI的開發(fā)和部署工作。

Turing Tensor核心專為加速 AI 推理而構建，并且Turing GPU還繼承了NVIDIA Volta架構為NVIDIA CUDA平臺引入的所有增強功能，從而提升計算應用程序的能力、靈活度、效率和可移植性。Turing GPU架構擁有諸多特性，包括獨立線程調度、具有多應用程序地址空間隔離的硬件加速多進程服務 (MPS)、統(tǒng)一內存尋址和地址轉換服務以及協(xié)作組等。

TensorRT 5 特性

NVIDIA TensorRT超大規(guī)模推理平臺是一款完整的推理解決方案，包括前沿的Tesla T4推理加速器、TensorRT 5高性能深度學習推理優(yōu)化器和運行時以及TensorRT推理服務。此款強大的三合一解決方案能夠為深度學習推理應用程序提供低延遲和高吞吐量，并能支持它們進行快速部署。該平臺還可利用Kubernetes等工具，在多個主機上快速擴展容器化應用程序。借助TensorRT 5，我們能夠優(yōu)化且精確校準低精度神經(jīng)網(wǎng)絡模型的準確度，并最終將模型部署到超大規(guī)模數(shù)據(jù)中心、嵌入式或汽車產(chǎn)品平臺。在對各大框架中訓練的模型進行推理時，GPU上基于TensorRT的應用程序推理性能最高可達CPU的50倍。