NVIDIA AI推理平臺(tái)實(shí)現(xiàn)AI服務(wù)性能及效率巨大飛躍
發(fā)布時(shí)間:2019-08-01 13:55:00
人工智能革命如火如荼,為企業(yè)帶來(lái)新的機(jī)遇,使他們能夠另辟蹊徑來(lái)解決客戶面臨的挑戰(zhàn)。我們正在奔向一個(gè)AI遍地開花的未來(lái),屆時(shí)每次客戶互動(dòng)、每件產(chǎn)品和每項(xiàng)服務(wù)都將融入AI并借助AI實(shí)現(xiàn)改進(jìn)。若要實(shí)現(xiàn)這一夢(mèng)想,我們需要能夠加速各種現(xiàn)代AI應(yīng)用的計(jì)算平臺(tái),使企業(yè)能夠創(chuàng)造新的客戶體驗(yàn),重新審視他們?nèi)绾螡M足和超越客戶需求,以及以經(jīng)濟(jì)高效的方式擴(kuò)展其基于AI的產(chǎn)品和服務(wù)。
雖然機(jī)器學(xué)習(xí)領(lǐng)域已歷經(jīng)數(shù)十年進(jìn)步,但深度學(xué)習(xí) (DL) 在最近六年才開始蓬勃發(fā)展。2012 年,多倫多大學(xué)的Alex Krizhevsky憑借使用NVIDIA GPU訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在ImageNet圖像識(shí)別大賽中一舉奪魁,戰(zhàn)勝了所有人類專家嘔心瀝血數(shù)十載研究出的算法。同年,斯坦福大學(xué)的吳恩達(dá)在認(rèn)識(shí)到“網(wǎng)絡(luò)越大,認(rèn)知越廣”后,與NVIDIA Research團(tuán)隊(duì)合作開發(fā)出一種使用大型GPU計(jì)算系統(tǒng)訓(xùn)練網(wǎng)絡(luò)的方法。這些開創(chuàng)性論文迅速點(diǎn)燃現(xiàn)代AI的爆發(fā)式發(fā)展,進(jìn)而引發(fā)一系列“超人”般的成就。2015 年,Google和Microsoft在ImageNet挑戰(zhàn)賽中均超越了人類的最高得分。2016 年,DeepMind的AlphaGo打破歷史紀(jì)錄,戰(zhàn)勝了圍棋冠軍李世石,同時(shí)Microsoft的語(yǔ)音識(shí)別能力已達(dá)到人類水準(zhǔn)。
GPU已經(jīng)證明它們能夠極有效地解決某些最復(fù)雜的深度學(xué)習(xí)問(wèn)題,雖然NVIDIA深度學(xué)習(xí)平臺(tái)是業(yè)界標(biāo)準(zhǔn)的訓(xùn)練解決方案,但其推理能力并非廣為人知。從數(shù)據(jù)中心到終端,部分全球領(lǐng)先企業(yè)已使用NVIDIA GPU構(gòu)建其推理解決方案。
其中包括以下案例:
SAP的品牌影響力服務(wù)已實(shí)現(xiàn)40倍的增長(zhǎng),同時(shí)其成本降低到原來(lái)的 1/32。
Bing視覺搜索已將延遲時(shí)間縮短到原來(lái)的1/60,并將自身成本降低到 1/10。
思科的Spark Board和Spark Room Kit采用NVIDIA Jetson GPU,
已實(shí)現(xiàn)無(wú)線4K視頻共享,同時(shí)運(yùn)用深度學(xué)習(xí)提供語(yǔ)音和面部識(shí)別功能。
TensorRT超大規(guī)模推理平臺(tái)
NVIDIA TensorRT超大規(guī)模推理平臺(tái)旨在讓世界各地的每一位開發(fā)者和數(shù)據(jù)科學(xué)家都能運(yùn)用深度學(xué)習(xí)。該平臺(tái)率先采用世界精尖的 AI 推理加速器:配備NVIDIA Turing Tensor核心的NVIDA Tesla T4 GPU。Tesla T4依托NVIDIA的全新 Turing架構(gòu),能夠加速適用于圖像、語(yǔ)音、翻譯和推薦系統(tǒng)等各種領(lǐng)域的神經(jīng)網(wǎng)絡(luò)。Tesla T4支持各種精度,并能加速各大DL框架,包括TensorFlow、PyTorch、MXNet、Chainer和Caffe2。
強(qiáng)大的硬件需要精尖軟件的加持,作為高性能深度學(xué)習(xí)推理平臺(tái),NVIDIA TensorRT能為圖像分類、分割、物體檢測(cè)、機(jī)器語(yǔ)言翻譯、語(yǔ)音和推薦引擎等應(yīng)用程序提供低延遲、高吞吐量推理。它可以快速優(yōu)化、驗(yàn)證和部署經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),從而在超大型數(shù)據(jù)中心、嵌入式GPU或車用GPU平臺(tái)上開展推理工作。TensorRT優(yōu)化程序和運(yùn)行時(shí)支持Turing GPU在各類精度水平下發(fā)揮出色性能,從FP32到INT8無(wú)一不及。此外TensorRT還集成有TensorFlow,能夠支持各類采用ONNX格式的主要框架。
基于 NVIDIA Turing 架構(gòu)的
Tesla T4 Tensor 核心 GPU
NVIDIA Tesla T4 GPU是全球頂級(jí)加速器,適用于所有AI推理工作負(fù)載。T4搭載 NVIDIA Turing Tensor核心,能夠提供革命性的多精度推理性能以加速各種的現(xiàn)代AI應(yīng)用程序。T4是NVIDIA AI推理平臺(tái)的組成部分,能夠支持各類AI框架并提供全面的工具和集成功能,從而大幅簡(jiǎn)化高級(jí)AI的開發(fā)和部署工作。
Turing Tensor核心專為加速 AI 推理而構(gòu)建,并且Turing GPU還繼承了NVIDIA Volta架構(gòu)為NVIDIA CUDA平臺(tái)引入的所有增強(qiáng)功能,從而提升計(jì)算應(yīng)用程序的能力、靈活度、效率和可移植性。Turing GPU架構(gòu)擁有諸多特性,包括獨(dú)立線程調(diào)度、具有多應(yīng)用程序地址空間隔離的硬件加速多進(jìn)程服務(wù) (MPS)、統(tǒng)一內(nèi)存尋址和地址轉(zhuǎn)換服務(wù)以及協(xié)作組等。
TensorRT 5 特性
NVIDIA TensorRT超大規(guī)模推理平臺(tái)是一款完整的推理解決方案,包括前沿的Tesla T4推理加速器、TensorRT 5高性能深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)以及TensorRT推理服務(wù)。此款強(qiáng)大的三合一解決方案能夠?yàn)樯疃葘W(xué)習(xí)推理應(yīng)用程序提供低延遲和高吞吐量,并能支持它們進(jìn)行快速部署。該平臺(tái)還可利用Kubernetes等工具,在多個(gè)主機(jī)上快速擴(kuò)展容器化應(yīng)用程序。借助TensorRT 5,我們能夠優(yōu)化且精確校準(zhǔn)低精度神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度,并最終將模型部署到超大規(guī)模數(shù)據(jù)中心、嵌入式或汽車產(chǎn)品平臺(tái)。在對(duì)各大框架中訓(xùn)練的模型進(jìn)行推理時(shí),GPU上基于TensorRT的應(yīng)用程序推理性能最高可達(dá)CPU的50倍。