英特爾第三代至強處理器解決AI難題
發(fā)布時間:2021-05-27 17:13:52
億玖服務(wù)器定制
聯(lián)系電話:13310806067
如何消除智能化鴻溝?
企業(yè)在AI應(yīng)用開發(fā)和使用各階段可能遇到的挑戰(zhàn),雖然不全,但已足夠“挑戰(zhàn)”
包括那些有一定的AI人才、技術(shù)積累與創(chuàng)新能力,但仍不足以支撐自身智能化轉(zhuǎn)型的企業(yè)在內(nèi),大家都在尋找一種功能全面、部署便捷且性價比高的法子,來幫助它們快速完成AI能力的構(gòu)建和部署。
這就給了云服務(wù)提供商大展身手的機會,通過輸出快捷、高效、實惠的AI云服務(wù),幫助條件和實力不足的企業(yè)快速部署和實踐AI應(yīng)用,它們可以做到既惠人,又利已。
意外!CPU成AI云服務(wù)熱門選擇
緊迫的需求,已經(jīng)在過去數(shù)年催生了眾多針對AI的云服務(wù)和產(chǎn)品,IaaS和PaaS級別的服務(wù)是主流,例如AIaaS (AI as a Service)、AI 在線服務(wù)、增強型 IaaS、企業(yè)級AI一體機,深度學(xué)習(xí)云平臺等等,硬件搭配也是多種多樣,例如基于CPU、GPU、TPU、NPU、FPGA等等,都在為企業(yè)AI轉(zhuǎn)型提供包括基礎(chǔ)設(shè)施構(gòu)建及優(yōu)化、AI應(yīng)用開發(fā)和部署,以及AI 模型訓(xùn)練與推理效能優(yōu)化在內(nèi)的多種支持。
有趣的是,CPU作為通用處理器,在AI云服務(wù)的搶眼程度,并不亞于專用的AI加速芯片。通過實際應(yīng)用分析,我們不難發(fā)現(xiàn),如果不是專注于AI算法模型訓(xùn)練和開發(fā)的企業(yè),大多數(shù)企業(yè)使用AI時其實更偏推理型的應(yīng)用。對他們來說,基于CPU平臺的云服務(wù),特別是集成了可加速AI應(yīng)用的AVX-512技術(shù)和深度學(xué)習(xí)加速技術(shù)的英特爾® 至強® 平臺的AI云服務(wù),其實在很多應(yīng)用場景中都足以應(yīng)對實戰(zhàn)需求,且不論對于他們,還是云服務(wù)提供商而言,部署都更快、更便捷,上手門檻也低。
就這樣,可能與大家的印象相悖,CPU成為了很多云服務(wù)提供商輸出,以及企業(yè)采用AI云服務(wù)時的熱門選擇,這使得以CPU為基礎(chǔ)設(shè)施的AI云服務(wù)異軍突起。
用CPU做AI云服務(wù),集成AI加速是前提
如前文提到,基于CPU的云服務(wù)要受歡迎,并不是僅僅做好通用計算任務(wù)就夠了,首先就要針對AI應(yīng)用在硬件上集成特定的加速能力。
作為老牌CPU廠商的英特爾,早在2017年就于第一代英特爾® 至強® 可擴展處理器上導(dǎo)入了可以加速浮點運算(涵蓋AI運算)的AVX-512技術(shù);而后又在2019年推出的第二代英特爾® 至強® 可擴展處理器上集成了可以加速INT8的英特爾® 深度學(xué)習(xí)加速技術(shù),專攻推理優(yōu)化;2020年和今年,分別面向多路和單、雙路服務(wù)器的第三代英特爾® 至強® 可擴展處理器依次亮相,后者靠INT8加速主攻推理,前者則通過同時支持INT8和BF16加速,兼顧了CPU上的AI訓(xùn)練和推理任務(wù)。
2021年面向單路和雙路服務(wù)器的全新第三代英特爾® 至強® 可擴展處理器的主要優(yōu)勢,包括再次提升AI推理性能
CPU有了AI加速能力,用它來構(gòu)建AI云服務(wù)的根基就已奠定。但為了充分發(fā)揮出這些硬件AI加速能力,英特爾還同步提供了一系列開源AI軟件優(yōu)化工具,包括基礎(chǔ)性能優(yōu)化工具oneDNN,可幫助AI模型充分量化利用CPU加速能力、預(yù)置了大量預(yù)優(yōu)化模型并能簡化它們在CPU平臺上部署操作的OpenVINO?,以及可以在現(xiàn)有大數(shù)據(jù)平臺上開展深度學(xué)習(xí)應(yīng)用,從而無縫對接大數(shù)據(jù)平臺與AI應(yīng)用的Analytics Zoo等。英特爾還將oneDNN融入了TensorFlow、Pytorch等主流AI框架,將它們改造成面向英特爾架構(gòu)優(yōu)化的AI框架。
通過這些舉措,英特爾架構(gòu)CPU平臺加速AI應(yīng)用的軟硬兩種能力就有了“雙劍合璧”的效果。而英特爾和云服務(wù)提供商合作伙伴的實踐,也正是基于此展開的。
CPU AI云服務(wù)第一式,軟硬打包上手快
得益于英特爾提供的全面AI加速軟硬件組合,多數(shù)云服務(wù)提供商無需做更多調(diào)整和優(yōu)化,就可迅速打造出針對AI的基礎(chǔ)設(shè)施即服務(wù)或AI云主機產(chǎn)品。簡單來說,就是將集成AI加速能力的英特爾® 至強® 可擴展平臺與我們提到的軟件工具,例如oneDNN或面向英特爾架構(gòu)優(yōu)化的AI框架軟硬打包,就可快速形成易于部署和擴展的AI云主機鏡像。
國內(nèi)有云服務(wù)提供商早在2017年就進行了類似的嘗試,通過使用英特爾優(yōu)化軟件,它激活了英特爾® 至強® 平臺的AI加速潛能,并在部分應(yīng)用場景實現(xiàn)了可與GPU相媲美的推理性能。
如果僅有性能優(yōu)化還不夠,還需要更快的模型部署能力,那就可以像CDS首云一樣導(dǎo)入OpenVINO?。它通過英特爾® 至強® 可擴展平臺、高性能 K8S 容器平臺和OpenVINO Model Server這三者的組合大幅簡化了AI模型的部署、維護和擴展。性能實測結(jié)果也表明,OpenVINO?不僅在用戶并發(fā)接入能力上優(yōu)于首云此前采用的AI框架,在推理應(yīng)用的時延等關(guān)鍵性能指標上也有良好表現(xiàn)。
CDS首云AI云服務(wù)方案架構(gòu)
CPU AI云服務(wù)第二式,深度優(yōu)化收益多
僅僅是導(dǎo)入英特爾已經(jīng)就緒的AI軟硬件組合,就已能輸出令人滿足的AI云服務(wù)了,那么如果是和英特爾在AI云服務(wù)的算法及模型上進行更深入的優(yōu)化,又會有什么驚喜呢?像阿里云這樣的頭部云服務(wù)提供商就通過實戰(zhàn)給出了答案。
以阿里云為例,其機器學(xué)習(xí)平臺PAI在與英特爾的合作中,利用了第三代英特爾® 至強® 可擴展處理器支持的bfloat16加速,來主攻PAI之上BERT性能的調(diào)優(yōu),具體來說就是以經(jīng)過優(yōu)化的Float32 Bert模型為基準,利用BF16加速能力優(yōu)化了該模型的MatMul算子,以降低延遲。測試結(jié)果表明:與優(yōu)化后的FP32 Bert模型相比,英特爾® 至強® 平臺BF16加速能力能在不降低準確率的情況下,將BERT模型推理性能提升達1.83倍。
阿里云PAI BERT 模型優(yōu)化方案
CPU AI云服務(wù)第三式,扎根框架打根基
如果說從提供軟硬協(xié)同的基礎(chǔ)平臺到定向深度優(yōu)化算法,算是AI云服務(wù)在優(yōu)化程度上的邁進,或者說云服務(wù)提供商與英特爾在AI云服務(wù)構(gòu)建和優(yōu)化上的深化合作的話,那么如果有云服務(wù)提供商能在深度學(xué)習(xí)框架這個AI基石上與英特爾開展合作,那是不是會更具意義呢?
為這個問題輸出答案的是百度,它的開源深度學(xué)習(xí)平臺“飛槳”先后結(jié)合第二代和第三代英特爾® 至強® 可擴展處理器在計算、內(nèi)存、架構(gòu)和通信等多層面進行了基礎(chǔ)性的優(yōu)化。其結(jié)果也是普惠性的——優(yōu)化后的飛槳框架能夠充分調(diào)動深度學(xué)習(xí)加速技術(shù),可將眾多AI模型,特別是圖像分類、語音識別、語音翻譯、對象檢測類的模型從FP32瘦身到INT8,在不影響準確度的情況下,大幅提升它們的推理速度。
英特爾深度學(xué)習(xí)加速技術(shù)可通過1條指令執(zhí)行8位乘法和32位累加,INT8 OP理論算力峰值增益為FP32 OP的4倍
例如在圖像分類模型ResNet50的測試中,飛槳搭配英特爾今年發(fā)布的全新第三代英特爾® 至強® 可擴展處理器對其進行INT8量化后,其推理吞吐量可達FP32的3.56倍之多。
如此性能增幅,再加上CPU易于獲取、利用和開發(fā)部署的優(yōu)勢,讓飛槳的開發(fā)者們可借助AI框架層面的優(yōu)化,更加快速、便捷地創(chuàng)建自己可用CPU加速的深度學(xué)習(xí)應(yīng)用。而為了給企業(yè)開發(fā)者們提供更多便利,百度還推出了EasyDL和BML(Baidu Machine Learning)全功能AI開發(fā)平臺,通過飛槳基于全新第三代英特爾® 至強® 可擴展處理器的優(yōu)化加速,來為企業(yè)提供一站式AI開發(fā)服務(wù)。
百度飛槳開源深度學(xué)習(xí)平臺與飛槳企業(yè)版
展望未來,跨越智能化鴻溝不僅靠算力
前文CDS首云、阿里云和百度的實例,可以說是充分反映了用CPU做AI云服務(wù)的現(xiàn)狀,而這些云服務(wù)也正是為當前希望跨越智能化鴻溝的企業(yè)設(shè)計的。當然,它們也會持續(xù)演進,比如說隨著未來AI技術(shù)的進一步發(fā)展,特別是大數(shù)據(jù)與AI融合帶來的新需求,不論是用CPU還是專用加速器,不論是企業(yè)自建AI基礎(chǔ)設(shè)施和應(yīng)用,還是云服務(wù)提供商輸出的AI云服務(wù),都會在數(shù)據(jù)存儲而非算力上面臨越來越多的挑戰(zhàn)。
畢竟,算力、算法和數(shù)據(jù)是并駕齊驅(qū)的“三駕馬車”,隨著數(shù)據(jù)規(guī)模進一步暴增,數(shù)據(jù)存儲也將對AI的部署和應(yīng)用帶來更多挑戰(zhàn)。
好消息是,國內(nèi)的云服務(wù)提供商也早已和英特爾就此展開了前瞻創(chuàng)新,例如百度智能云早在2019年就推出了ABC(AI、Big Data、Cloud)高性能對象存儲解決方案,能利用英特爾® 傲騰? 固態(tài)盤的高性能、低時延和高穩(wěn)定來滿足AI訓(xùn)練對數(shù)據(jù)的高并發(fā)迭代吞吐需求。
值得一提的是,英特爾在今年發(fā)布全新第三代英特爾® 至強® 可擴展處理器時,也帶來了與其搭檔的英特爾® 傲騰? 持久內(nèi)存200系列和英特爾® 傲騰? 固態(tài)盤P5800X。
與全新第三代英特爾® 至強® 可擴展處理器搭配使用的英特爾® 傲騰? 持久內(nèi)存和英特爾® 傲騰? 固態(tài)盤新品