摘要:輕量級云服務器如何使用實例的用法與普通彈性計算實例一樣便捷,用戶可以使用控制臺或者方式配置和購買服務。
阿里云發(fā)布了國內(nèi)首個公共云上的輕量級GPU異構(gòu)計算產(chǎn)品——VGN5i實例,該實例打破了傳統(tǒng)直通模式的局限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業(yè)務。適用于云游戲、VR/AR、AI推理和DL教學等輕量級GPU計算場景,更細粒度的GPU計算服務。
輕量級GPU云服務器是什么?輕量級GPU云服務器是一種新的GPU云服務器規(guī)格族,是通過公共云的GPU虛擬化技術(shù)將分片虛擬化后的GPU資源以虛擬GPU的形式安裝在GPU云服務器實例中。與常規(guī)GPU云服務器的區(qū)別在輕量級GPU云服務器提供更細力度的GPU計算資源,比如擁有更少的CUDA計算核心,更小的顯存。這樣做的優(yōu)勢是在業(yè)務應用中,業(yè)務可以根據(jù)資源所需更加靈活的配置GPU計算資源。
GPU的計算顆粒過大:
單顆物理GPU的計算能力越做越強大,但是許多應用需要更小顆粒的GPU計算資源;
常規(guī)GPU資源不利于業(yè)務自動伸縮:
擁有單顆物理GPU資源的實例在業(yè)務部署中會因為要充分利用GPU資源而造成“胖節(jié)點”,不利于設(shè)計成彈性伸縮架構(gòu),缺乏靈活性,無法應對業(yè)務快速變化;
常規(guī)GPU計算實例無法在線遷移:
常規(guī)直通虛擬化的GPU實例,由于架構(gòu)特性無法支持GPU實例的在線遷移;
我們從GPU加速器呈現(xiàn)方式,業(yè)務連續(xù)性,計算業(yè)務場景以及使用與管理看不同:
GPU加速器呈現(xiàn)
常規(guī)GPU云服務器實例是通過設(shè)備直通方式提供物理GPU加速器;
輕量級GPU云服務器實例是通過GPU虛擬化方式提供虛擬GPU加速器;
業(yè)務連續(xù)性
常規(guī)GPU云服務器僅支持作業(yè)離線遷移
輕量級GPU云服務器支持作業(yè)在線遷移
計算業(yè)務場景
常規(guī)GPU云服務器適用于重負載的GPU加速計算,例如:深度學習訓練與推理計算、HPC計算、重載圖形計算
輕量級GPU云服務器適用于輕負載的GPU加速計算,例如:輕負載的深度學習推理計算、深度學習教學場景、云游戲與VR/AR場景
使用與管理
常規(guī)GPU云服務器提供彈性計算服務實例、業(yè)務擴展以單顆物理GPU資源方式增加
輕量級GPU云服務器依然提供彈性計算服務實例,但業(yè)務擴展以更小粒度GPU資源方式增加(例如:1/8或1/4顆Tesla P4的資源);
技術(shù)亮點:支持用戶在公共云上創(chuàng)建更小顆粒的虛擬GPU的云服務器實例。
技術(shù)領(lǐng)先性有三點:
任何一項領(lǐng)先的計算技術(shù)要將其移植到公共云上輸出,還是要遵循可靠性、經(jīng)濟性和易用性的技術(shù)要求。
首先是可靠性,公共云服務器首先是公共服務,要給所有用戶提供“簡單可依賴”的基礎(chǔ)服務;雖然虛擬化GPU技術(shù)在私有部署條件下使用比較成熟,但是在公共云上使用還是要面臨幾個可靠性的挑戰(zhàn)的:第一是數(shù)據(jù)安全性;第二是資源隔離;這兩個問題在私有部署條件下通常是沒有要求的,原因是私有部署都是給同一用戶部署使用,安全和資源爭搶問題都比較容易解決。但是,要在公共云上使用,這些問題在公共云上就必須解決。
其次是經(jīng)濟性,用戶能選擇使用輕量級GPU云服務器出發(fā)點是希望更加精細的使用GPU資源,本質(zhì)是追求經(jīng)濟性。虛擬化GPU技術(shù)在私有環(huán)境部署,因為需求確定,可以根據(jù)預想好的使用場景來配置虛擬化比例,但在公共云場景就要解決既要滿足所有用戶的使用場景,又要保持調(diào)度系統(tǒng)的高效,不斷降低成本,追求經(jīng)濟性。
最后是易用性,易用性表現(xiàn)在幾個方面,一個是管理接口和使用習慣與其他ECS實例保持一致,另一個是APP在GPU實例中的使用場景和方式與其他常規(guī)GPU實例保持一致。這樣用戶就沒有學習成本了。
GPU實例的用法與普通彈性計算實例一樣便捷,用戶可以使用Web控制臺或者OpenAPI方式配置和購買服務。用戶在使用過程中可以完全掌控該實例,該實例在阿里云計算環(huán)境中運行,還可以配合其他云服務一起使用。當用戶業(yè)務遇到業(yè)務高峰時可以在數(shù)分鐘內(nèi)擴展新的實例來適應業(yè)務增長。用戶在虛擬化GPU服務的使用全過程中均可以享受到在線服務咨詢和快速故障處理服務。
輕量級GPU云服務器的實例有哪些?目前開放售賣基于NVIDIA Tesla P4的VGN5i實例,該實例提供八分之一到一比一的虛擬GPU加速器;
后面會上線基于NVIDIA Tesla T4的VGN6i實例,該實例提供十六分之一到一比一的虛擬GPU加速器;
輕量級GPU云服務器可以根據(jù)業(yè)務需求配置創(chuàng)建貼合業(yè)務所需計算資源的GPU云服務器實例,因此可以在每個輕量級GPU云服務器實例上僅運行一個計算業(yè)務負載,在業(yè)務峰值來臨時,橫向擴展某一個計算業(yè)務負載即可。這樣的特性十分適合互聯(lián)網(wǎng)業(yè)務中AI計算的批量部署以及云游戲,AR/VR在云端應用和深度學習的教學實驗場景。
VGN5i的用戶價值有哪些?VGN5i的用戶價值包括:降低批量部署GPU實例的成本,可以輕松實現(xiàn)快速彈性伸縮以及提高運維效率。
降低批量部署成本
在諸多圖形計算和AI推理計算的場景中,用戶通常并不要求單GPU實例的計算性能十分強大,而是更加關(guān)注業(yè)務在批量部署中的成本。小粒度的虛擬化GPU實例則更加合適這些場景,很好的平衡用戶業(yè)務在批量部署中的成本需求。
實現(xiàn)快速彈性伸縮
擁有了小粒度的虛擬化GPU實例,用戶不必再為了匹配較強的物理GPU資源而將服務部署成為復雜的胖服務節(jié)點,而是可以基于容器方式將有GPU計算需求的服務都解耦部署在不同的虛擬化GPU實例節(jié)點上。這樣部署的瘦服務節(jié)點更加有利于快速彈性伸縮,在業(yè)務的任何時刻都可以應對自如,提高業(yè)務運維效率。
提高運維效率
使用小顆粒的虛擬化GPU實例進行瘦服務節(jié)點部署,使得服務環(huán)境配置和服務接口變得簡單,使用不同的鏡像即可部署大規(guī)模的AI應用而無需部署復雜的胖節(jié)點,提供運維效率,降低時間風險和成本。
直播觀看地址:https://yq.aliyun.com/live/938
查看產(chǎn)品VGN5i:https://www.aliyun.com/product/ecs/gpu
VGN5i·釋放GPU計算新動力:https://promotion.aliyun.com/ntms/act/vgpu.html
阿里云新品發(fā)布會頻道:https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云新品發(fā)布·周刊:https://yq.aliyun.com/publication/36
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/3173.html
摘要:點擊訂閱云棲夜讀周刊阿里云發(fā)布了國內(nèi)首個公共云上的輕量級異構(gòu)計算產(chǎn)品實例,該實例打破了傳統(tǒng)直通模式的局限,可以提供比單顆物理更細粒度的服務,從而讓客戶以更低成本更高彈性開展業(yè)務?!军c擊訂閱云棲夜讀周刊】 阿里云發(fā)布了國內(nèi)首個公共云上的輕量級GPU異構(gòu)計算產(chǎn)品——VGN5i實例,該實例打破了傳統(tǒng)直通模式的局限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業(yè)務。適...
摘要:人工智能正在召喚神龍。阿里云發(fā)布首個異構(gòu)超算集群人工智能特別是深度學習,對算力的要求永無止境。除了神龍異構(gòu)超算集群外,阿里云還發(fā)布了新版本可兼容加速器和小程序云。人工智能正在召喚神龍。3月21日,阿里云發(fā)布業(yè)內(nèi)首個公共云異構(gòu)超算集群——基于彈性裸金屬服務器神龍X-Dragon的SCC-GN6,集群性能接近線性增長,將深度學習訓練時間縮短至分鐘級,可滿足無人駕駛、智能推薦、機器翻譯等人工智能場...
摘要:點擊訂閱云棲夜讀周刊是阿里級計算平臺,經(jīng)過十年磨礪,它成為阿里巴巴集團數(shù)據(jù)中臺的計算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務?!军c擊訂閱云棲夜讀周刊】 MaxCompute 是阿里EB級計算平臺,經(jīng)過十年磨礪,它成為阿里巴巴集團數(shù)據(jù)中臺的計算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務。 熱點熱議 阿里靠什么支撐 EB 級計算力? 作者:技術(shù)小能手?發(fā)表在:阿里技術(shù) Tablestore Timestream:為海...
摘要:點擊訂閱云棲夜讀周刊在歷史文章如何成為優(yōu)秀的技術(shù)主管中,阿里巴巴高級技術(shù)專家云狄從開發(fā)規(guī)范開發(fā)流程技術(shù)規(guī)劃與管理三個角度,分享對技術(shù)的理解與思考。【點擊訂閱云棲夜讀周刊】 在歷史文章《如何成為優(yōu)秀的技術(shù)主管?》中,阿里巴巴高級技術(shù)專家云狄從開發(fā)規(guī)范、開發(fā)流程、技術(shù)規(guī)劃與管理三個角度,分享對技術(shù) TL 的理解與思考。 熱點熱議 在阿里做了五年技術(shù)主管,我有話想說 作者:技術(shù)小能手?發(fā)表在:...
摘要:點擊訂閱云棲夜讀周刊如果說以不斷提升插件能力和可擴展能力的基礎(chǔ)設(shè)施開源項目民主化進程是在年的核心主題的話,那么在年,這個技術(shù)社區(qū)的發(fā)展脈絡(luò)又是怎樣的呢熱點熱議從發(fā)布,看技術(shù)社區(qū)演進方向作者技術(shù)小能手發(fā)表在阿里技術(shù)螞蟻中間件【點擊訂閱云棲夜讀周刊】 如果說以不斷提升插件能力和可擴展能力的 基礎(chǔ)設(shè)施開源項目民主化進程是 Kubernetes 在2017-2018年的核心主題的話,那么在2019...
閱讀 2179·2021-10-08 10:21
閱讀 2651·2021-09-29 09:34
閱讀 3566·2021-09-22 15:51
閱讀 5082·2021-09-22 15:46
閱讀 2367·2021-08-09 13:42
閱讀 3499·2019-08-30 15:52
閱讀 2792·2019-08-29 17:13
閱讀 1614·2019-08-29 11:30