【最新動态】
3月20日阿裡雲在2019 NVIDIA GPU技術大會上釋出了國内首個公共雲上的輕量級GPU異構計算産品VGN5i執行個體VGN5i執行個體不僅打破了傳統直通模式的局限,還可以讓客戶以更低成本、更高彈性開展業務!以雲遊戲為例,企業通常僅需要一顆實體GPU幾分之一的計算能力即可流暢完成圖形或視覺計算;人工智能領域也存在類似問題,深度學習推理場景對GPU的計算資源消耗可能僅僅是訓練階段的數十分之一,甚至更少。對于這類應用場景而言,輕量級計算異構産品可以提升系統靈活性,并大幅降低成本。而阿裡雲本次首家提供雲上輕量級GPU執行個體,意味着使用者可以用更細粒度的計算資源開啟業務。
該産品基于NVIDIA Tesla P4 GPU,支援多種規格,企業可以按需選擇執行個體規格或者在雲市場選擇NVIDIA Quadro虛拟工作站,适用于雲遊戲、AR/VR以及圖形處理等随需應變的GPU計算場景。

3月21日,阿裡雲釋出業内首個公共雲異構超算叢集SCC-GN6
基于彈性裸金屬伺服器神龍X-Dragon的SCC-GN6,叢集性能接近線性增長,将深度學習訓練時間縮短至分鐘級,可滿足無人駕駛、智能推薦、機器翻譯等人工智能場景的高性能計算需求。人工智能特别是深度學習,對算力的要求永無止境。但如果隻是堆砌晶片,沒有低延時網絡、高速讀寫能力,大規模叢集無法發揮出最大的計算性能,性能損耗通常在50%左右。且算力資源并不豐富,有研究顯示,到2030年中國研究人員每人平均隻能擁有1-2個GPU,大多數研究将受到計算能力的嚴重限制。SCC-GN6是首個基于X-Dragon架構的超算異構産品,神龍雲伺服器與阿裡雲ECS、GPU雲伺服器等一起,最多可達512個節點,計算性能依舊接近線性增長,提供堪比超算中心的并行計算資源。
彈性計算推出新付費模式
預留執行個體券 預留執行個體券是一種抵扣券,可以提供按量執行個體賬單抵扣及容量預留。相比預付費執行個體,預留執行個體券與按量付費執行個體這種組合模式可以兼顧靈活性和成本同時比标準月價格更優惠。目前ReservedInstance已全網開放邀測。
Ali-Perseus:擎天統一深度學習分布式通信架構,增加資源性能,提升阿裡雲異構計算産品的成本效益
阿裡雲推出擎天統一深度學習分布式通信架構,業界首次統一支援Tensorflow、Caffe、MXNET、PyTorch 4個主流的深度學習架構的分布式性能加速,性能比優化的通信架構horovod提升2~5倍不等。統一深度學習分布式通信架構的實作,将各種深度學習架構的分布式優化與架構自身完全解除了耦合,可以在一個統一的架構之下進行阿裡雲基礎設施的深度優化。
持續基于阿裡雲VPC網絡進行深度優化,直接讓Tensorflow,MXNet,Pytorch和Caffe全面提升了在阿裡雲上的多機多卡擴充性,大大提升了阿裡雲異構計算優化的效率,也減輕了性能優化、開發和維護的工作量。客戶A已經在使用Ali-Perseus+Tensorflow+Bert在生産環境中進行預訓練,性能提升為horovod的2~5倍。客戶B在評測Ali-Perseus+MXNet,目前回報,與客戶的自有MXNet架構整合順利,檢測模型的4機32卡性能提升10%以上,性能上限接近線形加速比,客戶仍在進一步測試中。客戶可以完全保留之前的開源訓練架構不變的同時,享受到Ali-Perseus 通信架構的性能優勢,對大部分客戶來說,是比較容易接受的一種方案。對于客戶購買的IaaS資源來說,會直接增加這些資源的性能,提升阿裡雲異構計算産品的成本效益。
彈性高性能計算E-HPC自動擴容新模式:按多種備選執行個體類型進行擴容
E-HPC的自動擴容功能增加了一種新模式:每個排程器隊列支援配置執行個體清單,自動擴容時如果一種執行個體庫存不足,将根據目前隊列的執行個體清單選擇其他執行個體進行擴容,最大限度的確定使用者自動擴容能夠成功,保障使用者作業業務連續性。大客戶資源報備供應查詢大客戶在固定時間内的資源需求阿裡雲無法滿足時,CBM 會在背景幫客戶送出一個資源報備。改功能釋出前,若資源狀态有更新的時,需要CBM通知客戶去購買。在該功能釋出後,客戶可以直接在buy頁面檢視供應情況,對于已傳遞可以直接購買完成交易。
AUTOSCALING新功能釋出
伸縮規則增加了minAdjustmentMagnitude參數,解決simpleScalingRule采用Percentage方式縮容時,存在無法将伸縮組全部執行個體釋放完的情況。支援使用者設定步進伸縮規則,通過不同的區間定義不同的擴容容政策。修複通過啟動模闆建立伸縮組全鏡像未妥善處理,導緻的多建立資料盤的問題。
ECI新功能釋出
ECI 監控功能釋出,監控是 IaaS 基礎設施的核心能力,ECI 使用者通過監控可以及時感覺系統狀态,并輔助彈性伸縮和排程系統的決策。ECI 目前已經支援容器組及容器級别的的 cpu , memory , network , load 資料的監控,同時為了兼顧Kubernetes使用者和其他使用者的使用習慣,在資料查詢和展示上即支援雲監控查詢,也支援通過 OpenAPI 實時監控資料和彙聚查詢。
新開放大規格執行個體,容器已經越來越廣泛的應用在基因計算、視訊編碼轉碼、機器學習等場景,這些場景對于計算資源有強烈的大規格(大于4vCPU)訴求,ECI 已經開放 8vCPU 及以上 vCPU規格,最大支援 64 vCPU規格,滿足上述場景的訴求。
【産品資訊】
阿裡雲為吉利汽車建立了目前中國最大公共雲HPC仿真平台
使用神龍SCC規格族為客戶建立了可伸縮的近20000實體核規模的仿真叢集。SCC規格族使用了RoCE RDMA網絡提供了低延遲,高帶寬的内部互聯,為多機多核并行CAE應用擴充提供近乎線性加速比;使用阿裡雲超算SCC平台後,通過優化多核調用效率和記憶體帶寬配比,較之前的生産環境相比,顯著提升了仿真計算效率,提升license使用效率,汽車碰撞仿真應用LS-Dyna提升40%,汽車流體仿真應用StarCCM+提升近20%。吉利汽車仿真整體上雲對汽車主機廠搬雲提供了強勁的案例杠杆。
阿裡雲北京峰會人工智能專場,異構計算叢集加速技術解讀
介紹阿裡雲異構計算的彈性GPU計算服務,在AI算力需求爆發的時代,提供超大規模GPU叢集算力,在高性能,高可靠性以及易用性幾個關鍵點上為阿裡雲的AI客戶提供GPU計算服務。着重介紹了幾個新産品和服務,包括輕量級GPU執行個體用來滿足衆多輕量級的應用場景例如雲遊戲, AR VR, AI推理以及AI教學場景;以及Ali-Perseus 阿裡雲AI加速引擎--業界第一個統一四種主流架構Tensorflow,Pytorch,MXNet和Caffe的分布式訓練的雲上加速引擎,在VPC網絡環境下,為客戶帶來顯著的加速,Bert在2機16卡下,加速4倍左右,Insightface在4機32卡下加速超過2倍,顯著的加速了客戶和合作夥伴在人工智能領域的業務創新速度。
阿裡雲北京峰會分論壇深度解析彈性計算技術和産品
基礎設施分論壇上,從安全、穩定、彈性、提升成本效益等方面深入解析了彈性計算ECS。在PAAS層産品陸續登台的今天,ECS更加需要為All-in-Cloud時代勤練内功、夯實計算基礎。阿裡雲智能北京峰會,異構計算釋出了多款産品,産品能力的提升,獲得了客戶的廣泛關注。異構計算産品覆寫的應用場景,從單一的人工智能,開始向視訊,VR/AR,遊戲,工業設計等領域擴充。
【最佳實踐】
你想知道的ECS最新功能都在這兒:
https://help.aliyun.com/document_detail/110530.html本地自建資料庫遷移到ECS & ECS執行個體自建資料庫間遷移:
https://help.aliyun.com/document_detail/108121.html https://help.aliyun.com/document_detail/108218.htmlPacker建構鏡像 & Packer的DevOps配置:
https://help.aliyun.com/document_detail/111070.html https://help.aliyun.com/document_detail/111095.html阿裡雲異構計算打破傳統直通模式局限,更低成本、更高彈性開展業務,帶你了解國内首個公共雲上的輕量級GPU,10日下午3點直播釋出,
https://yq.aliyun.com/live/938