天天看點

性能暴降62%?圖形工作站老司機踩坑記

這次就不同了,因為我拿到了一台比較發燒的專業工作站——Dell Precision Tower 5810,同時CPU和顯示卡的配置也都不低哦。

Quadro M4000:SPECviewperf測試輕松打卡過關

NVIDIA Quadro M4000專業顯示卡是本次測試的主角之一,由于它的功耗超過了75W,是以除了PCIe插槽還外接一個6pin 12V供電插頭。

Quadro M4000定位于中高端,1664個流處理器,256bit GDDR5顯存接口。關注前沿的朋友可能知道核心代号Pascal的Quadro P系列已經釋出,而它的全面普及可能要等到下一代Intel Skylake平台工作站。而本文更多目的不是測試硬體本身的性能,而是通過測試來說明如何讓一台圖形工作站運作在最佳狀态下,即調優的方法和要點。

多年前我曾經做過圖形工作站/專業顯示卡測試、技術支援方面的工作,如今的NVIDIA Quadro設定界面與當年變化不大。而正是這一點麻痹了我,本文中踩的坑就是從這裡開始的,不知有沒有朋友發現點端倪?

NVIDIA Quadro顯示卡驅動,我使用了較高的376.84公版,一開始還有點别的用意。

有了這個界面截圖,測試配置就不用多說了。這台Precision T5810工作站配置了Intel Xeon E5-1620 v4 3.5GHz四核CPU,高主頻有利于顯示卡性能的發揮。

為了驗證測試數值是否正常,我引用了www.spec.org官網上公布的兩套Quadro M4000性能結果進行參考。對比系統的CPU配置更高,但其中的T5810使用Windows 10系統進行測試,而且三者之間的驅動版本不同。是以隻要證明自己合格就好:)

Siemens NX、PTC Creo測試:哪裡出了問題?

上一次跑Siemens NX BenchMark使用的還是NX4軟體版本,去年我在DTF大會上與參展合作夥伴西門子的朋友聊天,又聽到了UG這個名字。如今的SPECapc NX10基準測試跨越了幾個版本,而CAD(計算機輔助設計)/PLM(産品生命周期管理)應用軟體做的還是那些事情,有些模型還是那樣熟悉。下面的測試都是在預設的FSAA(全螢幕反鋸齒)模式下運作。

上面的圖表注明了“優化前”,也就是我第一次運作,測試完感覺得分有點低,跟spec.org官網上的結果一比吓了一跳——圖形測試居然差了這麼多!可是之前的SPECviewperf數值很正常啊?

注:在這裡我盡量找接近配置的成績進行對比,由于影響圖形性能的首要因素是顯示卡,其次是CPU單核性能,比較适合參考的是一套Precision T3620工作站。

測試截圖:TLEngine_Cooling_Trans_wheels_full_scene_true_studio(真實着色顯示模式)

上面視訊建議在wifi下觀看:我專門截取了一段SPECapc for NX中的測試腳本,在2種顯示模式下對模型進行旋轉、平移、縮放、剖切等操作,請先記下優化前的運作時間是22秒。

接下來我又運作了SPECapc for PTC Creo 3.0,也就是跑在“新版Pro/E”軟體下的測試包,遇到了類似的情況,圖形總分隻有spec.org上配置Quadro K4200顯示卡參考系統的大約一半。(注:由于沒有M4000找了最接近的)

上述結果中CPU總分和I/O總分“倒挂”的情況,我覺得應該是顯示卡不同造成。根據我對SPECapc Pro/E系列測試的了解,被統計入CPU的測試項目意味着它們相對更容易受CPU的性能影響,而不代表與顯示卡方面無關。畢竟Quadro M4000比K4200要新一代。

圖形子項得分,Quadro M4000(優化前)測試結果全面落後K4200,顯然不太正常。

ptc worldcar賽車模型,從Pro/E、Wildfire野火版到Creo測試被SPECapc沿用了超過十年,不斷調整的是複雜度——頂點/多邊形數量、特效、功能測試等。

建議在wifi下觀看視訊:我從SPECapc for PTC Creo測試中分别截取了5種顯示模式下各5秒左右的模型移動、旋轉操作,請大家先觀察下優化前的運作速度,以便于下文中優化後的進行對比。

寫到這裡,當然我不會對上述測試結果就此罷休。怎樣從坑裡爬出來,使圖形工作站發揮出應有的性能?通過排查分析,我采用了2種不同的優化途徑。

踩坑不要怕,爬出來就是好漢

做為一名工作站“老司機”,我通過手工排查、修改配置最終找到了影響性能的“幕後黑手”;而如果換個解決問題的思路,還有另一種簡單的辦法——使用Dell工作站自帶的Precision Optimizer(DPO)優化軟體。

下面就看看這兩種方法的效果對比:

使用Dell Precision Optimizer優化後運作同樣測試隻需要13秒,節省了9秒時間。

我們看到,兩種優化途徑均能使Siemens NX的測試結果大幅提高,在它們之間互有小勝負。而4.3x的圖形總分與前面引用的spec.org參考系統對比一下,就能看出是否滿意。

再來看看PTC Creo,優化效果過瘾吧?恢複滿血之後的8.9x圖形總分,終于讓Quadro M4000在K4200面前揚眉吐氣了。

由于微信文章的限制,第4段視訊插不進來了。有興趣的朋友可以通路以下網址觀看,感受下速度提升。或者點選結尾處的“閱讀原文”,那裡面有合成後的對比視訊。

https://v.qq.com/x/page/x0512y6gto7.html

關于CPU性能得分,PTC Creo再一次證明DPO軟體要比我手動優化的效果略好。而I/O總分在這裡的情況比較複雜,或者說優化調節的選項也并非十全十美,在個别的軟體操作中可能也會帶來負面影響。

在圖形子項得分中,DPO與人工優化兩種方式互有勝負,與優化前相比,這種差距已經微不足道。

應用工作流,是按照PTC Creo測試中的操作(項目)次序來分類,包括圖形、重新生成、重新鑲嵌、大量屬性分析、加載-擦除-加載、車身圖形、IGES導入導出,以及發動機引擎重繪(我的翻譯可能不夠準确,見諒)。可見其中不少操作的性能瓶頸應該在于計算和I/O子系統。

PPT并非空穴來風,工作站新手也能PK老司機

在所有測試完成之後,我想起自己曾經在《Dell_Precision_Optimizer_Whitepaper》文檔中看到的下面這個對比。

由于搞過多年工作站,說實話當我一開始看到這種ppt宣傳時也是有點半信半疑的。而本次測試結果證明,SPECapc NX性能提升68%、SPECapc Creo提升超過160%(後者存在M4000/K4200的不同)是客觀存在的。這樣講的前提,是拿顯示卡驅動/作業系統預設設定,與開啟DellPrecision Optimizer的優化之後做對比。

而我是在哪裡踩的坑呢?上面挑一個比較重要的來說:盡管本文一開頭就提到我在顯示卡設定中選擇“3D App – Default Global Settings”全局預設,并關閉了垂直同步。如上圖,右邊“程式設定”中會檢測到我安裝的工作站圖形設計軟體,并加載對應的優化。

這都是很正常的,而“意外”出現在了垂直同步選項。今天的Quadro驅動似乎與8年前有些不同——調用的全局設定并不是“3D App – Default Global Settings”,而是“基本配置檔案”。如何修改該選項并不難,我在主要是想說這裡很容易被忽略。

垂直同步隻是人工優化過程中的步驟之一,将各種系統、顯示卡電源管理等選項逐一照顧到對于專注圖形設計的使用者來說顯得繁瑣了些。而工作站與伺服器的一個差別是,許多伺服器建議設定最大性能模式,而工作站則偏向于性能與噪聲/功耗的平衡。在這種情況下,我覺得像DPO這樣能夠在一定程度上動态加載優化配置的工具是值得肯定的。

DPO優化軟體在所有Dell圖形工作站上免費提供,通過簡單點選就能啟用,而性能優化隻是它的一部分功能。雖然我現在的主業不是工作站了,但DPO仍然吸引我去進一步了解它的全貌,後面有機會我想繼續講講:

-         DPO性能優化的工作原理,是否會修改應用軟體中的設定?

-         DPO支援多少種軟體、版本範圍如何?同時開啟多個優化配置會不會有沖突?

-         DPO的更多功能及價值

-         從DPO中的建議談不同CAD/DCC應用的工作站選型

繼續閱讀