天天看點

斷供事件頻出,是時候用信創軟體實作科技自立自強了

作者:資料觀

2020年6月,哈工大、哈工程的MATLAB被美國軟體公司MathWorks斷供。該兩所院校被美國商務部工業與安全局(BIS)列入實體清單,而MathWorks作為美國企業,需要遵守《出口管理條例》(EAR)的管制,在沒有獲得出口許可時,不得與實體清單進行EAR受控物項的交易。作為國内首屈一指的“工程師搖籃”,這一斷供事件無疑直接或間接影響了大陸航天事業的開展,國産工程仿真軟體的自主研發迫在眉睫。

同樣的事情還發生在2021年初, Elastic 公司決定将Apache License 2.0 變更為雙授權許可,即Server Side Public License (SSPL) 和 Elastic License。該協定部分限制了雲廠商利用其開源軟體,包括在托管其軟體必須獲得Elastic商用許可或向Elastic開放其服務代碼才可以使用;同時,軟體的監控、安全、機器學習能力、資料異常檢測、資料合規檢測等功能未開源。這意味着封裝開源ElasticSearch的雲廠商将無法免費使用該産品,而使用開源ES的使用者也将無法免費使用其安全元件子產品,無法保證業務運作安全。

政策引導信創落地,技術和需求永遠是驅動力

在2021年《“十四五”國家資訊化規劃》提出了“加強資訊技術基礎研究、強化關鍵技術創新,強化市場化和産業化引導,加強重點領域核心技術短闆重點突破和集中攻關”。各地方政府的“信創”(即資訊技術應用創新)政策緊随其後,貴州、湖南、廣東、天津等地均釋出“十四五”資訊技術産業發展規劃。其中,深圳市對信創項目給予3%的補貼,并規定了各行業的信創采購比例不得低于兩成和四成不等。此外,《“十四五”軟體和資訊技術服務業發展規劃》還對信創目标提出了高要求:“到2025年,大陸規模以上企業軟體業務收入要突破14萬億元,年均增長12%以上。”

綜合各方因素,大陸信創已從規劃-實施-落地階段,邁入至快速發展的關鍵時期。在此階段,除了推動大陸技術的自主可控,還将助推政府、金融、電信、能源等國計民生行業的數字化轉型。

信創的重點在于“創”,在于産品創新、技術創新,在于為使用者創造更好的價值、更優異的産品性能和體驗。國産基礎軟體更了解中國國情,更了解中國客戶的痛點,也更适應于中國海量的資料量級和豐富的資料類型。

分析工具也有國産化平滑遷移方案,且資料處理量更大、功能更豐富

大資料分析工具可以幫助使用者更靈活、更高效地進行資料分析,挖掘資料價值。随着資料量的劇增,以及深度學習算法的不斷疊代以及創新,市面上如SAS、SPSS等集中式部署的分析工具越來越難以滿足企業使用者更快速、更高效、更靈活以及更低成本的需求。

例如,使用者在使用SAS過程中可能會遇到如下幾個問題:首先,其相對比較封閉,使用者無法針對單個功能授予許可證,使用成本高昂;其次,SAS自建機器學習算法有限,深度學習算法依賴外部如Python嵌入支援,使用者無法靈活地擷取新的算法;再次,SAS對分布式讀寫和計算存在局限性,對海量資料處理及大規模機器學習難以有效支撐,對實時計算更是無能為力。

此外,SAS是過程性語言,代碼量偏多,加上閉源特性,SAS社群不及開源語言活躍。随着R、Python的流行,SAS人才日漸稀缺,導緻企業難以組織高品質團隊。

星環科技Sophon Base是具備統計、機器學習、深度學習等完備算法和豐富算子的企業級分布式機器學習平台,支援從資料接入、資料處理,到模型訓練、服務部署、線上監控的一站式可視化流程,并擁有開源計算架構的生态、分布式計算性能、低成本與高開放性等特性。

斷供事件頻出,是時候用信創軟體實作科技自立自強了

圖1:Sophon與SAS功能對比一欄

在多年的行業積累和項目實踐上,星環科技建立了一套模型遷移方法論,整個過程被定義為8個階段——業務了解、資料了解、元模型了解、資料準備、模型遷移、評估報告、應用和檢測。星環科技SAS平滑遷移過程強調針對實際業務問題,解決客戶的業務痛點,産生實際價值。

通過對使用者業務、資料、元模型的了解後,進行相應的資料準備,包括架構設計、資料處理、方案設計等。當資料準備好後就會進行模型遷移,這一階段主要是進行代碼邏輯架構梳理設計、模型驗證等。模型遷移完成後會對遷移效果進行評估,确認遷移前後的準确性、一緻性、以及優化效果驗證。最後是部署上線來支援業務,對業務進行持續跟蹤,不斷優化模型,并對效果進行評估。通過一整套完整的遷移流程,保障SAS平滑、安全的遷移到Sophon。

星環科技Sophon可以提供完整的SAS模型遷移能力。相較于SAS,遷移到Sophon後可以支援多源異構資料的接入、豐富的資料處理、多個架構的模型訓練及釋出、模型部署和維護等全過程,多源資料和模組化流程靈活組合確定綜合性場景高效支撐。使用者可以獲得Sophon自建的200多個高性能分布式AI算子以及對自定義算子的支援,完全覆寫SAS原有的模組化能力。同時,Sophon還能帶來模型可解釋性、聯邦學習等額外的支援,更好地支撐模型的業務應用。此外,在模型的統一管理、釋出及監控方面,Sophon也為企業客戶提供了簡潔、易用、穩定的解決方案,幫助使用者更好地擷取資料價值。

分布式的分析工具性能幾何?用一個實際案例來說明

在銀行交易中,20%的頭部優質客戶會給銀行貢獻80%的利潤,而赢得一個新客戶的成本是保留一個老客戶的5至6倍。是以,銀行如果能夠提前預測出潛在的流失客戶,防止客戶流失而引發的經營危機,對于提高銀行的競争力具有戰略意義。

此前,某大型國有銀行在面臨此類資料挖掘的業務時,使用的是SAS産品。由于SAS是集中式的,對單台伺服器要求太高,算力無法支撐需求,且無法支援可視化的機器學習,對于業務人員來說使用門檻過高。在經過産品選型後,決定采用星環科技的智能分析工具Sophon替換原有SAS,用以滿足銀行利用全量資料進行挖掘的需求。分布式的軟體架構也在實戰過程中證明了其海量的資料處理性能優勢,逐漸取代了原有的集中式架構,進而以更有益的表現完成了某大型國有銀行所要求的海量資料挖掘任務。

表1:替換前後的産品分析

斷供事件頻出,是時候用信創軟體實作科技自立自強了

由于Sophon提供使用者從資料采集、接入、模型建構、測試、管理、知識存算和推理及輔助決策的全流程開發一體化平台,是以大幅提高了使用者模組化得整體效率。在模型上線後,該銀行實作了對單個客戶按照流失率得評分,評估資料顯示,在流失率評分最高的前10%客戶當中,實際流失的比例達到了20.2%,相較全量資料5.9%的流失率來說,流失率預測效率提升了242%,前10%客戶的覆寫度為34.2%。換言之,該銀行隻需要對流失率評分最高的前10%的客戶進行營銷活動,就能夠覆寫整體34%的流失率,可以有效提升客戶流失率挽回的效率和效果。在中高端客戶流失預警模型建構方面,該銀行基于星環科技分布式的智能分析工具Sophon,利用中高端客戶短期資産流失與長期資産流失的高關聯性,通過邏輯回歸模型提前找出中高端客戶群中的近期潛在流失客戶。模型訓練主要選取了如客戶基本屬性、持有産品、交易情況、賬戶情況、管道喜好等變量,綜合全面地考量後,給出該客戶在中高端客戶流失層面的分數,分數高低決定了流失可能性大小。

中高端客戶流失預警模型成功支撐了客戶經理對優質客戶的日常維護工作,進而定制差異化、個性化的産品、服務和營銷政策來挽留客戶,以防客戶流失情況的發生。

Sophon除了機器學習模組化場景外,還能支援哪些高階應用?

Sophon除了聚焦于機器學習、深度學習的資料科學平台Sophon Base外,還擁有邊緣計算平台Sophon Edge,可用于計算機視覺場景及工業網際網路場景;知識圖譜平台Sophon KG可用于知識庫建構、智能問答等場景;隐私計算平台Sophon P²C可用于企業内外部的資料安全流通、聯合模組化等場景。總言之,使用者在使用Sophon的分布式架構替代集中式的國外資料分析軟體後,除了資料處理量及模組化性能的指數型提升,還能擁有邊緣計算、知識圖譜、隐私計算等高階AI場景的支援能力,可以有效支援企業的數字化轉型及未來智慧化場景的拓展。

截至目前,星環科技智能分析工具Sophon已服務鄭商所、中行、工行等金融機構,外交部等政府機構,國網、南網、中化等能源使用者,人民網等媒體使用者,上汽紅岩、中煙等制造業使用者,并且在多個醫療和科研院所落地。

此前,Sophon已入選工信部人工智能産業創新任務“揭榜産品”,并且為上海資料交易所提供資料要素流通服務産品工具集。2021年至2022年,連續兩年被Gartner選為增強資料分析技術(Augmented Data and Analytics)推薦供應商,并入選Gartner大中華區AI創業标杆企業、《中國分析平台市場指南》等權威報告。

“科技自立自強”任重而道遠,技術自主研發是唯一的解法

在不斷頻出的斷供事件及國内外政策加持下,軟體自主權及資訊安全保障已成為頭等要務。資料是企業的資産和命脈,資料安全是企業固守的第一道牆。在使用國外開源元件或封裝服務的過程中,仍舊無法避免授權許可協定修改、安全相關子產品不提供等斷供風險,始終受制于國外法律與國際形勢。

想要實作“科技自立自強”,隻有把技術真正牢牢掌握在自己手中。星環科技作為國産大資料領域的重要參與者,已實作了全軟體棧的自主研發,且性能優于國外的同類型基礎軟體産品。未來,星環科技将持續自主研發大資料基礎軟體領域的關鍵技術,推動國家資料資訊安全和其他産業的發展,持續為客戶帶來安全可靠、性能優異、相容性強的基礎軟體産品。

繼續閱讀