天天看點

如何使用雲原生資料湖,助力線上教育行業逐漸智能化行業綜述行業發展方向面臨的痛點教育行業資料湖解決方案最佳實踐

行業綜述

線下教育行業因疫情受挫,線上教育卻逆勢增長

随着90年代網際網路的引入,線上教育産品也依托于網際網路誕生。随着網際網路技術的發展,線上教育産品也開始了出現新的模式。線上教育從最初單純的文字形式,開始往圖檔、音頻方面開始發展。加上這幾年直播技術的發展和人工智能等技術在線上教育的應用,線上教育成為今年疫情影響下,為數不多能實作逆勢增長的行業。

由于疫情的影響,教育行業根據中央疫情防控工作部署,直接暫停各類線下授課,不舉辦任何形式的聚集性教育訓練活動。在此期間各類線下教育訓練機構遭受重創,某知名線下教育機構上半年營收同期降低30%,淨虧損将近1億。

和線下教育不同的是,線上教育行業整體呈現逆勢增長的态勢,根據資料顯示,2020年中國線上教育使用者規模預計将達到3.51億人,預計市場規模将達到4858億元。同時由于疫情的影響,三月份線上教育市場滲透率更是高達85%,增長率是2019年的5倍以上。

行業發展方向

線上教育向資料化發展,行業逐漸智能化

教育線上化也進一步促進了資料化的發展,内容作為教育企業的核心資産,無論是資料化程度還是資料化規模都不斷提升;同時使用者使用時長的提升,又為教育AI提供了大量源資料。據統計今年3月份線上教育使用者日均線上時長,超過200萬天。如此海量的資料為行業的智能化發展提供了良好的土壤,推動了教學内容、課程營銷、師資管理、品質評估等智能分析的發展。

如何使用雲原生資料湖,助力線上教育行業逐漸智能化行業綜述行業發展方向面臨的痛點教育行業資料湖解決方案最佳實踐

面臨的痛點

行業飛速發展,資料處理成難題

行業飛速發展,使用者大量湧入,資料暴增,這就對企業在業務與資料多樣性方向帶來了挑戰。

首先由于線上教育行業的特殊性,業務量會随着學校是否放假而産生波動,基本呈現“春秋高、寒暑低”的季節性規律。同時由于此次疫情事件,讓整個行業重新認識到突發性業務的威力,是以如何更平滑地應對業務波動,對企業來說仍然是一個非常重要的挑戰。

其次大量使用者湧入平台,勢必會帶來大量的使用者行為資料,資料的增加自然會帶來存儲成本的增長。但資料是有價值的,利用好資料,将會為企業帶來更多的客戶以及更高的轉化。是以如何将這部分資料沉默成本與資料的價值相平衡,對企業來說也是一個巨大的挑戰。

另外線上教育往往會涵蓋多個細分領域,經常會包括學前教育、K12、語言類、職業類、高等教育等。教育機構往往會涉及到多應用、多教學場景,進而産生繁多的資料,是以如何應對多類型的資料存儲,對于平台方來說也是一個不小的挑戰。

如何使用雲原生資料湖,助力線上教育行業逐漸智能化行業綜述行業發展方向面臨的痛點教育行業資料湖解決方案最佳實踐

教育行業資料湖解決方案

建構統一的線上教育資料湖,讓資料的價值真正得到利用

基于以上問題,我們可以建構一個統一的線上教育資料湖。阿裡雲基于對象存儲OSS建構的資料湖解決方案,幫助企業有效消除資料孤島的現象,讓資料的價值真正被利用起來。

如何使用雲原生資料湖,助力線上教育行業逐漸智能化行業綜述行業發展方向面臨的痛點教育行業資料湖解決方案最佳實踐

首先阿裡雲基于雲存儲建構的資料湖天然具有很好的彈性伸縮能力,特别是在阿裡雲的節點及規模優勢基礎之上,能夠輕松應對業務指數級的擴容需求,平滑應對業務各類型波動及峰值。

其次,阿裡雲對象存儲OSS支援标準、低頻、歸檔三種存儲類型,覆寫熱、溫、冷的資料場景,結合生命周期管理功能,可以自動實作對資料的冷熱分層,很好實作對資料存儲的成本的管理。

在此基礎上,DLA提供的彈性計算能力,Serverless SQL(Presto)和Serverless Spark雙計算引擎,快速搭建業務分析系統,并且幫助使用者輕松應對波峰波谷的壓力,最大限度降本增效。

最後在應對豐富的資料類型上,面向教學場景的教學資源資料、教學過程資料、教學評價資料、教學行為資料;面向結構化或非結構化資料;面向音視訊資料、各應用資料、日志資料等,都可以通過基于OSS的資料湖沉澱,并進行統一的存儲。

如何使用雲原生資料湖,助力線上教育行業逐漸智能化行業綜述行業發展方向面臨的痛點教育行業資料湖解決方案最佳實踐

最佳實踐

客戶介紹:

該客戶需要可發内容資訊APP,為使用者提供感興趣、有價值的個性化内容,緻力于讓使用者的閱讀更有價值,是以個性化推薦就成為其産品重要的核心能力。

遇到的問題:

1、随着業務多年的發展,存儲資料量規模已經達到百PB左右,資料在産生階段會有比較密集的通路,随着時間的增長,資料的通路會逐漸趨冷,多年累積的冷資料已經對叢集容量産生了極大壓力

2、客戶原計劃通過擴大叢集規模,去支撐冷資料的持續增長,但随着資料規模持續增加,讓叢集擴容難度大幅度提升。另一方面,擴容的伺服器的計算資源使用率較低,無法形成資源的充分利用

資料湖解決方案

1、資料湖解決方案,可為使用者提供資料冷熱分層的功能,積累的冷資料被統一遷移到阿裡雲對象存儲OSS,新産生的熱資料儲存在HDFS叢集,熱資料經過一段時間逐漸趨冷後,就會定期遷移到對象存儲OSS進行冷處理

2、阿裡雲對象存儲OSS對于Hadoop生态的支援特性,原有計算任務隻需簡單調整通路位址就可以按照原有方式運作,讓計算任務能夠平滑遷移到資料湖運作。對于存儲到OSS冷資料,客戶通過OSS Lifecycle機制,定期将一部分冷資料進一步深度轉化為OSS歸檔類型,持續優化冷資料存儲成本,達到降本增效

達到的效果

1、OSS提供業内最豐富的API接口,幫助客戶将海量資料從其他從各個不同資料源輕松遷移到OSS

2、客戶在OSS的基礎上,還采用阿裡雲的日志服務,一站式解決日志采集、處理、查詢、投遞的各種難題,甚至還可以通過混合雲存儲陣列打通雲上線下資料的一體化

3、資料湖消除了客戶之前存在的資料孤島現象,支援各種計算引擎的直接對接,存儲與計算解耦合的架構,能夠更容易使用彈性計算和serverless化的雲服務,讓資料分析和通路無處不在