天天看點

教育大資料之資料內建系統

作者:人人都是産品經理
資料內建指的是把分散在各個系統中的各種類型的資料統一彙聚起來,而資料內建系統就是提供資料內建能力的平台。如何做好一個資料內建系統呢?本文作者對此進行了分析,一起來看一下吧。
教育大資料之資料內建系統

一個風雨交加的晚上,上司把我拉到會議室說:老影啊,公司接到一個項目,需要在3個月裡完成一個大資料平台的開發,用于項目的傳遞,這個任務交給你了,加油搞!此刻的我:搞?搞事情啊!由此我開始了資料平台的“闖關之路”,遇到的第一個boss就是資料內建系統……

01 什麼是資料內建?

百科裡的解釋是:把不同來源、格式、特點性質的資料在邏輯上或實體上有機地集中,進而為企業提供全面的資料共享;通俗講就是把分散在各個系統中的各種類型的資料統一彙聚起來,主要展現在一個“集”字。而資料內建系統就是提供資料內建能力的平台,是一站式解決異構資料存儲互通,消除資料孤島的同步平台,為大資料各系統和業務方提供資料內建的高效通道 。

拿現實中的執行個體類比來說,資料內建就好比把各種糧食通過不同的管道灌輸到一個大糧倉中,這些管道就是資料內建系統,我們可以支援接入各式各樣的糧食,小麥、玉米、大豆等等,同時支援在這些管道中加一些濾網,比如在大豆的管道中加上5mm的濾網,此時從大豆管道過來的糧食隻有5mm以下的大豆,這就相當于資料內建系統中的資料過濾功能;這個糧倉相當于內建目的,我們把資料內建進來之後存儲在這裡,供其他各方消費。

02 教育為什麼要做資料內建?

1. 資料大爆炸

現在是一個資訊大爆炸時代,網際網路的高速發展、迅速普及,讓資訊無處不在、無孔不入,每天在我們所生活在的這個世界出現了大量的資訊,教育場景下也不例外,随着各種資訊化系統的湧入,資訊以空前的速度增長,教育從業者體驗着資訊時代便捷的同時,也給他們帶來了問題和“副作用”,從浩如煙海的資訊海洋中迅速而準确地擷取他們最需要的資訊,變得非常困難。

2. 資料來源多樣化

随着《教育資訊化2.0行動計劃》的提出,教學過程中的資訊化系統越來越多,比如作業系統、考試系統、選課系統、智慧課堂等等,每個系統都會産生大量的資料,存儲在各自的資料庫中,如果系統的服務商不同,可能資料的格式也不一樣,緻使教育場景下的資料越來越多,越來越難以管理。

3. 資料集不同結構

教育場景下的資料集可能是結構化的、半結構化的,甚至非結構化的;比如:考試系統中的資料是結構化的,評價系統中的資料是半結構化的,課堂實錄中的資料是非結構化的;不同結構的資料需要整合成統一的結構才能夠進行統計和分析。

4. 資料備援

資料中有很多備援、錯誤、敏感資料,如果不進行資料清洗,會影響資料分析的效率和結果;在這種情況下需要我們配置統一的标準,對資料進行簡單的處理,以便于後續進行統計分析。

03 資料內建系統對教育的價值是什麼?

大資料技術能夠将隐藏于海量資料中的資訊和知識挖掘出來,按照科學的教育評價準則,對教學資料進行科學的統計分析,提供有價值的教學品質測評與分析資料,實作對教育活動,教育過程和教育結果的價值評判,為提高教育品質,教育決策以及學校改進日常教學方法提供科學的依據,實作教育管理的智能化,提升教育管理與服務水準。

資料內建系統作為底層基礎支撐性服務,是大資料系統的核心組成部分。通過提供資料內建能力,将教育各部門和來自網際網路的結構化和非結構化的資料進行統一的彙聚接入,存儲到大資料存儲元件,并支援資料的預處理,為大資料系統提供原始資料支撐。

04 資料內建系統怎麼做?

1. 建設原則

資料采集系統針對實際項目中複雜的、異構的資料環境,實作對多種資料源的內建,支援的關系資料庫有Oracle、MySQL、Sqlserver等,支援的檔案類型有txt檔案、csv檔案、excel檔案等,支援的接口類型有webservice接口、http接口、socket接口等。

對于不同的大資料存儲需求,實作對多種大資料存儲元件的支援,支援的大資料存儲元件包括HDFS、HBase、Hive、Solr、Elasticserach等。

針對資料的預處理需求,實作對資料的清洗、轉換、标準化等預處理的支援,并且支援清洗規則、轉換規則的使用者自定義,以及清洗、轉換、導入流程的使用者自定義。

在資料采集系統中,各類功能點子產品化、元件化,便于步驟獨立,保證系統内部子產品自治,同時便于多種步驟、方法的組合應用。

簡化使用者操作,通過圖形化的配置方式,簡單,靈活,使得使用者無需過分關心資料庫的各種内部細節,而專注于功能。

2. 資料內建資訊架構

教育大資料之資料內建系統

資料內建資訊流

3. 功能結構

為了快速實作資料內建系統,滿足後續項目傳遞,經過和研發大佬的多次溝通,優先實作為業務提供資料內建的能力的資料源管理和內建任務管理。明确了第一版需求,隻要包含資料源管理和內建任務管理就可以支援項目傳遞,是以功能結構設計如下:

教育大資料之資料內建系統

資料內建系統功能結構圖

4. 建設内容

1)資料源管理

資料源子產品主要管理平台支援的資料元件的基礎資訊,包含各種資料元件的新增,配置和管理,如關系型資料庫的資料庫IP,端口,通路資訊等。這裡大家可以了解為一個中間層,先通過資料抽取元件将各系統資料抽取到這裡,以備後續內建任務管理子產品的調用。

在這裡可以對資料源進行增删改查,前提是需要和資料來源方溝通好,需要提供資料庫IP相關資訊,下方是頁面示例:

教育大資料之資料內建系統

資料源管理清單

2)內建任務管理

當使用者建立好資料源之後,需要有一個子產品支援使用者建立內建任務,相當于上文中講到的,上遊的所有糧食都準備好了,需要我們提供搭建管道的地方,讓使用者把所有的管道搭起來,然後把各種糧食都彙聚到一起。此時內建任務管理子產品誕生了,這個子產品下主要對資料內建的任務進行統一的管理,支援使用者對資料內建任務進行增删改查。

①操作清單功能

  1. 上線:內建任務完成建立狀态預設為未上線,此時使用者可将內建任務上線,上線為就緒狀态;
  2. 運作:上線狀态下的任務支援運作,運作自動調用任務執行元件,開始資料內建;
  3. 下線:已上線的任務支援下線;
  4. 删除:未上線和已下線的任務支援删除;
  5. 編輯:未上線和已下線的任務支援編輯。
教育大資料之資料內建系統

資料內建任務清單

②任務運作

  1. 內建任務建立好之後,如果需要周期性的拉取資料,這時候需要支援進行例行周期配置,支援使用者配置定時任務;
  2. 同時支援使用者進行失敗政策、任務執行優先級等相關參數的配置。

3)新增內建任務

為了友善使用者填寫,支援使用者選擇不同的資料源類型,資料接口類型不同,需要配置的參數資訊也不同;但是總體來說資料內建主要分為三步:

  1. 資料接入:回答資料從哪來的問題;
  2. 資料處理:回答對資料要做什麼的問題;
  3. 資料輸出:回答資料要到哪去的問題。

下方以将第三方資料庫資料內建到hive中為例舉例說明。選擇資料庫之後,頁面進入資料內建任務配置頁,三個步驟依次如下:

①資料接入

主要配置資料源相關資訊,需要使用者填寫資料源表相關資訊:

  1. 資料源:資料叢集相關資訊;
  2. 資料庫:源資料存儲資料庫;
  3. 是否分表:如果分表存儲需要從多個表抽取資料;
  4. 表名:源資料所在表名;
  5. 資料歸屬産品/系統:這部分資料在目錄管理系統維護,這裡直接引用;
  6. 資料預覽:支援使用者對所選表進行預覽,檢視資料格式。
教育大資料之資料內建系統

資料接入

②資料處理

到在資料內建過程中會對資料進行預處理,考慮到後續的擴充性,這裡直接将各種處理步驟提煉為公共元件,支援使用者自定義選擇,第一期可支援:字段映射過濾、賬号比對、資料脫敏、資料轉換;為了節省操作,資料處理預設以字段映射過濾開始,自動選擇一項,使用者可直接點選下一步。

教育大資料之資料內建系統

資料處理

③資料輸出

此時的資料經過預處理,已經完成了清洗、轉換的操作,接下來就需要将處理完的資料存下來,以備後續使用。

教育大資料之資料內建系統

資料輸出

05 資料內建結束後做什麼?

下面以學生畫像的思路和大家簡單聊聊。通過從各個系統中采集過來的資料,包含但不限于:學生上網資料、網頁浏覽時長、作業完成資料、作業完成時長、課堂互動資料等等,幫助學校管理者針對學生群體進行标簽化分析。幫助教育管理者從學習,網絡行為,生活等多元度分析學生群體的習慣和特點,為學校實作個性化培養教育提供資料支撐。

學生畫像整體分為個人畫像和群體畫像:

1)群體畫像

通過對學生行為資料和結果資料的分析,為每個學生貼上具有行為或思想的特征标簽,并按照群體分類,教育管理者可以檢視每個分類的人群特征,并從學校、年級、男女比例等各方面進行群體标簽的分析,幫助學校定位不同标簽人群的特征和規律,實作精細化管理,同時通過對不同行為資料進行門檻值設定,及時發現出現問題的學生,以便進行及時糾偏。

2)個人畫像

通過采集學生各場景資料,如學習行為、學習結果、消費資訊、飲食資訊、運動資訊等,綜合分析學生的學習狀态,全面刻畫學生畫像,幫助教育管理者全方位了解一個學生,通過多元度分析學生的學習習慣和學習動機,逐漸實作喊了2000多年的口号“因材施教”。

作者:一丁,“資料人創作者聯盟”成員。

本文由@一個資料人的自留地 原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀