天天看點

教育知識圖譜的概念模型與建構方法研究

作者:閃念基因

教育知識圖譜的概念模型與建構方法研究

李振 周東岱

(東北師範大學資訊科學與技術學院, 吉林長春130117)

正文字數 12520 字 建議閱讀時間 36 分鐘

導讀

教育知識圖譜的概念模型與建構方法研究

自适應學習系統是實作個性化學習的重要突破口,而領域知識模組化一直是困擾該系統發展的一大難題。

目前,以深度學習、知識圖譜為核心的新一代人工智能技術的回歸,為其提供了新的發展契機。文章首先對已有的教育領域知識模組化方法進行了梳理與總結,對其現存問題進行了對比分析;在此基礎上,針對通用知識圖譜遷移應用于教育領域所面臨的知識粒度模糊、領域适應性不強兩大問題,建構了一種教育知識圖譜概念模型——EKGCM模型,該模型包括知識圖示、認知圖式兩個層次,以及知識節點、知識關聯、認知狀态、學習路徑四個基本要素;然後,針對圖譜建構自動化程度不高的問題,文章提出一種基于智能處理技術的建構方法,具體包括知識元抽取、前驅後繼關系挖掘、認知狀态診斷、學習路徑生成四個步驟;最後,采用理想智慧教育雲平台中的教學資源和學習行為資料驗證了上述方法的可行性。研究對于開展資料智能驅動的個性化自适應學習具有重要意義。

【關鍵詞】 教育知識圖譜; 概念模型; 知識元; 前驅後繼關系; 認知狀态; 學習路徑;

【基金項目】2017 年度吉林省科技發展計劃項目“ 智能移動終端教學軟體平台建構的關鍵技術與應用示範” ( 項目編号:20170204001GX);2018 年度教育部人文社會科學研究青年基金項目“智慧學習環境中精準學習者模型建構研究”(項目編号:18YJCZH169)

【作者簡介】李振(1989—),男,山東濟甯人。博士研究所學生,主要從事自适應學習系統、教育知識圖譜、個性化學習路徑推薦等研究。E-mail:[email protected]

教育知識圖譜的概念模型與建構方法研究

引言

個性化學習是教育改革與發展的永恒主題,更是大資料和人工智能時代教育創新發展的重大命題,而自适應學習系統是促進個性化學習從理論走向實踐的重要抓手和實踐平台,其核心元件包括學習者特征模型、領域知識模型、适應性引擎三部分[1]。随着大資料、人工智能等技術的迅猛發展,網際網路教育邁向智能教育新階段,教育資訊化邁入以人工智能技術為主要特征的2.0 時代[2],以深度學習、知識圖譜為核心的新一代人工智能技術的回歸,将對個性化自适應學習系統進行重塑和再造[3]。

知識圖譜作為人工智能從感覺智能向認知智能變遷的核心和基礎, 已成為各行各業從網絡化向智能化轉型更新的關鍵技術之一, 也為個性化自适應學習系統中的核心和基礎問題———領域知識模組化提供了新的技術手段[4]。《新一代人工智能發展規劃》明确提出,要研究知識圖譜建構與學習技術, 要建構覆寫數億級知識實體的多元、多學科、多資料源的知識圖譜[5]。在此背景下, 建構教育領域的知識圖譜成為智能教育發展的重要研究課題。鑒于此, 本研究以通用知識圖譜為基礎,建構了教育知識圖譜的概念模型,并對其智能化建構方法進行了研究,為進一步開展個性化學習、精準化教學等智能教育應用提供基礎。

教育知識圖譜的概念模型與建構方法研究

教育領域知識模組化研究現狀

知識模組化源于知識工程領域,其本質是将知識進行語義化和結構化表征,而教育領域的知識模組化是将知識因子有序化和知識關聯網絡化的過程,其目标是使學科知識及學習資源處于有序化狀态,為人工智能技術支援下的教育應用提供整序的知識服務。目前,在自适應學習系統中采用的知識模組化方法主要有概念圖、知識地圖、認知地圖、知識圖譜等。

概念圖是采用節點(概念)和連線(概念間關系)組織知識的圖示化方法,其理論基礎是奧蘇伯爾提出的有意義學習理論。概念圖的建構過程大緻可分為四個步驟:概念抽取、概念分類、定位中心概念、連接配接交叉概念[6]。在應用方面,概念圖既可以用于表達領域知識,也可以用于評估學習者對概念的認知狀況,如自适應學習系統中的LAOS 模型就采用了概念圖來對領域知識進行模組化[7],而Yi-Ting 等人将概念圖與多因素模糊推理相結合來評估學習績效[8]。

知識地圖是對知識及其存在方位的圖形化表示,是一種面向知識搜尋和導航的模組化方法。知識地圖也經常被用在自适應學習系統中來組織和表征學科知識及其關聯的資源, 并作為學習者認知加工的支架。在知識地圖的建構過程中,需将概念圖與包含概念的知識資源進行連結[9],該過程主要由教師和教育專家手工完成[10]。

認知地圖是1948 年由美國心理學家托爾曼提出的,其本質是一種通過概念及其因果關系表征個人認知結構的圖式方法。在認知地圖的教育應用方面,餘勝泉等人針對線上學習存在的“學習迷航”問題,提出了“學習認知地圖”的解決方案,但其建構過程主要由學科專家進行手工編制[11]。早期的認知地圖缺乏概念及其因果關系的定量描述, 是以,Kosko 等人将模糊集理論融入認知地圖之中,提出了“模糊認知地圖”的概念,使得認知地圖能夠從機率角度表示相關概念的關聯程度[12]。在此基礎上,Konstantina 等人将其運用于個性化自适應學習系統中來建構領域知識模型,地圖中的節點表示學習資源所包含的領域概念,并采用模糊集理論計算概念間的依賴關系及“影響強度”[13]。

當下學術界談及的知識圖譜主要有兩大類:一類是應用于文獻分析的“科學知識圖譜”,屬于資訊資源管理領域;另一類是Google 公司于2012 年提出的“大規模知識圖譜”,屬于計算機科學領域[14]。其中,Google 提出的知識圖譜(以下簡稱“知識圖譜”)作為一種新型的、結構化的語義知識網絡,能夠描述現實世界中的各種實體(概念)及其複雜的語義關系,并能夠實作自動化或半自動化的建構[15],已成為目前大資料智能時代的前沿研究方向。

目前, 公開的通用知識圖譜庫主要有GoogleKnowledge Graph、Microsoft Concept Graph、DBpedia、Freebase、知立方、知心等。在教育領域, 美國的Knewton 公司利用知識圖譜建構了包含概念及其先決關系的跨學科知識體系[16];Wolfram Research 公司通過融合Mathematica 和各垂直網站的知識, 建構了面向智能知識檢索的知識庫引擎Wolfram Alpha;可汗學院也将知識圖譜作為數學、科學與工程、計算機等學科課程的基本組織架構。在國内,微軟研究院和清華大學聯合釋出了“開放學術圖譜”,百度公司提出要建構K12 教育知識圖譜,北京師範大學餘勝泉教授團隊研發了基于育人知識圖譜的“AI 好老師”智能助理系統[17],華中師範大學的研究團隊開展了基于潛在語義分析的學科知識圖譜建構研究[18]。

綜合而言,知識圖譜相比概念圖、知識地圖、認知地圖,能夠表達更加廣泛的知識内容以及語義關聯關系[11-14],而且建構的自動化程度較高。但經過文獻分析發現,目前知識圖譜在教育領域的應用尚處于初步探索階段,在知識粒度、領域适應性、建構方法等方面仍存在以下問題:(1)知識粒度方面,現有知識圖譜中的知識節點多用于表示概念、知識點抑或現實中的實體,其粒度大小模糊,尚未深入到知識的最小獨立單元———知識元;(2)領域适應性方面,缺乏教育教學的針對性和語用情境,尚未展現出學習者個體對知識認知程度的差異性,未能模拟和反應學習者個體認知所達成的狀态;(3)建構方法方面,建構過程過于依賴學科專家,自動化程度不高,不同專家對同一知識點的認知偏差使得科學性與一緻性難以保證[19]。

教育知識圖譜的概念模型與建構方法研究

教育知識圖譜的概念模型建構

(一) 教育知識圖譜的概念界定

教育知識圖譜的概念模型與建構方法研究

目前,對于教育知識圖譜這一概念,學術界還沒有形成統一的定義,學者們從不同的研究視角對其進行了闡述,現有研究大緻可分為以下三大類:

(1)從知識組織視角出發,教育知識圖譜可看作一種由知識點及其語義聯系形成的知識網絡圖[20],其表征的教育領域知識既包含個體知識結構, 也包含群體的智慧[21]。

(2)從學習者認知視角出發,教育知識圖譜旨在表達教學過程中涉及的不同元素以及各類具有教育意義的認知關系[22],在知識圖譜的基礎上疊加學習者對知識掌握的狀态資訊, 能夠形成學習者的認知圖式[11]。

(3)從知識服務視角出發,教育知識圖譜在表征學科知識和知識關系的基礎上,能夠在大資料、人工智能等技術支援下形成面向知識學習和能力培養的學習路徑[23];教育知識圖譜也能夠将學科知識與教學資源實體以規範化、形式化的方式進行語義連接配接,進而實作線上教育資源的有效組織[24]。

綜合上述觀點, 本研究認為, 教育知識圖譜(Educational Knowledge Graph,簡稱EduKG)是知識圖譜在教育領域的拓展應用, 是一種以知識元為節點,根據其多元語義關系進行關聯,在知識層面和認知層面上表示學科領域知識和學習者認知狀态,可用于知識導航、認知診斷、資源聚合、路徑推薦的知識組織與認知表征工具。

(二) 教育知識圖譜的概念模型建構

教育知識圖譜的概念模型與建構方法研究

鑒于知識圖譜在教育領域應用中存在的知識粒度模糊和領域适應性不強兩方面的問題,本研究從結構和要素兩個視角出發,設計了教育領域知識圖譜的概念模型(Educational Knowledge Graph Concept Model,簡稱EKGCM)。如圖1 所示,EKGCM 模型包括兩個層次、四個基本要素。

教育知識圖譜的概念模型與建構方法研究

圖1 教育知識圖譜的概念模型(EKGCM)

1.模型結構視角———兩種圖示

認知主義學習理論認為,學習就是形成内部認知結構的過程,學習者通過學習會對某一領域知識在頭腦裡形成一個内部的認知狀态。是以,教育領域的知識模組化既要考慮學科的領域知識,又要考慮個體差異化的認知狀态。餘勝泉教授研究團隊也指出,教育知識圖譜應當能夠表征教學過程中涉及的不同元素以及元素間的各類認知關系[22]。基于此,本研究采用經典的分層設計理念,将認知層置于知識層之下,形成了教育知識圖譜的兩種圖示———知識圖示和認知圖式。

(1)知識圖示

知識圖示繼承了通用知識圖譜具有的知識表示、傳遞和共享功能,能夠很好地表征教育領域的學科知識體系,是教育領域知識結構的語義化、圖示化組織方式。EKGCM 模型中的知識圖示由知識節點和知識關聯組成,記為DKG =(N,R),其中N 表示知識節點集合,R 表示知識關聯集合。

(2)認知圖式

皮亞傑的圖式理論認為, 個體的發展是在同化和順應過程中改變認知圖式(結構)的動态過程[25]。安德森認為,認知結構是主體内部的一種動态的、可變的圖式,并且可以利用知識圖來外顯學習者的認知結構[26]。EKGCM 模型中的認知圖式就是對學習者個體認知結構的可視化表征。認知圖式是以知識圖示為基礎,通過對學習者認知狀态的診斷、評測,以可視化方式進行展現。認知圖式展現了學科知識到個體認知的生成,是實作基于認知差異的個性化資源推薦與學習路徑規劃的基礎。

2.模型要素視角———四大基本要素

托爾曼提出的認知地圖包括五大要素:标志、節點、道路/路徑、區域、邊界[27]。餘勝泉教授提出的學習認知地圖包括知識點内容、知識點關系、學習認知狀态、知識關系權重、學習路徑和服務推薦六個方面的内容[11]。基于此,本研究認為教育知識圖譜主要由知識節點、知識關聯、認知狀态、學習路徑四大基本要素構成。

(1)知識節點

根據聯通主義理論,學習是知識網絡結構中知識節點和知識關系建立和重構的過程[28]。是以,可以認為知識節點和知識關聯是教育知識圖譜最基本的要素。為細粒度地表征教育領域知識,本研究引入知識元作為知識節點的基本機關。知識元是表達概念、方法、規則、公理等知識元素的最小獨立單元,是表征教育知識圖譜知識節點的理想基元。

(2)知識關聯

人類知識原本是系統化、結構化的整體,但海量、異質、碎片化的數字化學習資源形态割裂了其内在聯系。知識關聯是重建知識内在固有邏輯結構的關鍵,是教育知識圖譜語義化組織的關鍵要素,也是學科領域知識和個體認知結構可視化展現的基礎。知識之間的關聯關系複雜多樣, 對教學具有重要作用的關系有:父子關系、前驅後繼關系、兄弟關系、平行關系、參考關系等[29]。在上述關聯關系中,前驅後繼關系是教師制定教學設計和教學政策的依據,也是實作知識導航和學習路徑規劃的前提。

(3)認知狀态

所謂認知狀态就是有關學習者對知識的認知水準以及掌握程度。個體的發展是在同化和順應過程中改變認知圖式的動态過程,認知圖式作為學習者已有知識經驗的網絡,是學科知識結構與學習者個體心理結構相作用的産物,由學科知識結構“内化”而來。在知識圖示基礎上,對學習者知識節點的認知狀态進行量化分析,形成個體的認知圖式。

(4)學習路徑

“網際網路+教育”時代,海量的學習資源、碎片化的學習時間、複雜的學習情境以及師生分離的教學空間形态,加劇了學習者的“知識迷航”和“知識過載”問題。研究發現,自适應學習系統中,如果沒有導航性的學習路徑支援,學習者很難達成既定的學習需求和學習目标[30]。是以,結合學習者的認知狀态和學習目标,為其智能規劃和推薦适合的學習路徑,是提升自适應學習系統個性化服務品質的關鍵所在。EKGCM 模型中的學習路徑是在學習者的認知狀态以及知識圖示的基礎上,通過智能優化算法對知識元動态規劃與重組而生成的。

教育知識圖譜的概念模型與建構方法研究

教育知識圖譜的建構方法

在EKGCM 模型基礎上,本研究提出一種基于智能處理技術的教育知識圖譜建構方法,具體包括知識元抽取、前驅後繼關系挖掘、認知狀态診斷、學習路徑生成四個步驟。

(一) 知識元抽取

教育知識圖譜的概念模型與建構方法研究

知識元抽取是将教學資源中的概念、定義、定理、性質、公式等領域術語提煉出來的過程。該問題可以轉化為資訊抽取領域中的序列化标注問題(SequenceLabeling),即對教育資源文本序列中的每個知識元打上一個标簽類别。目前,解決該類問題的方法主要有三種:基于詞典的識别方法、基于規則的識别方法以及機器學習識别方法。其中,前兩種方法需要領域專家和語言學者手工制定詞典和規則,存在耗時、耗力、領域遷移性欠佳等問題,而基于機器學習的方法能夠實作自動識别。

條件随機場模型(Conditional Random Fields,簡稱CRF) 是機器學習領域中的一種判别式機率模型,廣泛應用于自然語言進行中的分詞、詞性标注、命名實體識别等序列标注任務,是以,可将其應用于知識元抽取中。基于條件随機場模型的知識元抽取過程主要包括知識元特征選擇和知識元序列标注兩個步驟。

(1)知識元特征選擇

特征選擇是知識元抽取的關鍵,通過分析,我們發現教師在進行教學設計時通常遵循科學性、層次性、條理性、思想性的原則,形成的教學資源具有明顯的詞法、文法特征,比如:教學設計中的教學目标通常采用“使學生掌握……知識”“培養學生……能力”“通過學習,能說出……”“通過學習,能了解……”“通過學習,能分析歸納……”“通過學習,将形成……”等文法結構。本研究在參考學科詞彙表的基礎上,根據學科專家的指導,從統計特征和語義特征兩方面來定義知識元的特征。其中,統計特征包括前詞Pre、後詞Suf、停用詞Stop、詞性POS、詞長Wordlen、詞距離Distance等詞語級别的統計特征;語義特征指的是句子級别的語義特征, 采用連續詞袋模型将句子表示成詞向量,記為

教育知識圖譜的概念模型與建構方法研究

并基于詞向量計算句子的語義相似度Simi,最終将總體特征表示為如式1 的向量形式:

教育知識圖譜的概念模型與建構方法研究

(2)知識元序列标注

教育知識圖譜的概念模型與建構方法研究

應的标注序列,即狀态序列。知識元的抽取問題可轉化為:已知觀察序列X 的條件下,求解P(Y/X) 取最大值的狀态序列,該狀态序列即為知識元抽取問題的标注結果,計算方法如式(2)所示:

教育知識圖譜的概念模型與建構方法研究

其中,Z(x)表示歸一化因子,fk表示特征函數,λk表示權重參數。

在知識元正式标注前,需采用BIEO 規範對訓練語料進行編碼,B 代表知識元的首部,I 代表知識元的中部,E 代表知識元的尾部,O 代表無關詞。在進行條件随機場模型訓練時,将前述總體特征向量F 作為輸入,通過極大似然估計來實作模型的參數學習。其計算如式(3)所示:

教育知識圖譜的概念模型與建構方法研究

(二) 前驅後繼關系挖掘

教育知識圖譜的概念模型與建構方法研究

如前所述,前驅後繼關系是知識之間最重要的關聯關系,也是教育知識圖譜語義化特征的展現。知識空間理論指出,前驅後繼關系作為知識間的一種自然依賴而存在,是形成學習者認知空間的基礎[31]。此外,布盧姆等人提出的掌握學習理論也表明:學習者在學習後續知識之前,對先決知識的掌握程度必須達到一定的水準。具體來說,如果知識元b 依賴于知識元a(即a 是b 的前驅),那麼學習者在學習知識元b 之前需要掌握知識元a。例如:“一進制二次方程的一般形式”是“一進制二次方程求根公式”的前驅知識元,學習知識元“一進制二次方程求根公式”之前,應掌握其前驅知識元“一進制二次方程的一般形式”。

基于上述分析可知, 當學習者掌握知識元b 時,其前驅知識元a 也一定被學習者所掌握;反之,當學習者沒有掌握知識元a 時,其後繼知識元b 就難以學會。這一結論與Apriori 算法的先驗原理是一緻的,該原理認為:如果某個項集是頻繁的,那麼它的所有子集也是頻繁的;相反,若一個項集是非頻繁的,則它的所有超集也是非頻繁的。是以,本研究提出基于學習者測評資料, 并結合Apriori 關聯規則算法來自動挖掘前驅後繼關系。從關聯規則挖掘的角度來看,前驅後繼關系可以表示為:

教育知識圖譜的概念模型與建構方法研究

(三) 認知狀态診斷

教育知識圖譜的概念模型與建構方法研究

目前, 認知狀态診斷所采用的主要模型包括DINA、DINO、NIDA 等, 但這些模型在整個評估過程中是靜态的,并且潛在狀态是高階的,是以,需要估計大量的參數也不能動态變化[32],這導緻學習者知識與技能的可視化表示、基于診斷結果的适應性支援效果都會降低[33]。而根據心理學和教育測量學的觀點,學習者對于知識元的認知狀态或掌握程度通常被視為一種潛在變量,一般需要借助學習者測評過程中的外在行為對其進行估測。在機器學習領域,隐馬爾可夫模型是一種能夠描述不可觀測變量或隐藏變量的時序機率模型,是以,本研究采用該模型對學習者的認知狀态進行診斷。

教育知識圖譜的概念模型與建構方法研究

圖2 教育知識圖譜中的認知狀态診斷過程

如圖2 所示,該診斷過程以教育知識圖譜中的知識圖示為基礎,結合學習者在測評過程中的答題行為進行診斷。假設學習者依據知識圖譜進行個性化學習時遵循馬爾科夫過程,即學習者在t+1 時刻的認知狀态隻與其t 時刻的認知狀态有關,而與之前的認知狀态無關。基于此,可以得到學習者認知狀态随時間的轉移機率公式:

教育知識圖譜的概念模型與建構方法研究

此外,學習者在診斷過程中存在失誤或猜測的可能, 也存在單一時刻作答回報不确定和随意性等問題,是以,應綜合考慮學習者的認知能力以及失誤機率和猜測機率等認知屬性,并采用滑動樣本視窗的方法來提升認知狀态診斷的效果,最終可将學習者對知識元的認知狀态表示為:

教育知識圖譜的概念模型與建構方法研究
教育知識圖譜的概念模型與建構方法研究

(四) 學習路徑生成

教育知識圖譜的概念模型與建構方法研究

學習路徑生成的本質是根據學習者的學習目标和認知狀态對待學習的知識元進行排序的過程。按照學習路徑生成的方式, 可将其分為學習者自主要制式學習路徑、教師引導式學習路徑以及算法生成式學習路徑三種類型。随着大資料、人工智能技術的發展,算法生成式學習路徑正在被越來越多的學者所關注, 如基于AprioriAll 算法來自動生成個性化的學習路徑[30]。

目前,線上學習系統中已有的算法生成式學習路徑主要考慮學習風格和學習情境兩方面的因素,大多忽略了學習者的認知結構與知識的内在依賴關系,而理想的學習路徑生成需要建立在學習者已有認知狀态以及知識拓撲結構基礎上。Knewton 公司在知識圖譜領域的初步嘗試也表明,知識圖譜所承載的線上學習路徑更能精準比對學習者的個性化學習需求[16]。

教育知識圖譜的概念模型與建構方法研究

圖3 基于知識圖譜的學習路徑生成機制

學習路徑生成問題可以描述為:在已知學科知識元及其拓撲關系、學習者的學習目标及先驗知識結構前提下,對學習者待學習的知識元進行排序,生成覆寫目标知識元的優化序列。基于前面的研究工作,本研究提出了基于知識圖譜的學習路徑生成機制,如圖3 所示。

該學習路徑生成機制主要包括三個階段:(1)先驗知識子圖生成階段。基于學習者觀看視訊、參與社群互動以及線上測評等行為資料,采用前文所述的隐馬爾可夫模型對學習者的認知狀态進行測量,結合知識圖譜中知識元之間的前驅後繼關系,建構學習者的先驗知識子圖。(2)學習目标子圖生成階段。學習目标子圖是由學習者待學習的知識元及其前驅後繼關系組成的子圖,即将知識圖譜所有節點集合A 與學習者先驗知識子圖中的節點集合B 進行差集運算(集合A減去集合B)。(3)學習路徑生成與優化階段。對學習目标子圖進行拓撲排序,将學習目标子圖中所有待學習的知識元排成線性序列, 形成學習路徑候選集;而後,綜合考慮知識元中心度、學習難度以及前驅後繼關系,采用單源最短路徑算法、蟻群優化算法對學習路徑進行優化。

教育知識圖譜的概念模型與建構方法研究

實驗設計與結果分析

(一) 實驗資料采集與預處理

教育知識圖譜的概念模型與建構方法研究

資料是知識圖譜建構的基礎,教育知識圖譜建構的資料源大緻可分為兩類:(1) 教育大資料中海量的數字化教學資源。教學資源作為知識的載體,是生成教育知識圖譜中知識圖示的重要依據,主要包括電子教材、教學設計、網絡課件、試題試卷等文本資源。(2)教育大資料中的學習行為資料,具體包括學習者觀看視訊、參與社群互動以及線上測評的行為資料,學習行為資料是認知狀态診斷所依賴的資料源。

1.實驗資料采集

本研究采用的資料來源于理想智慧教育雲平台(http://www.edusoa.com/),該平台集教學、管理、研訓等功能于一體, 積累了海量的教學資源以及學習行為資料。目前,平台擁有各學科的電子教材、教學設計、網絡課件、試題試卷等教學雲資源約80TB,基于xAPI 規範采集的線上學習行為資料約60GB/天。本研究以國中數學學科為例,從雲資源中提取該學科的教學設計、試題、試卷等文檔共計5500 份,并從平台采集的學習行為資料中随機抽取了30 名國中生作為研究對象。

2.實驗資料預處理

教育領域大量的教學設計、試題試卷等數字化教學資源屬于半結構化或非結構化文本,是以,需要對這些文本進行中文分詞、詞性判别、去除幹擾詞等預處理工作, 采用的工具包括Jieba、ICTCLAS、FudanNLP。而後,由三名學科專家根據公認的賓州中文樹庫(Penn Chinese Proposition Bank,PCTB)标注規範,采用文本标注工具BRAT[34]對教學資源中的知識元及其語義關系進行部分标注, 以此作為模型的訓練資料。

(二) 實驗過程與結果

教育知識圖譜的概念模型與建構方法研究

1.基于條件随機場模型的知識元抽取實驗在上述預處理基礎上,将文本以句子為機關進行分割,并轉換成BIEO 标注體系。為了充分評價模型的性能,本實驗将資料集按照8∶2 的比例随機分成訓練集和測試集。訓練時,資料集的比例從10%逐漸增加到90%,并選用F1 值(F1-Score)作為模型的評價名額。

教育知識圖譜的概念模型與建構方法研究

圖4 F1-Score 值随測試資料集變化的曲線

本研究使用CRF++工具進行知識元抽取,采用了兩種特征模闆:模闆1 的特征包括前詞Pre、後詞Suf、停用詞Stop、詞性POS、詞長Wordlen、詞距離Distance、語義相似度Simi;模闆2 在此基礎上增加了領域詞典。在研究樣本中共提取到知識元781 個,F1-Score 值随測試資料集的變化曲線如圖4 所示。從圖中可以看出,随着訓練集的增加,模型的精準度逐漸上升,表明訓練語料的大小對模型具有重要影響。此外,特征模闆2 相比模闆1 的效果更好,表明融入領域詞典的預測效果更佳。

2.基于Apriori 算法的前驅後繼關系挖掘實驗

對于知識元前驅後繼關系的挖掘,采用的實驗資料主要是理想智慧教育雲平台中國中數學學科的微測資料和總測資料, 微測資料由小節或單元練習産生,總測資料記錄了期中或期末的測評結果。

為驗證機器标注的效果, 本研究聘請了兩位學科專家對機器标注的關系進行人工确認, 并采用Kappa 統計量對機器标注與專家标注的結果進行一緻性分析,這裡的“一緻”是指兩位學科專家對知識元a 和知識元b 之間關系的标注結果都與機器标注結果一緻。

教育知識圖譜的概念模型與建構方法研究

Kappa 統計量是一種比較兩個或多個觀測者對同一事物的兩次或多次觀測結果是否一緻的方法[35],Kappa 值介于0~1 之間。一般認為,若Kappa 值大于0.75,則說明一緻性程度較好。本實驗采用SPSS 交叉表操作計算出的Kappa 值為0.843,是以,可以認為本研究提出的關系挖掘方法與專家标注的結果具有較高的一緻性。表1 所示為國中數學學科部分知識元關系挖掘的結果。

3.基于隐馬爾可夫模型的認知狀态診斷驗證明驗

教育知識圖譜的概念模型與建構方法研究

本實驗以實數知識點的測評資料作為案例對前文所述的認知狀态診斷方法進行驗證, 資料集包含30 名學生在120 個測驗題目上的作答反應。表2 展示了部分測驗題目與知識元之間的對應關系,以及學生在相應題目上的作答結果。其中,表格中的1 代表題目考察了相應的知識元,0 代表題目沒有考察相應的知識元。

教育知識圖譜的概念模型與建構方法研究

圖5 090 号學生的認知狀态診斷報告單

實驗采用Python 版本的hmmlearn 庫[36],實作了基于隐馬爾可夫模型的認知狀态診斷方法。參數設定方面,知識的遺忘機率、學習機率、失誤率和猜測率都初始化為0.1, 并采用最大期望算法對隐馬爾可夫模型進行參數估計,實驗終止條件為似然值不再變化或達到疊代上限次數(1000 次)。圖5 呈現了某學生的認知狀态診斷報告單,從診斷報告中能夠清晰地看出該生在各個知識元上的掌握機率以及與全體學生平均水準的對照情況。根據該診斷報告,教師或個性化自适應學習系統能夠開展有針對性的補救教學。

4.學習路徑生成機制驗證明驗

為驗證路徑生成機制的有效性,本實驗以随機抽取的30 名國中學習者為研究對象, 對其2 個月的學習過程資料進行了分析,具體分析步驟如下:(1)以學習者的編号為基礎對其學習記錄進行分組,并按時間順序對學習記錄進行排序, 進而形成知識元學習序列。(2)去除學習者在連續時間内重複學習同一個知識元的學習記錄,僅保留最後一條學習記錄。(3)從去重後的資料記錄中提取出學習者實際的學習路徑Lr。(4)以學習路徑Lr 中最後一個知識元為學習目标,根據學習者的先驗知識子圖,采用蟻群優化算法自動生成學習路徑Lp。(5)比較每個學習者實際學習路徑Lr與自動生成的學習路徑Lp 上的知識元順序, 相同的次數記為P1,不同的次數記為P2,則生成路徑的使用頻率可表示為P=P1/(P1+P2)。

教育知識圖譜的概念模型與建構方法研究

圖6 090 号學生的學習路徑生成圖示

依據上述分析過程,對30 名學習者使用學習路徑的頻率進行統計分析,結果顯示:生成的學習路徑平均使用頻率在75%以上, 進而驗證了基于知識圖譜的學習路徑生成機制具有一定的實用性。圖6 展示了平台為090 号學生生成的一條個性化學習路徑。

教育知識圖譜的概念模型與建構方法研究

結語

領域知識模組化是建構個性化自适應學習系統的關鍵和基礎,也是該系統研究和發展過程中長期面臨的瓶頸問題。本文以知識圖譜為切入點,針對通用知識圖譜遷移應用于教育領域所面臨的知識粒度模糊、領域适應性不強、建構自動化程度不高等問題,從結構和要素兩個視角建構了其概念模型,提出了一種基于智能處理技術的建構方法,為基于知識圖譜的自适應學習系統開發和實作奠定了基礎。

但本文的研究仍存在以下兩個方面的不足之處:(1) 從人工智能的發展趨勢來看,人機協同的混合智能将成為新的研究熱點,是以,如何通過人機協同,将學科專家、教育技術專家等人類智慧與智能處理技術相融合,建構更加适合個性化學習、精準教學等教育情境的知識圖譜,還有待進一步深入研究。(2)現有自适應學習系統中的領域知識模組化主要面向可編碼、可量化的顯性知識,但沒有考慮隐性知識[37],是以,如何利用知識圖譜對學習過程中的隐性知識進行表示和模組化,将成為未來教育知識圖譜研究和發展的重點内容。

參考文獻:

[1] 高虎子,周東岱. 自适應學習系統學習者學習風格模型的研究現狀與展望[J]. 電化教育研究,2012(2):32-38.

[2] 李振,周東岱,劉娜,等. 人工智能應用背景下的教育人工智能研究[J]. 現代教育技術,2018,28(9):19-25.

[3] 牟智佳. “人工智能+”時代的個性化學習理論重思與開解[J]. 遠端教育雜志,2017,35(3):22-30.

[4] 劉春雷. 基于本體的教育領域學科知識模組化方法研究[D]. 重慶:重慶大學,2008.

[5] 國務院. 國務院關于印發新一代人工智能發展規劃的通知[EB/OL].[2018-12-14].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.

[6] 趙呈領,杜靜,萬力勇,等. 知識組織技術與方法的研究及其應用[J]. 中國電化教育,2014(4):77-86.

[7] 黃伯平,趙蔚,餘延冬.自适應學習系統參考模型比較分析研究[J]. 中國電化教育,2009(8):97-101.

[8] KAO Y T,LIN Y S,CHU C P. A multi -factor fuzzy inference and concept map approach for developing diagnostic and adaptive

remedial learning systems[J]. Procedia-social and behavioral sciences,2012,64(1):65-74.

[9] CASTLES R,LOHANI V K,KACHROO P.Knowledge maps and their application to student and faculty assessment[C/OL]//2008 IEEE Frontiers in Education Conference,New York:Saratoga Springs,October 22 -25,2008. [2019 -06 -14].https://doi.ieeecomputersociety.org/10.1109/FIE.2008.4720666.

[10] 高燕,秦志剛. 基于知識地圖實作動态學習流模組化[J]. 電化教育研究,2010(1):39-43.

[11] 萬海鵬,餘勝泉. 基于學習元平台的學習認知地圖建構[J]. 電化教育研究,2017(9):83-88.

[12] 張淩,喬曉東,朱禮軍. 認知地圖分析方法研究[J]. 情報理論與實踐,2014,37(6):34-39.

[13] CHRYSAFIADI K,VIRVOU M. A knowledge representation approach using fuzzy cognitive maps for better navigation support in an adaptive learning system[J]. SpringerPlus,2013,2(1):1-13.

[14] 馮新翎,何勝,熊太純,等. “科學知識圖譜”與“Google 知識圖譜”比較分析———基于知識管理理論視角[J]. 情報雜志,2017,36(1):149-153.

[15] 徐增林,盛泳潘,賀麗榮,等. 知識圖譜技術綜述[J]. 電子科技大學學報,2016,45(4):589-606.

[16] Knewton. Knewton adaptive learning building the world's most powerful education recommendation engine [DB/OL]. (2013-10-04)

[2019-02-25].https://www.knewton.com/wp-content/uploads/knewton-adaptive-learning-whitepaper.pdf.

[17] 餘勝泉,彭燕,盧宇. 基于人工智能的育人助理系統———“AI 好老師”的體系結構與功能[J]. 開放教育研究,2019,25(1):25-36.

[18] 孫小欣. 基于潛在語義分析的學科知識圖譜建構[D]. 武漢:華中師範大學,2013.

[19] 李振,周東岱,董曉曉,等. 大陸教育大資料的研究現狀、問題與對策———基于CNKI 學術期刊的内容分析[J]. 現代遠距離教育,2019(1):46-55.

[20] 楊開城. 論課程的易了解性與知識模組化技術[J]. 電化教育研究,2011(6):12-16.

[21] 崔京菁,馬甯,餘勝泉.基于知識圖譜的翻轉課堂教學模式及其應用———以國小國文古詩詞教學為例[J].現代教育技術,2018,28(7):44-50.

[22] 餘勝泉,李曉慶. 區域性教育大資料總體架構與應用模型[J]. 中國電化教育,2019(1):17-27.

[23] 鐘紹春,唐烨偉. 人工智能時代教育創新發展的方向與路徑研究[J]. 電化教育研究,2018, 39(10):17-22,42.

[24] 張波,金玉鵬,張倩,等. 試論一種新型線上教育資源大資料組織架構[J]. 中國電化教育,2018(3):41-46.

[25] 張麗霞. “資訊技術”課程教學中挑起“認知失衡”的政策[J]. 電化教育研究,2009(12):110-112.

[26] 曲兆華. 基于流程圖法的高中生良好數學認知結構特征研究[D]. 濟南: 山東師範大學,2018.

[27] 孫時進,王金麗. 心理學概論[M] .上海: 複旦大學出版社,2012:236-237.

[28] 王佑鎂,祝智庭. 從聯結主義到聯通主義:學習理論的新取向[J]. 中國電化教育,2006(3):5-9.

[29] 肖建瓊,高江錦. 适應性學習系統中知識點本體的研究與建構[J]. 智能計算機與應用,2013,3(5):14-19.

[30] 姜強,趙蔚,李松,等. 大資料背景下的精準個性化學習路徑挖掘研究———基于AprioriAll 的群體行為分析[J]. 電化教育研究,2018,39(2):45-52.

[31] DOIGNON J P,FALMAGNE J C. Spaces for the assessment of knowledge[J]. International journal of man-machine studies,1985, 23(2):175-196.

[32] 李振,周東岱,劉娜,等. 教育大資料的平台建構與關鍵實作技術[J]. 現代教育技術,2018,28(1):100-106.

[33] 王珏,解月光.基于前概念體系的學習者認知診斷方法研究———以國中實體“力與運動”主題為例[J].電化教育研究,2017(9):124-130.

[34] Brat Contributors. Brat rapid annotation tool[EB/OL].(2012-11-08)[2019-06-04].http://brat.nlplab.org/.

[35] 李國輝,耿輝,馮靜. 課堂教學的專家評價與學生評價一緻性分析[J].高等教育研究學報,2016,39(3):40-44.

[36] Hmmlearn Developers. Hmmlearn user guide [EB/OL].(2015-05-09)[2019-06-04].https://hmmlearn.readthedocs.io/en/latest/.

[37] 佩特·約翰内斯,拉裡·拉格斯多姆,張永勝. 自适應學習:溯源、前景與誤區[J]. 中國遠端教育,2018,522(7):45-55,82.

作者:李振 周東岱

來源:微信公衆号:教育大資料國家工程研究中心

出處:https://mp.weixin.qq.com/s/Uy-DuNWUzsbg4o5xDgpWEg

繼續閱讀