天天看點

英語閱讀測試中不同認知診斷模型比較研究

感謝您關注“永大英語”!

英語閱讀測試中不同認知診斷模型比較研究

英語閱讀測試中不同認知診斷模型比較研究

範婷婷 孫 波 曾用強

摘要:選取認知診斷研究中常見的一般化模型G-DINA、連接配接型限制模型NC-RRUM和DINA、補償型限制模型C-RUM和DINO,從橫向加工機制和縱向層級關系兩個方面開展對比研究,考察不同類型診斷模型在英語閱讀測試方面的适切性。使用似然比檢驗方法對比各類模型在相對拟合名額與絕對拟合名額上的差異,使用模型分類的一緻性名額和精準度名額考察診斷的信度和效度。結果表明:1)G-DINA和NC-RRUM模型與閱讀測試資料的拟合度較好,二者顯著高于其他模型,其中,一般化G-DINA模型屬性分類一緻性較高,限制化NC-RRUM模型屬性分類精準度最優;2)診斷模型與測試資料的拟合優度随着屬性層級結構的削弱而增加,結構關系最為松散的獨立結構模型的資料拟合度最佳,表明閱讀能力不具備嚴格的層級關系。該結果可為研究人員探究智能化閱讀診斷提供依據,為英語教師在閱讀診斷實踐中的模型選擇提供參考。

關鍵詞:英語閱讀測試;認知診斷模型;屬性加工機制;屬性層級關系

  随着以人工智能為核心的資訊技術的不斷發展,大陸教育教學正在發生一系列新變化。作為教育教學的重要環節,測評受到廣泛重視,其中探索個性化測評模式成為學界研究的熱點。認知診斷模型為個性化測評提供了理論與技術支援。通過建構認知診斷模型,可以探尋考生成績背後的知識結構、認知過程和加工技能等,為教師和學生提供個性化、細粒度的診斷回報[1]3。基于此,該測試方法受到國内外“英語作為外語”(English as a Foreign Language, EFL)研究者的推崇,成為新一代語言測試理論與實踐發展的前沿領域[2]。

  建構認知診斷模型是診斷測試的核心,直接決定診斷結果的準确性和可靠性;然而,由于診斷模型結構複雜、建構困難,相較于理論的快速發展,診斷測試的實際應用較少,在英語學科中更是屈指可數。近年來,有學者基于R Shiny平台開發出可視化的互動性操作界面[3],為診斷模組化的自動化和診斷測試的智能化做出了有意義的探索。與數學運算等步驟明确、過程清晰的能力相比,語言能力具有高度複雜性,如學生完成英語閱讀測試任務時需要運用識别、概括、分析、評價等多種能力以整合加工文本資訊[4-5];同時,不同能力之間的加工機制和層級關系各異,也會對診斷模組化産生重要影響。是以,考察不同診斷模型與外語閱讀能力之間的适切性,并在此基礎上對模型進行選擇與優化,是診斷測試智能化發展的必要前提。基于此,本研究選擇外語閱讀診斷研究中常見的5類模型,從橫向加工機制和縱向層級關系兩個方面開展對比研究,以期為研究人員探究自動化閱讀診斷提供依據,為英語教師在閱讀診斷實踐中的模型選擇提供參考。

英語閱讀測試中不同認知診斷模型比較研究

1 文獻綜述

1.1 認知診斷模型及其分類

  認知診斷模型是一類充分融入認知變量的診斷統計模型的統稱,是認知診斷測試的核心技術環節,它根據考生答題資料和認知屬性Q矩陣評估考生個體對不同認知屬性的掌握程度。随着認知診斷測試的發展,大量診斷模型相繼被開發與使用。截至2020年,文獻中記載的模型已逾百種,它們在理論基礎、模型假設、參數定義水準等方面均存在一定差異,以實作不同的功能和目标[6]1-17。根據模型的适用範圍,有學者将認知診斷模型分為一般化和限制化兩類[7]。

  一般化模型的特點是參數較多、模型複雜、沒有嚴格的屬性加工機制假設,最具代表性的一化模型是G-DINA模型(Generalized Deterministic Input, Noisy "and" Gate Model)。這類模型既考查必須認知屬性的主效應,也評估屬性之間的互動作用,具有應用靈活、适用面廣等優點;其缺點則在于:第一,待估參數較多,需要大量樣本以實作準确估計;第二,模型假設寬松,診斷結果不易解釋。

  限制化模型則是一般化模型的特例。其優點是待估參數較少,所需樣本量較小,診斷結果更加直覺和易于解釋;其缺點則在于模型假設過于嚴格。根據屬性加工機制假設的差異,限制化模型可以進一步劃分為連接配接型和補償型兩類:前者強調對試題的正确作答需要掌握其考查的所有屬性,如NC-RRUM模型(Noncompensatory reduced Reparamaterized Unified Model)和DINA模型(Deterministic Input, Noisy "and" Gate Model)等;後者則假設考生隻需掌握其中任何一個屬性就能正确答對題目,即屬性間可以互相替代或補償,如C-RUM模型(Compensatory Reparamaterized Unified Model)和DINO模型(Deterministic Input, Noisy "or" Gate Model)等。在上述4類限制化模型中,DINA模型和DINO模型對屬性連接配接或補償機制的要求最為嚴格,規定試題考查的所有認知屬性對該題答對機率的貢獻相等。有研究建議,當一般化模型和限制化模型的拟合度相當時,應依據最簡原則優先選擇限制化模型[8]。

1.2 英語閱讀診斷研究

  在英語閱讀能力診斷方面,Buck等率先使用空間規則模型(rule-space methodology)對參加TOEIC考試考生的閱讀能力進行診斷[9]。此後,國内外學者以G-DINA模型、NC-RRUM模型和DINA模型等為研究工具,開展閱讀能力診斷研究,認知診斷測試在閱讀領域的應用越來越廣泛[5,10-11]。

  在閱讀能力診斷中,定義認知屬性及其關系是認知診斷模組化的關鍵步驟,對診斷的效度具有決定性影響。認知屬性關系主要展現為橫向和縱向兩個方面。其中,橫向關系描述認知屬性之間的補償或非補償(即連接配接)關系,定義某些閱讀能力的不足是否可由其他知識或技能進行補償。基于研究者對屬性之間橫向關系的不同假設,閱讀診斷研究使用的模型主要有3種,即連接配接型限制模型、補償型限制模型和一般化模型。例如,Jang運用自下而上方法,通過試題分析和考生答題過程分析,發現大部分閱讀能力屬性在認知關系上需要共同發生作用,才能保證題目的正确作答,是以選擇NC-RRUM這一連接配接型限制模型開展診斷研究[10]。Lee等通過對比一般化模型和連接配接型限制模型在托福閱讀與聽力測試上的表現,發現兩類模型在屬性分類方面不存在顯著差異[12];基于此,林燕婷等選擇使用一般化模型GDINA診斷被試在廣東省英語學業考試上的閱讀能力表現[13]。

  認知屬性之間的縱向層級關系也是診斷模型建構中需要考量的重要因素。層級關系描述認知屬性之間的先決關系,比如,要掌握較高層級的認知屬性需要先掌握較低層級的屬性,後者是前者的先決條件。Leighton等根據屬性之間先決關系的不同,提出4種屬性層級關系結構,即線型、收斂型、分支型和無結構型[1]250-251;基于此,蔡豔等通過蒙特卡洛模拟方法對4類屬性層級關系下模型診斷的正确率進行對比,發現模型診斷正确率随屬性間層級關系緊密度的提升而升高[14]。然而,在目前外語閱讀診斷實踐中,僅有極少數研究對屬性層級關系進行标定。

  綜上所述,不同模型在屬性關系假設方面存在一定差異,若選擇不恰當的模型,将會對診斷結果的精準性和可靠性産生影響。是以,本研究選擇診斷研究中常用的5類模型開展對比研究,從橫向和縱向兩個方面考察不同模型與英語閱讀測試資料的适切性。具體研究問題包括:1)在G-DINA、NC-RRUM、C-RUM、DINA和DINO這5類認知診斷模型中,哪一類模型與英語閱讀測試資料的适切性最高;2)不同認知屬性層級關系下,診斷模型與閱讀測試資料的拟合程度是否存在差異。

英語閱讀測試中不同認知診斷模型比較研究

2 研究方法與過程

2.1 研究對象

  本研究選取某省不同高中的978名高三學生作為被試樣本,其中男生494人,女生484人。所有被試分A、B兩次完成測試,時間間隔為1周。研究采取實驗條件平衡設計法,為避免順序效應影響,50%的被試按照A—B順序完成兩次測試,而另外50%的被試則按照B—A順序完成測試。經過資料篩選,删除未完成所有試題的被試和零分被試,共獲得有效樣本770份。

2.2 實驗材料

  本研究的實驗材料為15篇聯考閱讀了解真題,試題分為多項選擇和七選五兩類題型,共60題,全部為2級計分。根據文本分析工具Coh-Metrix的統計結果,Coh-Metrix英語可讀性水準介于7.24~22.31,各文本在詞數(197~345詞)、句數(9~34句)、段落數(2~11段)、叙述性程度(2.22%~83.89%)、句法簡易度(6.68%~76.73%)、詞彙具體度(12.92%~99.51%)、指稱銜接(1.97%~73.24%)以及深度銜接(2.68%~96.56%)方面均有一定差異。

2.3 認知屬性和Q矩陣

  本研究定義的認知屬性來源于修訂版教育目标分類學[15]。該理論将認知能力劃分為記憶、了解、應用、分析、評價和創造6個次元,每個次元包含多個子類别。經過試測,生成的Q矩陣包含53道閱讀了解試題和9項認知能力屬性。表1列出了Q矩陣中認知屬性的代碼、名稱和定義,來自于作者的前期研究[11]。根據教育目标分類理論[15],A1和A2屬于記憶次元,A3至A7屬于了解次元,A8和A9屬于分析次元。

英語閱讀測試中不同認知診斷模型比較研究

從試題的Q矩陣中可以看到,閱讀測試中考查A4的試題最多,其次是A5和A6。此外,某一題目可能同時涉及兩種或多種認知屬性。在53道閱讀了解題中,19道題考查2個認知屬性,3道題考查3個認知屬性,其餘31道題考查1個認知屬性。

2.4 評價名額

  基于已有研究,本研究通過相對名額與絕對名額檢驗,評價認知診斷模型拟合的優良性;同時,通過屬性分類一緻性名額和精準度名額,對比不同模型的診斷信度和效度。

  相對名額檢驗是指在同等條件下,根據不同模型的相對拟合統計量名額判斷出更合理的模型。國際上較常用的相對拟合名額包括-2LL(-2 Log-Likelihood)、AIC(Akaike's Information Criteria)和BIC(Bayesian Information Criteria)[6]35-41。其中,AIC是在-2LL的基礎上,為防止過度拟合而引入懲罰項所得到的名額,待估參數多的模型将受到懲罰。BIC是在AIC基礎上提出的,不僅考慮了待估參數的影響,還考慮樣本容量對拟合名額的影響。選擇最佳模型時,通常選擇這幾類名額值最小的1類。

  絕對名額檢驗考察假定模型與英語閱讀測試資料的拟合程度,包括5項具體名額:1)衡量模型總體拟合度的名額MX2,用以評估所有項目實際觀測值與模型預估值之間偏離程度的平均值[16];2)MADcor和MADres名額,分别反映實際觀測與模型預估在項目相關性和協方差矩陣上的平均絕對差[17];3)MADQ3名額,反映項目殘差間的相關性(Q3)的平均絕對值[18];4)SRMSR 名額,即标準化殘差的均方根。上述各項絕對名額值越大,實際觀測值與模型預估值之間的偏差越大;二者偏差越小(即其值越接近0),則模型與資料的拟合度越高。

  此外,本研究使用屬性分類一緻性名額(Pc)評估診斷的信度,該名額反映了采取同樣的方法對同一被試重複進行診斷時,其屬性掌握情況相一緻的程度;使用屬性分類精準度名額(Pa)評估診斷的效度,該名額反映了通過診斷得到的屬性掌握模式能夠反映真值的程度[19-20]。Pc和Pa值越高,說明模型的屬性分類一緻性和精準度越高。研究表明:當Pc和Pa值分别大于0.52和0.68時,屬性分類的信度和效度處于可接受範圍;當Pc和Pa值分别大于0.80和0.70時,模型具有較高的信效度[19]。

2.5 研究過程

  本研究分兩個階段開展,分别對應兩個研究問題。第一階段橫向比較5類模型在英語閱讀診斷中的适切性。首先,使用R軟體中的CDM程式包[21],基于最大期望算法,依次運作G-DINA、NCRRUM、C-RUM、DINA和DINO模型,結合閱讀能力Q矩陣,分析被試的答題情況。此後,計算相對拟合名額,判斷5類模型中相對合理的模型;計算絕對拟合名額,對比5類模型與英語閱讀測試真實結果的拟合情況。而後,使用似然比檢驗方法,探究不同模型的相對和絕對拟合程度是否在統計學意義上存在顯著差異。最後,計算模型屬性分類的一緻性和精準度,對比使用各模型進行閱讀能力診斷的信度和效度。

  第二階段縱向比較不同層級關系下的診斷模型拟合度。首先,根據教育目标分類學修訂版[15]及原版[22]中關于認知屬性之間先決關系的定義,建構出不同的閱讀能力屬性層級結構。而後,将這些層級結構分别嵌套于第一階段中拟合度最優的模型中,考察不同屬性層級關系下診斷模型與閱讀測試資料的拟合程度。

英語閱讀測試中不同認知診斷模型比較研究

3 研究結果

3.1 模型适切性檢驗

  使用-2LL、AIC和BIC這3項相對拟合名額将認知診斷模型進行對比,優先選擇名額值最低的模型。由表2可知:在-2LL和AIC名額上,G-DINA模型的值最低(-2LL=39070.92, AIC=39522.91),其次為NC-RRUM模型(-2LL=39195.12, AIC=39581.13);在BIC名額上,NC-RRUM模型的值最低(40478.13),其次為G-DINA模型(40573.29),這可能是由于BIC名額增加了對參數數量的懲罰力度。DINO模型在3項名額上表現均較差(-2LL=39732.16, AIC=40064.17, BIC=40835.68)。

英語閱讀測試中不同認知診斷模型比較研究

使用5項絕對拟合名額檢驗各模型與英語閱讀資料的拟合程度。由表2可知:在MADcor、MADQ3和SRMSR名額上,G-DINA、NC-RRUM和C-RUM模型的名額值相同(MADcor=0.07, MADQ3=0.05, SRMSR=0.09),優于DINA和DINO模型(MADcor=0.08, MADQ3=0.06, SRMSR=0.10)。3類模型的MADres名額值也較為接近,分别為1.00、1.02和1.01,優于DINA模型(1.11)和DINO模型(1.14)。在MX2名額上,NC-RRUM模型的表現最好(84.60),略小于G-DINA模型(84.88)。綜合相對拟合名額與絕對拟合名額得出,G-DINA和NC-RRUM模型與英語閱讀測試實際成績的拟合程度最高,其次為 C-RUM模型,而DINA和DINO模型的拟合程度最低。

  使用似然比檢驗方法,将模型拟合情況進行兩兩對比。結果顯示:G-DINA和NC-RRUM模型的資料拟合度顯著高于C-RUM模型,它們與C-RUM模型對比的卡方值分别為619.16(df=38, p<0.001)和761.22(df=71, p<0.001);C-RUM 模型的資料拟合度顯著高于DINA和DINO模型,對比卡方值分别為1105.83(df=87, p<0.001)和1177.64(df=87, p<0.001)。G-DINA與NC-RRUM模型之間則不存在顯著差異。

  使用Pc和Pa名額評估模型在閱讀能力診斷中的信度和效度,優先選擇數值較高的模型。由表3可知,5類模型的屬性分類信度和效度基本處于可接受的範圍。就分類一緻性而言,G-DINA模型在A1、A4、A5、A7和A9上的Pc值最高,NC-RRUM和DINA模型在A3和A6上的Pc值最高,DINO模型則在A2和A8上的Pc值最高。在分類精準度方面,NC-RRUM和DINA模型的精準度最優,二者分别在A5、A6、A7、A9和A3、A4、A8上的Pa值最高。G-DINA和DINO模型的屬性分類精準度較低。綜合Pc和Pa名額評估結果,使用一般化G-DINA模型進行診斷具有較高的屬性分類一緻性,而NC-RRUM和DINA兩類連接配接型限制模型估計的屬性分類模式更為精準。

英語閱讀測試中不同認知診斷模型比較研究

3.2 不同層級關系下診斷模型的拟合度檢驗

  為對比不同層級關系下診斷模型的拟合程度,研究設計了3種類型的屬性層級關系。首先,Bloom在原版教育目标分類理論中,将6個次元的結構設定為先決關系,低次元的認知屬性是高次元屬性的先決條件,而各次元内部的子類别之間則沒有明确的先決關系[22]。基于此,首先将9個屬性之間的層級結構設定為線型結構(H1),即考生對分析能力的掌握需要建立在了解能力之上,對了解能力的掌握需要建立在記憶能力的完成之上,而各次元内部的屬性之間則不具備這種關系。其次,根據認知屬性資訊處理範圍的不同(如單詞層面、句子和段落層面、篇章層面等),對H1進行細化,生成分支型結構(H2)。最後,由于Anderson等在修訂版的教育目标分類中取消了次元之間的先決關系,認為各認知次元僅表示目标複雜程度的漸進,不再強調其掌握的先後順序[15],是以,本研究建構出獨立型結構(H3),即假設9個認知屬性之間互相獨立。3類屬性層級關系如圖1所示。

英語閱讀測試中不同認知診斷模型比較研究

研究将H1、H2和H3屬性層級關系分别嵌入前述模型拟合度較優的一般化模型G-DINA和連接配接型限制模型NC-RRUM中,對比不同屬性層級關系下診斷模型的拟合程度(表4)。G-DINA模型的相對名額檢驗結果顯示:H3相對拟合度最佳,H1的相對名額值略高于H3,H2相對拟合程度最差。絕對名額檢驗結果較為複雜:在MX2名額上,H1 的數值最低(82.72),其次為H3(84.88)和H2(84.95);在其他4類絕對拟合名額上,名額值由低至高分别為H3(0.07,1.00,0.05,0.09)、H1(0.08,1.06,0.05,0.10)和H2(0.07,1.08,0.06,0.10)。綜合G-DINA模型的相對與絕對名額檢驗結果可知,H3結構與英語閱讀測試資料拟合度最優。似然比檢驗結果顯示,H3與H1、H2之間均有顯著差異,H3與H1拟合度差異的卡方值為1802.53(df=217, p<0.001),H3與H2拟合度差異的卡方值為1750.39(df=191, p<0.001)。在NC-RRUM模型下,3類層級關系結構的拟合優劣程度與G-DINA 模型檢驗結果相似(表4)。可見,9個閱讀能力屬性之間互相獨立,不具有顯著的先決關系。

英語閱讀測試中不同認知診斷模型比較研究
英語閱讀測試中不同認知診斷模型比較研究

4 讨論及結論

  第一階段研究在橫向上将G-DINA、NC-RRUM、C-RUM、DINA和DINO模型進行了對比。基于相對拟合名額和絕對拟合名額分析以及似然比檢驗結果,5類模型與英語閱讀測試實際成績的拟合度排序為:G-DINA≈NC-RRUM>CRUM >DINA>DINO。其中,G-DINA與NC-RRUM模型與英語閱讀測試資料的拟合度無顯著差異,二者均顯著高于C-RUM、DINA和DINO模型。

  該結果有以下啟示:第一,DINA和DINO模型對屬性之間加工機制的要求最為嚴格。在本研究中,這兩類模型與英語閱讀測試實際成績的拟合度不佳,說明大部分英語閱讀屬性之間不具備嚴格的連接配接或補償關系。第二,連接配接模型與測試資料的拟合度優于與其嚴格度相當的補償模型(NC-RRUM>C-RUM;DINA>DINO),表明大部分閱讀屬性之間不具備補償關系。該結果支援了已有研究中補償模型适用于心理臨床評估,而在教育測量領域則表現欠佳[7]這一結論。值得注意的是,在A2上分類精确度最高的為DINO模型,其次為C-RUM模型。查閱Q矩陣發現,A2與A5 或A6标定于相同的閱讀試題,考生可以通過掌握A5或A6,對A2進行補償,進而正确回答問題。該結果驗證了已有研究結論,即句法能力可以對詞彙知識的不足進行補償[23]。此外,本研究進一步發現,推斷能力對考生在詞彙知識上的不足也具有一定的補償作用,而相較于補償關系,英語閱讀中的連接配接關系更為普遍。最後,GDINA與NC-RRUM模型的相對與絕對拟合名額值無顯著差異;但是,G-DINA模型的屬性分類一緻性較好、信度較高,而NC-RRUM模型的屬性分類精準度更佳,具有更高的診斷效度。這一結果從實證角度驗證了一般化模型和限制化模型的差別。在診斷實踐中,由于G-DINA模型複雜度高、待估參數多,因而需要大量的資料樣本才能實作參數的穩定估計;此外,該模型同時涵蓋連接配接與補償關系,也為診斷結果的解釋帶來一定困難。NC-RRUM模型更為簡單,其待估參數較少,需要的樣本量也較小。是以,在英語閱讀診斷研究中,可以根據最簡原則優先選擇NC-RRUM模型,進而提高診斷效率以及診斷結果的精準度和可解釋性。

  第二階段研究将3種縱向的屬性層級結構嵌套于第一階段研究中資料拟合度最高的G-DINA和NC-RRUM模型中,考察層級結構對模型拟合度的影響。研究結果顯示:模型的相對與絕對拟合優度随着認知屬性結構的削弱而增加,結構關系最為松散的獨立型結構(H3)的相對與絕對拟合度均較好。該結果與已有研究中記錄的蒙特卡洛模拟結果[14]相反,可能與兩個因素相關:其一,計算機模拟情景下的診斷接近于自然科學中的變量控制實驗,在一定程度上忽視了語言的實際使用過程,造成了模拟資料與真實資料之間的差異;其二,已有研究未将獨立型屬性層級關系納入對比範疇,是以得出的結論可能并不全面。同時,目前結果表明,英語閱讀能力屬性之間沒有嚴格的先決關系,考生掌握高一層級屬性不需要建立在完全掌握低一層級的認知屬性基礎之上。該結果符合外語閱讀相關理論,也為修訂版教育目标分類學及以其為基礎的中國英語能力等級量表閱讀分量表提供了實證支援。

  綜合來看,本研究的結果對探索外語領域認知診斷模組化的自動化、實作診斷測評的智能化具有重要意義。探究不同診斷模型與外語閱讀資料的适切性,以及具有不同屬性層級關系的模型與測試資料的拟合度,能夠幫助研究人員把握外語閱讀能力的特點,了解閱讀資料與診斷模型之間的關系,進而明确自動模組化與診斷研究中的決策方向,推動診斷過程的可視化、互動性與智能化。此外,将人類智慧和機器智慧密切結合,在理論與實證研究的基礎上建立外語能力診斷平台,也能夠為教師和學生提供更多的教學與學習支援。

英語閱讀測試中不同認知診斷模型比較研究

參考文獻

英語閱讀測試中不同認知診斷模型比較研究

(本文首次發表在《中國考試》2023年第5期)

英語閱讀測試中不同認知診斷模型比較研究