感谢您关注“永大英语”!
英语阅读测试中不同认知诊断模型比较研究
范婷婷 孙 波 曾用强
摘要:选取认知诊断研究中常见的一般化模型G-DINA、连接型约束模型NC-RRUM和DINA、补偿型约束模型C-RUM和DINO,从横向加工机制和纵向层级关系两个方面开展对比研究,考察不同类型诊断模型在英语阅读测试方面的适切性。使用似然比检验方法对比各类模型在相对拟合指标与绝对拟合指标上的差异,使用模型分类的一致性指标和精准度指标考察诊断的信度和效度。结果表明:1)G-DINA和NC-RRUM模型与阅读测试数据的拟合度较好,二者显著高于其他模型,其中,一般化G-DINA模型属性分类一致性较高,约束化NC-RRUM模型属性分类精准度最优;2)诊断模型与测试数据的拟合优度随着属性层级结构的削弱而增加,结构关系最为松散的独立结构模型的数据拟合度最佳,表明阅读能力不具备严格的层级关系。该结果可为研究人员探究智能化阅读诊断提供依据,为英语教师在阅读诊断实践中的模型选择提供参考。
关键词:英语阅读测试;认知诊断模型;属性加工机制;属性层级关系
随着以人工智能为核心的信息技术的不断发展,大陆教育教学正在发生一系列新变化。作为教育教学的重要环节,测评受到广泛重视,其中探索个性化测评模式成为学界研究的热点。认知诊断模型为个性化测评提供了理论与技术支持。通过构建认知诊断模型,可以探寻考生成绩背后的知识结构、认知过程和加工技能等,为教师和学生提供个性化、细粒度的诊断反馈[1]3。基于此,该测试方法受到国内外“英语作为外语”(English as a Foreign Language, EFL)研究者的推崇,成为新一代语言测试理论与实践发展的前沿领域[2]。
构建认知诊断模型是诊断测试的核心,直接决定诊断结果的准确性和可靠性;然而,由于诊断模型结构复杂、构建困难,相较于理论的快速发展,诊断测试的实际应用较少,在英语学科中更是屈指可数。近年来,有学者基于R Shiny平台开发出可视化的交互性操作界面[3],为诊断建模的自动化和诊断测试的智能化做出了有意义的探索。与数学运算等步骤明确、过程清晰的能力相比,语言能力具有高度复杂性,如学生完成英语阅读测试任务时需要运用识别、概括、分析、评价等多种能力以整合加工文本信息[4-5];同时,不同能力之间的加工机制和层级关系各异,也会对诊断建模产生重要影响。因此,考察不同诊断模型与外语阅读能力之间的适切性,并在此基础上对模型进行选择与优化,是诊断测试智能化发展的必要前提。基于此,本研究选择外语阅读诊断研究中常见的5类模型,从横向加工机制和纵向层级关系两个方面开展对比研究,以期为研究人员探究自动化阅读诊断提供依据,为英语教师在阅读诊断实践中的模型选择提供参考。
1 文献综述
1.1 认知诊断模型及其分类
认知诊断模型是一类充分融入认知变量的诊断统计模型的统称,是认知诊断测试的核心技术环节,它根据考生答题数据和认知属性Q矩阵评估考生个体对不同认知属性的掌握程度。随着认知诊断测试的发展,大量诊断模型相继被开发与使用。截至2020年,文献中记载的模型已逾百种,它们在理论基础、模型假设、参数定义水平等方面均存在一定差异,以实现不同的功能和目标[6]1-17。根据模型的适用范围,有学者将认知诊断模型分为一般化和约束化两类[7]。
一般化模型的特点是参数较多、模型复杂、没有严格的属性加工机制假设,最具代表性的一化模型是G-DINA模型(Generalized Deterministic Input, Noisy "and" Gate Model)。这类模型既考查必须认知属性的主效应,也评估属性之间的交互作用,具有应用灵活、适用面广等优点;其缺点则在于:第一,待估参数较多,需要大量样本以实现准确估计;第二,模型假设宽松,诊断结果不易解释。
约束化模型则是一般化模型的特例。其优点是待估参数较少,所需样本量较小,诊断结果更加直观和易于解释;其缺点则在于模型假设过于严格。根据属性加工机制假设的差异,约束化模型可以进一步划分为连接型和补偿型两类:前者强调对试题的正确作答需要掌握其考查的所有属性,如NC-RRUM模型(Noncompensatory reduced Reparamaterized Unified Model)和DINA模型(Deterministic Input, Noisy "and" Gate Model)等;后者则假设考生只需掌握其中任何一个属性就能正确答对题目,即属性间可以相互替代或补偿,如C-RUM模型(Compensatory Reparamaterized Unified Model)和DINO模型(Deterministic Input, Noisy "or" Gate Model)等。在上述4类约束化模型中,DINA模型和DINO模型对属性连接或补偿机制的要求最为严格,规定试题考查的所有认知属性对该题答对概率的贡献相等。有研究建议,当一般化模型和约束化模型的拟合度相当时,应依据最简原则优先选择约束化模型[8]。
1.2 英语阅读诊断研究
在英语阅读能力诊断方面,Buck等率先使用空间规则模型(rule-space methodology)对参加TOEIC考试考生的阅读能力进行诊断[9]。此后,国内外学者以G-DINA模型、NC-RRUM模型和DINA模型等为研究工具,开展阅读能力诊断研究,认知诊断测试在阅读领域的应用越来越广泛[5,10-11]。
在阅读能力诊断中,定义认知属性及其关系是认知诊断建模的关键步骤,对诊断的效度具有决定性影响。认知属性关系主要体现为横向和纵向两个方面。其中,横向关系描述认知属性之间的补偿或非补偿(即连接)关系,定义某些阅读能力的不足是否可由其他知识或技能进行补偿。基于研究者对属性之间横向关系的不同假设,阅读诊断研究使用的模型主要有3种,即连接型约束模型、补偿型约束模型和一般化模型。例如,Jang运用自下而上方法,通过试题分析和考生答题过程分析,发现大部分阅读能力属性在认知关系上需要共同发生作用,才能保证题目的正确作答,因此选择NC-RRUM这一连接型约束模型开展诊断研究[10]。Lee等通过对比一般化模型和连接型约束模型在托福阅读与听力测试上的表现,发现两类模型在属性分类方面不存在显著差异[12];基于此,林燕婷等选择使用一般化模型GDINA诊断被试在广东省英语学业考试上的阅读能力表现[13]。
认知属性之间的纵向层级关系也是诊断模型构建中需要考量的重要因素。层级关系描述认知属性之间的先决关系,比如,要掌握较高层级的认知属性需要先掌握较低层级的属性,后者是前者的先决条件。Leighton等根据属性之间先决关系的不同,提出4种属性层级关系结构,即线型、收敛型、分支型和无结构型[1]250-251;基于此,蔡艳等通过蒙特卡洛模拟方法对4类属性层级关系下模型诊断的正确率进行对比,发现模型诊断正确率随属性间层级关系紧密度的提升而升高[14]。然而,在当前外语阅读诊断实践中,仅有极少数研究对属性层级关系进行标定。
综上所述,不同模型在属性关系假设方面存在一定差异,若选择不恰当的模型,将会对诊断结果的精准性和可靠性产生影响。因此,本研究选择诊断研究中常用的5类模型开展对比研究,从横向和纵向两个方面考察不同模型与英语阅读测试数据的适切性。具体研究问题包括:1)在G-DINA、NC-RRUM、C-RUM、DINA和DINO这5类认知诊断模型中,哪一类模型与英语阅读测试数据的适切性最高;2)不同认知属性层级关系下,诊断模型与阅读测试数据的拟合程度是否存在差异。
2 研究方法与过程
2.1 研究对象
本研究选取某省不同高中的978名高三学生作为被试样本,其中男生494人,女生484人。所有被试分A、B两次完成测试,时间间隔为1周。研究采取实验条件平衡设计法,为避免顺序效应影响,50%的被试按照A—B顺序完成两次测试,而另外50%的被试则按照B—A顺序完成测试。经过数据筛选,删除未完成所有试题的被试和零分被试,共获得有效样本770份。
2.2 实验材料
本研究的实验材料为15篇高考阅读理解真题,试题分为多项选择和七选五两类题型,共60题,全部为2级计分。根据文本分析工具Coh-Metrix的统计结果,Coh-Metrix英语可读性水平介于7.24~22.31,各文本在词数(197~345词)、句数(9~34句)、段落数(2~11段)、叙述性程度(2.22%~83.89%)、句法简易度(6.68%~76.73%)、词汇具体度(12.92%~99.51%)、指称衔接(1.97%~73.24%)以及深度衔接(2.68%~96.56%)方面均有一定差异。
2.3 认知属性和Q矩阵
本研究定义的认知属性来源于修订版教育目标分类学[15]。该理论将认知能力划分为记忆、理解、应用、分析、评价和创造6个维度,每个维度包含多个子类别。经过试测,生成的Q矩阵包含53道阅读理解试题和9项认知能力属性。表1列出了Q矩阵中认知属性的代码、名称和定义,来自于作者的前期研究[11]。根据教育目标分类理论[15],A1和A2属于记忆维度,A3至A7属于理解维度,A8和A9属于分析维度。
从试题的Q矩阵中可以看到,阅读测试中考查A4的试题最多,其次是A5和A6。此外,某一题目可能同时涉及两种或多种认知属性。在53道阅读理解题中,19道题考查2个认知属性,3道题考查3个认知属性,其余31道题考查1个认知属性。
2.4 评价指标
基于已有研究,本研究通过相对指标与绝对指标检验,评价认知诊断模型拟合的优良性;同时,通过属性分类一致性指标和精准度指标,对比不同模型的诊断信度和效度。
相对指标检验是指在同等条件下,根据不同模型的相对拟合统计量指标判断出更合理的模型。国际上较常用的相对拟合指标包括-2LL(-2 Log-Likelihood)、AIC(Akaike's Information Criteria)和BIC(Bayesian Information Criteria)[6]35-41。其中,AIC是在-2LL的基础上,为防止过度拟合而引入惩罚项所得到的指标,待估参数多的模型将受到惩罚。BIC是在AIC基础上提出的,不仅考虑了待估参数的影响,还考虑样本容量对拟合指标的影响。选择最佳模型时,通常选择这几类指标值最小的1类。
绝对指标检验考察假定模型与英语阅读测试数据的拟合程度,包括5项具体指标:1)衡量模型总体拟合度的指标MX2,用以评估所有项目实际观测值与模型预估值之间偏离程度的平均值[16];2)MADcor和MADres指标,分别反映实际观测与模型预估在项目相关性和协方差矩阵上的平均绝对差[17];3)MADQ3指标,反映项目残差间的相关性(Q3)的平均绝对值[18];4)SRMSR 指标,即标准化残差的均方根。上述各项绝对指标值越大,实际观测值与模型预估值之间的偏差越大;二者偏差越小(即其值越接近0),则模型与数据的拟合度越高。
此外,本研究使用属性分类一致性指标(Pc)评估诊断的信度,该指标反映了采取同样的方法对同一被试重复进行诊断时,其属性掌握情况相一致的程度;使用属性分类精准度指标(Pa)评估诊断的效度,该指标反映了通过诊断得到的属性掌握模式能够反映真值的程度[19-20]。Pc和Pa值越高,说明模型的属性分类一致性和精准度越高。研究表明:当Pc和Pa值分别大于0.52和0.68时,属性分类的信度和效度处于可接受范围;当Pc和Pa值分别大于0.80和0.70时,模型具有较高的信效度[19]。
2.5 研究过程
本研究分两个阶段开展,分别对应两个研究问题。第一阶段横向比较5类模型在英语阅读诊断中的适切性。首先,使用R软件中的CDM程序包[21],基于最大期望算法,依次运行G-DINA、NCRRUM、C-RUM、DINA和DINO模型,结合阅读能力Q矩阵,分析被试的答题情况。此后,计算相对拟合指标,判断5类模型中相对合理的模型;计算绝对拟合指标,对比5类模型与英语阅读测试真实结果的拟合情况。而后,使用似然比检验方法,探究不同模型的相对和绝对拟合程度是否在统计学意义上存在显著差异。最后,计算模型属性分类的一致性和精准度,对比使用各模型进行阅读能力诊断的信度和效度。
第二阶段纵向比较不同层级关系下的诊断模型拟合度。首先,根据教育目标分类学修订版[15]及原版[22]中关于认知属性之间先决关系的定义,构建出不同的阅读能力属性层级结构。而后,将这些层级结构分别嵌套于第一阶段中拟合度最优的模型中,考察不同属性层级关系下诊断模型与阅读测试数据的拟合程度。
3 研究结果
3.1 模型适切性检验
使用-2LL、AIC和BIC这3项相对拟合指标将认知诊断模型进行对比,优先选择指标值最低的模型。由表2可知:在-2LL和AIC指标上,G-DINA模型的值最低(-2LL=39070.92, AIC=39522.91),其次为NC-RRUM模型(-2LL=39195.12, AIC=39581.13);在BIC指标上,NC-RRUM模型的值最低(40478.13),其次为G-DINA模型(40573.29),这可能是由于BIC指标增加了对参数数量的惩罚力度。DINO模型在3项指标上表现均较差(-2LL=39732.16, AIC=40064.17, BIC=40835.68)。
使用5项绝对拟合指标检验各模型与英语阅读数据的拟合程度。由表2可知:在MADcor、MADQ3和SRMSR指标上,G-DINA、NC-RRUM和C-RUM模型的指标值相同(MADcor=0.07, MADQ3=0.05, SRMSR=0.09),优于DINA和DINO模型(MADcor=0.08, MADQ3=0.06, SRMSR=0.10)。3类模型的MADres指标值也较为接近,分别为1.00、1.02和1.01,优于DINA模型(1.11)和DINO模型(1.14)。在MX2指标上,NC-RRUM模型的表现最好(84.60),略小于G-DINA模型(84.88)。综合相对拟合指标与绝对拟合指标得出,G-DINA和NC-RRUM模型与英语阅读测试实际成绩的拟合程度最高,其次为 C-RUM模型,而DINA和DINO模型的拟合程度最低。
使用似然比检验方法,将模型拟合情况进行两两对比。结果显示:G-DINA和NC-RRUM模型的数据拟合度显著高于C-RUM模型,它们与C-RUM模型对比的卡方值分别为619.16(df=38, p<0.001)和761.22(df=71, p<0.001);C-RUM 模型的数据拟合度显著高于DINA和DINO模型,对比卡方值分别为1105.83(df=87, p<0.001)和1177.64(df=87, p<0.001)。G-DINA与NC-RRUM模型之间则不存在显著差异。
使用Pc和Pa指标评估模型在阅读能力诊断中的信度和效度,优先选择数值较高的模型。由表3可知,5类模型的属性分类信度和效度基本处于可接受的范围。就分类一致性而言,G-DINA模型在A1、A4、A5、A7和A9上的Pc值最高,NC-RRUM和DINA模型在A3和A6上的Pc值最高,DINO模型则在A2和A8上的Pc值最高。在分类精准度方面,NC-RRUM和DINA模型的精准度最优,二者分别在A5、A6、A7、A9和A3、A4、A8上的Pa值最高。G-DINA和DINO模型的属性分类精准度较低。综合Pc和Pa指标评估结果,使用一般化G-DINA模型进行诊断具有较高的属性分类一致性,而NC-RRUM和DINA两类连接型约束模型估计的属性分类模式更为精准。
3.2 不同层级关系下诊断模型的拟合度检验
为对比不同层级关系下诊断模型的拟合程度,研究设计了3种类型的属性层级关系。首先,Bloom在原版教育目标分类理论中,将6个维度的结构设定为先决关系,低维度的认知属性是高维度属性的先决条件,而各维度内部的子类别之间则没有明确的先决关系[22]。基于此,首先将9个属性之间的层级结构设定为线型结构(H1),即考生对分析能力的掌握需要建立在理解能力之上,对理解能力的掌握需要建立在记忆能力的完成之上,而各维度内部的属性之间则不具备这种关系。其次,根据认知属性信息处理范围的不同(如单词层面、句子和段落层面、篇章层面等),对H1进行细化,生成分支型结构(H2)。最后,由于Anderson等在修订版的教育目标分类中取消了维度之间的先决关系,认为各认知维度仅表示目标复杂程度的渐进,不再强调其掌握的先后顺序[15],因此,本研究构建出独立型结构(H3),即假设9个认知属性之间相互独立。3类属性层级关系如图1所示。
研究将H1、H2和H3属性层级关系分别嵌入前述模型拟合度较优的一般化模型G-DINA和连接型约束模型NC-RRUM中,对比不同属性层级关系下诊断模型的拟合程度(表4)。G-DINA模型的相对指标检验结果显示:H3相对拟合度最佳,H1的相对指标值略高于H3,H2相对拟合程度最差。绝对指标检验结果较为复杂:在MX2指标上,H1 的数值最低(82.72),其次为H3(84.88)和H2(84.95);在其他4类绝对拟合指标上,指标值由低至高分别为H3(0.07,1.00,0.05,0.09)、H1(0.08,1.06,0.05,0.10)和H2(0.07,1.08,0.06,0.10)。综合G-DINA模型的相对与绝对指标检验结果可知,H3结构与英语阅读测试数据拟合度最优。似然比检验结果显示,H3与H1、H2之间均有显著差异,H3与H1拟合度差异的卡方值为1802.53(df=217, p<0.001),H3与H2拟合度差异的卡方值为1750.39(df=191, p<0.001)。在NC-RRUM模型下,3类层级关系结构的拟合优劣程度与G-DINA 模型检验结果相似(表4)。可见,9个阅读能力属性之间相互独立,不具有显著的先决关系。
4 讨论及结论
第一阶段研究在横向上将G-DINA、NC-RRUM、C-RUM、DINA和DINO模型进行了对比。基于相对拟合指标和绝对拟合指标分析以及似然比检验结果,5类模型与英语阅读测试实际成绩的拟合度排序为:G-DINA≈NC-RRUM>CRUM >DINA>DINO。其中,G-DINA与NC-RRUM模型与英语阅读测试数据的拟合度无显著差异,二者均显著高于C-RUM、DINA和DINO模型。
该结果有以下启示:第一,DINA和DINO模型对属性之间加工机制的要求最为严格。在本研究中,这两类模型与英语阅读测试实际成绩的拟合度不佳,说明大部分英语阅读属性之间不具备严格的连接或补偿关系。第二,连接模型与测试数据的拟合度优于与其严格度相当的补偿模型(NC-RRUM>C-RUM;DINA>DINO),表明大部分阅读属性之间不具备补偿关系。该结果支持了已有研究中补偿模型适用于心理临床评估,而在教育测量领域则表现欠佳[7]这一结论。值得注意的是,在A2上分类精确度最高的为DINO模型,其次为C-RUM模型。查阅Q矩阵发现,A2与A5 或A6标定于相同的阅读试题,考生可以通过掌握A5或A6,对A2进行补偿,从而正确回答问题。该结果验证了已有研究结论,即句法能力可以对词汇知识的不足进行补偿[23]。此外,本研究进一步发现,推断能力对考生在词汇知识上的不足也具有一定的补偿作用,而相较于补偿关系,英语阅读中的连接关系更为普遍。最后,GDINA与NC-RRUM模型的相对与绝对拟合指标值无显著差异;但是,G-DINA模型的属性分类一致性较好、信度较高,而NC-RRUM模型的属性分类精准度更佳,具有更高的诊断效度。这一结果从实证角度验证了一般化模型和约束化模型的区别。在诊断实践中,由于G-DINA模型复杂度高、待估参数多,因而需要大量的数据样本才能实现参数的稳定估计;此外,该模型同时涵盖连接与补偿关系,也为诊断结果的解释带来一定困难。NC-RRUM模型更为简单,其待估参数较少,需要的样本量也较小。因此,在英语阅读诊断研究中,可以根据最简原则优先选择NC-RRUM模型,从而提高诊断效率以及诊断结果的精准度和可解释性。
第二阶段研究将3种纵向的属性层级结构嵌套于第一阶段研究中数据拟合度最高的G-DINA和NC-RRUM模型中,考察层级结构对模型拟合度的影响。研究结果显示:模型的相对与绝对拟合优度随着认知属性结构的削弱而增加,结构关系最为松散的独立型结构(H3)的相对与绝对拟合度均较好。该结果与已有研究中记录的蒙特卡洛模拟结果[14]相反,可能与两个因素相关:其一,计算机模拟情景下的诊断接近于自然科学中的变量控制实验,在一定程度上忽视了语言的实际使用过程,造成了模拟数据与真实数据之间的差异;其二,已有研究未将独立型属性层级关系纳入对比范畴,因此得出的结论可能并不全面。同时,当前结果表明,英语阅读能力属性之间没有严格的先决关系,考生掌握高一层级属性不需要建立在完全掌握低一层级的认知属性基础之上。该结果符合外语阅读相关理论,也为修订版教育目标分类学及以其为基础的中国英语能力等级量表阅读分量表提供了实证支持。
综合来看,本研究的结果对探索外语领域认知诊断建模的自动化、实现诊断测评的智能化具有重要意义。探究不同诊断模型与外语阅读数据的适切性,以及具有不同属性层级关系的模型与测试数据的拟合度,能够帮助研究人员把握外语阅读能力的特点,了解阅读数据与诊断模型之间的关系,从而明确自动建模与诊断研究中的决策方向,推动诊断过程的可视化、交互性与智能化。此外,将人类智慧和机器智慧密切结合,在理论与实证研究的基础上建立外语能力诊断平台,也能够为教师和学生提供更多的教学与学习支持。
参考文献
(本文首次发表在《中国考试》2023年第5期)