基于联结主义的连续记分IRT模型的项目参数和被试能力估计
0.195 1.577 2.535 0.057
0.213 2.436 2.199 0.057
(4)步骤4:建立项目参数训练模式
当估计项目参数时,将“第一矩阵”中的每一列作为一个模式的输入,因为每一列都代表所有被试对一个项目的反应情况,于是可以将与各列相应项目的a、b或c作为输出,组成项目参数训练模式,用该模式对一组神经网络(共30个,称为第二组神经网络)进行训练。
(5)步骤5:建立项目参数测试模式并进行测试
用蒙特卡罗方法产生15个项目(称为第三组项目)的参数a、b、c,并用原先已经产生的第一组被试的θ值对它们起反应,产生反应矩阵(称为“第三矩阵”)。然后,将“第三矩阵”中的每一列作为模式的输入,相应的15个项目的参数a、b或c作为输出,组成测试模式。用经过训练的第二组神经网络对其进行测试,也就是由神经网络对第三组项目进行参数估计,然后将估计值和真实值进行比较,记录下测试误差,如表1的2、3、4列所示。和对θ估计的测试误差一样,它是所有测试模式的误差之和。这里共有15个测试模式(即上述的第三组项目)。因此要把表1中的的2、3、4列数字除以15,再求平均数M和标准差SD,得到结果在表2中。
表2 单个模式测试误差的平均数和标准差
统计项 θ a b c
M 0.0027 0.1379 0.1586 0.0045
SD 0.0009 0.0174 0.0227 0.0015
4.4 减少项目参数的测试误差的实验
从表2的数据可以看出,上述方法对于θ的估计已经达到了较好的精度,但对于a、b和c的估计误差仍然比较大。于是再用增加训练模式的方法来试图减少测试误差。上述在训练第二组神经网络时,是用“第一矩阵”中的每一列作为模式的输入,该矩阵共有45列,相应于第一组的45个项目。现在将这组项目扩大,即增加到60个,75个,90个和105个,这些项目的参数都是用蒙特卡罗方法产生的。然后,拿第一组25个被试的θ值和它们起反应,用产生的反应矩阵和相应的项目参数作为训练模式,对30个神经网络进行训练,并重复上述步骤4和步骤5,得到在各种不同数量的训练模式条件下的a、b和c的单个模式测试误差的平均数M和标准差SD,如表3所示。从表中数据可以看出,随着训练项目数的增加,对项目参数a、b和c的测试误差都有明显降低,当项目数达到105时,基本上已经可以接受参数估计的结果了。
附图
从上面的讨论可以看出,在该计算机模拟实验中,共有两组被试,第一组被试是用于能力测试模式的,第二组被试是用于能力训练模式的;该实验中有三组项目,其中的第二组项目是第一组的一部分,第一组项目用于项目参数训练和能力测试模式的,第三组项目是用于项目参数测试模式的,第二组项目是用于能力训练模式的;该实验中有三个反应矩阵,其中的第一矩阵又被分为左、右两个部分,左部分是由被抽取出来的第二组项目产生的,右部分是由其余项目产生的,第二矩阵的“行”作为能力训练模式,第一矩阵的“行”作为能力测试模式,第一矩阵的“列”作为项目参数训练模式,第三矩阵的“列”作为项目参数测试模式。
4.5 实际测验中的被试能力和项目参数估计步骤小结
上述的实验是在计算机模拟的情况下了产生的各组被试能力和项目参数,在实际的测验情况中,可以按照以下步骤来进行测验编制以及被试能力和项目参数估计:
(1)在已知项目参数的题库中取出若干个项目(类似于上述模拟实验中的第二组项目,这些项目可以是二值记分的,它可以事先通过BILOG等估计得到),再加上自行编制的、未知参数的若干项目(类似于上述模拟实验中第三组项目),混合后组成实际的测验试卷。
(2)用这一试卷对一组真实的被试(类似于上述模拟实验中的第一组被试)进行测试,得到一组实际的结果。
(3)用蒙特卡罗方法产生一组被试的能力值(类似于上述模拟实验中的第二组被试),令它和真实试卷中的已知项目参数的那部分项目(类似于上述模拟实验中的第二组项目)起反应,得到反应矩阵(类似于上述模拟实验中的第二矩阵)。
(4)用这一矩阵和这组蒙特卡罗方法产生的被试能力值组成能力训练模式,对一组神经网络进行训练。
(5)用真实的测验结果矩阵的每一行作为一个模式的输入部分,输入上述经过训练的神经网络,其输出就是真实被试的能力估计值。
(6)运用蒙特卡罗方法产生一组项目参数,根据上述的模拟实验,大约要有100个项
目的参数,令真实被试的能力估计值和它们起反应,得到一个反应矩阵(类似于上述模拟实验中的第一矩阵右部分)。用这个矩阵中的每一列和相应的蒙特卡罗方法产生的项目参数组成训练模式,对另一组神经网络进行训练,使之具有估计项目参数的功能。
(7)将这一经过训练的神经网络对真实测验中未知参数的那部分项目(类似于上述模拟实验中的第三组项目)进行参数估计,从而得到这些项目的参数估计值。
至此,就把实际的被试能力和项目参数估计出来了。对照上述模拟实验的图1,其中的第一矩阵左部分和第三矩阵是由真实测验的数据产生的,第一矩阵的右部分和第二矩阵是用蒙特卡罗方法产生的。
5 讨论
5.1 该方法的优点
(1)提出了一种全新的IRT项目参数和被试能力的估计方法,以往的方法都是建立在统计基础上的,而该方法则是建立在联结主义理论(人工神经网络)基础上的。
(2)以往的方法多数只能对二值记分的IRT模型进行参数估计,本研究中的方法则可以对连续记分的IRT模型进行参数估计。由于人工神经网络有很强的学习功能,因此从理论上讲,它也可以用于等级记分和二值记分的IRT模型,当然,这有待于进一步的实验研究。
(3)本研究中用于估计被试能力的样本只有25人,用于估计项目参数的样本只有15个项目,都属于比较小的样本,这说明该方法可以用于小样本的情况,这是以往方法所不能解决的。虽然在对神经网络训练时可能要用到较多的训练模式,但这些模式是可以用蒙特卡罗方法产生的,并不要扩大实际的测验样本。
(4)在使用一般的统计方法处理小样本的数据时,确实存在着参数估计的可靠性问题,但是本实验的研究表明,在运用与统计方法完全不同的联结主义(人工神经网络)方法处理数据时,就有可能克服这一困难。这是什么原因呢?在对人工神经网络理论进行深入探讨以后[15~17],可以发现神经网络在对IRT参数进行估计时,并不是一开始就直接根据原始数据来估计参数,而是先对一组神经网络进行训练,使它们首先具备了这方面的知识,然后再用训练过的神经网络对IRT参数进行估计,这种参数估计的可靠性如何,并不取决于被估计的样本的大小,而是取决于对这些神经网络进行训练的样本的数量、质量以及神经网络的拓扑结构和算法。在这其中,训练模式是研究者运用蒙特卡罗方法产生的,它本身并不是一个小样本,而是一个比较大的样本;产生这些数据的模型就是IRT模型本身,因此数据本身的质量是有保证的。关于神经网络的拓扑结构,在大多数情况下是要通过预测和调整学习率等参数来确定隐含层的数量和其中每一层的神经元的数量,但由于本研究采用的是级联相关模型,它可以根据反传误差的大小自动地调整网络的拓扑结构和联结权重,因此可以自动地建立优化的网络结构,不再需要考虑学习率等问题;另外在人工神经网络的训练过程中,本研究的程序设计也使得只有误差达到预定的很小的数值时,训练过程才停止,这就保证了被训练过的神经网络是较高质量的。由此可见,联结主义( 《基于联结主义的连续记分IRT模型的项目参数和被试能力估计(第3页)》