数学考试分析总结实用13篇

数学考试分析总结篇1

总分

均分

片名次

及格人数

及格率

片名次

优生人数

优生率

片名次

备注

1.1

2635

94.1

96.4%

92.9%

2.1

4477

78.5

84.2%

38.6%

3.1

3477

84.8

97.6%

48.8%

3.2

3303

82.6

92.5%

47.5%

4.1

4796.5

79.9

88.3%

38.3%

5.1

3340

69.6

70.8%

18.8%

5.2

2981

60.8

57.1%

6.1%

6.1

3966

90.1

100%

59.1%

6.2

3396

84.9

97.5%

40%

数学考试分析总结篇2

Brief introduction to commonly used indicators of assistant general practitioner's examination paper

ZHANG Donghai1 ZHAO Liuzhuang2 GANG Jun3 XU Deying4 LIU Shuang3 MA Xiuhua2

1.Department of Gastroenterology， Daxing Hospital， Capital Medical University， Beijing 102600， China； 2.Office of Hospital， Daxing Hospital， Capital Medical University， Beijing 102600， China； 3.Department of Science and Education， Daxing Hospital， Capital Medical University， Beijing 102600， China； 4.General Practice and Continuing Education of Capital Medical Unicersity School， Beijing 100069， China

[Abstract] Eight indicators are used in evaluating examination quality， including reliability， validity， difficulty， discrimination testing and average marks， standard deviation， score distribution， grade. Commonly used methods for the above indexes which are suitable for general graduation examination paper analysis would be introduced briefly.

[Key words] Assistant general practitioners； Examination paper analysis； Reliability； Difficulty coefficient； Difference degree

试卷分析是针对大量的成绩数据进行统计、计算、分析，进而得出科学结论的过程。试卷分析属于“教育测量学”的范畴。通过试卷分析可能提炼出诸多对考试质量进行评价的数据，此时试卷就不是单纯地“考试”，而是变（升华）为“试卷分析”。通过试卷分析所得到的比较科学的分析结果，可以进一步展开对教学活动评价，了解教学质量以及学生的学习质量（如对知识的掌握程度）等[1-7]。评价考试质量常用8个指标，包括涉及试卷的信度以及效度、难度、区分度，还包括平均分数以及标准差、分数分布状态、成绩[8-10]。对于上述指标进行分析的方法学较多、有的较为繁杂。我们曾做过相应试卷分析工作[11，12]，现结合工作体会将适合结业试卷分析的一般常用方法做一简介。

1 主要涉及试卷质量指标（信度、效度、难度、区分度）的一般分析方法[8，13-14]

1.1 试卷试题难度分析的常用具体方法

难度系数（P）通常是指试卷以及试题的难易程度，可以反映或评价大部分学生对该试题或试卷知识点的掌握程度。难度系数分析应该包括试题难度系数与试卷难度系数两部分，仅进行试卷难度系数分析不易找出具体问题（即总成绩可能掩盖具体得分点）。

1.1.1 试卷总体难度分析的常用方法试卷整体难度一般以0.6～0.8为宜。方法1：难度系数（P）=试卷的平均得分÷该试卷的满分值。如：试卷平均分为75分，该试卷满分为100分，则P=0.75。该方法较为粗糙，故较少采用。方法2：试卷难度系数（P）=（考试成绩前27%学生的得分之和+考试成绩后27%学生的得分之和）/两组总人数满分之和（考试成绩前27%学生指考试成绩排名在前27%的学生，将这些学生的成绩相加即为得分之和；考试成绩排名在后27%的学员以此类推）。

1.1.2 试题难度系数（P）常用计算公式方法1：难度系数=试题的平均得分÷该题的满分值。方法2：难度系数=该题的总得分÷该题的满分值。满分值是指：参加考试人数×该题卷面的分值。如果所有试题均采用1分制（即：满分100分，试题100道，每道1分；不采用扣分制），则该题得满分值就是参考人数。所得结果也是该题的答题正确率。此时用方法2就较为方便。

1.2 区别度分析的具体方法学

区别度（D）是指能够区分考试（测验）成绩好的学生和考试（测验）成绩差的学生的指标，一般通过计算高分数段和低分数段学生的难度系数而得出。要同时分析试题区别度数与试卷区别度，单独分析试卷区别度易于掩盖试题的区别指数，误导选用试题。区别度越高，区分能力越强。但是，在结业考试中允许D=0的试题出现。一般以

1.3 试卷信度分析的具体方法学

试卷信度（α）评价该试卷检测结果的可靠程度、可重复性的指标，即为评价被测者在测试中的实际测量值与真实能力是否一致性的指标。最好的试卷信度应该在0.9以上，若低于0.7以下则不甚可靠。计算方法如下。

1.3.1 克朗巴赫公式[Cronbach系数（α）] （α）= 试题数/试题数-1×[（所有被测者第i题的方差-所有被测者总分的方差）/所有被测者第i题的方差]。该方法适用于非选择题以及多值计分题（即：试卷试题的类型较多、各题分值不同，如包括多选题、是非题、问答题等）。计算过程较为复杂，需要每道试题计算后得出结果，该方法应用较多。

1.3.2 库德-理查逊信度（简化）公式适合用于每题1分的选择题（即试题计分为1分或0分的试题）。信度系数=[n（s-1）2-X（n-X）]/[（n-1）s2]（计算较为简单）。（n为卷面满分成绩，X为平均总分，s为标准差）[11]。该方法最大的好处是不需要逐题计算通过率。

1.3.3 库德-理查逊信度（简化）公式的进一步简化计算较为简单。此公式适用于所有试题为每题1分选择题的试卷。信度系数=[K/（K-1）]{1-[X（K-X）/Ks2]}。K为测题的数目，X为平均总分，s为标准差）[5]。

1.3.4 相关系数（R）计算[10] 该方法计算较为复杂。具体公式可以参考相关文献。

1.4 试卷效度分析

效度用于评判测量的正确性、有效性（反映测量到的与所要测量的二者之间的符合程度）[5，6，8，14-15]。如果将测验总分看作是内部效标，则该测题的区分度也就是该测题的效度（即内部效标的效度）[5，6，8，14]。所以，如果仅分析试卷本身只要有区别度即可。因此，在多数的研究中没有计算“效度”[1，3，7，11]。其他获得效度的方法如下。

1.4.1 相关系数（R）计算基本方法是通过计算两门性质相近学科、或同一学科前后两次考试成绩的相关系数（R）来评价此次考试成绩的有效性。

1.4.2 百分一致法按考试成绩将学生分为高、中、低3组，用各个试题中高、低分组之差除以相应的满分，即可得出此题的效度值。这实际上雷同于“区分度计算”方式，仅适应于本试卷的检测[16]。

1.5 试题难度系数（P）与区别度（D）之间的关系

P值越大则说明试题难度越小（内容为多数学生掌握），P值越小说明试题难度越大（多数学生未掌握），此两种情况试卷或试题的区别度均较差；要有较好的区别度，试题难度应适中。

较易试题的难度系数≥0.7；0.4

2 主要体现学生成绩的分析指标（成绩、平均分数、标准差、分布状态）[5，6，10，13，14]

2.1 成绩

即考生试卷的总得分。这是基本原始数据，是所有数据分析的基础数据，必须仔细输入。

2.2 平均分数

是最直观的集中量数。一般认为平均分数的最佳数值为75（百分制）。

2.3 标准差（s）

例如，甲班与乙班的考试平均分数相近但分数分布差异明显，则不能说两个班级的成绩相近。此时不仅要考虑到平均分数，还要计算分数的离散程度（简单可以理解为“分数分布情况”，学术名称――差异量数）。常用的差异量数有多种，经常采用的差异量数是标准差。计算公式可以在统计学教材查找到。计算标准差，理论上讲学生人数越多越好。一般认为：标准差≤10即能符合要求。标准差过大说明全班分数差异过大，需要教师予以注意；但过小则信度下降，区别度下降，标准差也可用于信度计算。

2.4 分布状态

简单理解就是看整个班级（年级）学生的成绩分布情况。一般要求是正态分布，结业考试可以允许一定的正偏态分布，但绝不能完全一边倒。一般习惯是利用成绩分布曲线分析学生的考试成绩（纵坐标为学生人数，横坐标为分数），可以直观的下结论（定性分析）；如果要进行定量分析，则需进一步计算偏态量数及峰态量数[10]。

试卷分析的方法学较多，本文仅介绍较为简单、易于掌握的部分。利用试卷分析结果，可以评价教学效果，但其评价的基础是要有高质量的“试卷”（难易程度适当、知识点掌握的较好），这同样涉及教与学两方面的努力。试卷分析仅仅是手段而已，也可称为是教育测量的工具。在进行试卷分析的准备过程中，首先要编制适合测试对象的“试卷”：编制试卷则要根据测验目的进行，最基本的是要依据测验功能决定是进行能力倾向测验（学生的潜在能力如何？）是学业成绩测验（考察学生经过教育教学过程后学业成绩的掌握情况，也称“考试”）。进一步，则要根据培养目标进行分数解释，如果是“目标参照性测验”则其及格就是最基本的教学要求水平参照点，分数愈高说明达标的完满程度愈高；如果是“常模参照性测验”，即测验目的是鉴别性测验（优选，如高考），则测验的难度就要适当增加以利于选拔。结业测验一般是“目标参照性测验”，本文介绍的简便方法学适用于“目标参照性测验”。

研究结业考核标准与模式是不断探讨的课题[17]，结业试卷分析不仅可以评价本次考核内容的学生掌握情况、教师教学效果，同时也可以评价不同教学单位在教授同一课程时其间教学效果的差异性[18]。“3+2”助理全科医师培训[19-21]是一项新的工作，我们在其中的《临床综合课程》教学实践、教学管理中，纳入试卷分析体系作为评价整体教学水平、发现不同教学单位教学差异点的手段之一[8，9]，取得了较好的效果，不仅了解了教学效果，同时也为提出新的教学思路提供启发点，为集体备课提供了具体依据。因此，掌握试卷分析方法学，既是教师的基本功（特别是高校教师），也是教学管理部门应该熟悉的管理内容与管理技术。

[参考文献]

[1] 张正祥，刘国庆，王廷慧，等. 延安大学医学院药理学试卷分析[J]. 中华医学教育杂志，2008，28（4）：120-122.

[2] 孙敏，王锦帆，祖勤，等. 医学生学习中期评估测试实效分析[J]. 中华医学教育杂志，2013，33（4）：617-620.

[3] 卢燕，王培玉，刘宝花. 北京大学医学部八年制疾病预防医学期末考试试卷分析[J]. 中华医学教育杂志，2013， 33（5）：791-793.

[4] 和永祥，王渊，徐俊丽，等. 内科学考试试卷分析与评价[J].西北医学教育，2006，14（3）：304-305.

[5] 王孝玲，教育测量（高等师范院校教材）（第2版）[M]. 上海：华东师范大学出版社，2005：1-188.

[6] 黄颖，林端宜. 试卷分析研究现状综述[J]. 西北医学教育，2005，13（1）：39-40.

[7] 宋青，蔡景一. 试卷考核质量评价[J]. 中国高等医学教育，2006，（11）：30-31.

[8] 高卫红，任俊峰. 利用教育统计学原理进行考试质量分析方法初探[J]. 武警医学院学报，2004，13（3）：214-218.

[9] 田考聪，彭斌. 试卷质量定量分析系统中的几个参数及其应用[J]. 医学教育探索，2004，3（4）：52-54.

[10] 张玲玲，梅忠义. 对学生成绩评价指标体系中一些问题的思考，合肥工业大学学报（社会科学版），2006，20（2）：19-21.

[11] 马秀华，张东海，黄东明，等. “3+2”助理全科医师培训《临床综合课程》结业试卷评价及相关因素分析[J]. 中国医学教育技术，2015，29（2）：213-217.

[12] 马秀华，张东海，徐德颖，等. “3+2”助理全科医师培训中《临床综合课程》结业试卷分析评价[J]. 中华医学教育探索杂志，2016，15（5）：445-450.

[13] 彭斌. 试卷质量定量分析系统中的几个参数及其应用[J].中华医学教育探索，2004，3（4）：52-54.

[14] 刘新平，刘存侠. 教育统计与测评导论（第1版）[M]. 北京：科学出版社，2003：133-156.

[15] 史宏灿，龚卫娟，郑英，等. 以国家执业医师资格考试为参照的临床医学教学改革思考[J]. 中华医学教育探索杂志，2016，15（5）：459-464.

[16] 陈欣，戴社教，赵暹，等. 不同类型试题对医学影像学考试评价的效能分析[J]. 中华医学教育探索杂志，2016， 15（5）：455-458.

[17] 赵丽莉，李崭，黄艳. “3+2”培训项目结业考核标准与模式的研究[J]. 继续医学教育，2015，29（11）：4-5.

[18] 张东海，马秀华，赵留庄，等. 通过临床综合课程结业试卷分析不同教学单位教学效果的差异[J]. 卫生职业教育，2016，34（12）：101-103.

[19] 黄艳，线福华，赵丽莉，等. “3+2”助理全科医师培养模式的探索与实践[J]. 中华医学教育杂志，2014，34（2）：31-33.

数学考试分析总结篇3

表1.试题分值分布表

表中q1是填空题；q2是选择题；q3是判断说明题；q4是名词解释；q5是简答题；q6是论述题。

二、试卷成绩数据的定义与录入

1．数据定义

在SPSS软件中，点击Variable view（变量视图）标签，在Name标题下定义：班级、学号、题1、题2、题3……题6、总分。在Type标题下定义各个项目的类型，其中班级、学号定义为String类型，长度为4，各题和总成绩均定义成Numeric类型，长度为5，小数点后长度为1，其余项使用默认即可。其中题号和总成绩均定义成Numeric（数字型）类型，长度为5，小数点后长度为0，其余项使用默认。

2．数据录入

数据录入可以直接输入，将窗口切换回数据视图，点击Data view标签，按照定义变量的顺序将共计38份试卷的相应数据输入SPSS。数据录入也可以通过数据文件直接调入，先建立一个扩展名为txt的数据文件；再读入ASCII码数据文件并将其转换为SPSS格式。转换的操作步骤：按FileRead Text Data顺序展开Open File对话框，指定前面已建立的扩展名为txt的数据文件并打开按钮，展开Text Import Wizard对话框，分6步完成转换工作。其中，固定格式ASCII码数据的转换，要求根据变量所占列分配分隔线，其他使用默认。

三、考试成绩统计分析

1.考试成绩的基本描述性统计

对成绩进行描述性统计分析，包括频数分析、集中趋势分析和离散程度分析。其中，通过频数分析反映数据的整体分布概况；集中趋势分析，通过计算“总分”的平均值（Mean）、中位数（Median）和众数（Mode）等指标，反映考生成绩集中所在的分数段，代表考生的集体水平。而离散程度分析，通过计算“总分”的标准差（Std.Deviation）和全距，反映考生之间的差异。全距是最小值（Minimum）与最大值（Maximum）之间的绝对差。偏度（Skewness）和峰度（Kurtosis）用来描述数据分布是否对称，偏斜程度如何，分布陡缓程度等。操作如下。

在SPSS中单击：①执行AnalyzeDescriptiveStatisticsFrequencies，弹出Frequencies对话框，将需计算的“总分”和“各题”（题1、题2、题3……题6）变量移入Variables框中；②按Statistics按钮，弹出Fre-quencies Statistics对话框，选上Mean，Std.deviation，Mini-mum，Maximum， Skewness，Kurtosis等指标；③按Charts按钮，弹出Frequencies：Charts对话框，选上His-tograms和With normal curve，然后单击Continue按钮，再单击OK按钮，即可获得总分和各题的有关统计，以及成绩分布直方图，结果见表2图1。

表2“总分”一栏显示1班期末考试的总分中，众数=中位数＞均值，偏度值＜0呈左偏态分布状态；标准差为16.03，同学之间成绩差异很大，特别是最低成绩32分，使全班均分受到影响，低于中位数和众数，综合以上信息，以中位数和众数74分更能反映该班同学在这门学科中的整体水平。此外，表2显示峰度值接近于0，图1也表明全班成绩从60分开始基本上呈正态分布，说明1班期末成绩可以看成是正态分布，表明该试卷命题基本合理。试卷所反映的知识点全面，难易程度适中，学生对本门课程在知识结构和能力发展等方面已达到基本教学目标，但要重点关注和辅导55分以下的5个同学。

图1.200701班期末成绩频率数分布

2．考试成绩的等级比率统计

在进行试卷分析时，我们往往想知道各分数段的人数及所占比例。为此，可以先分组后统计。

首先，将百分制分数转换成5等级，即优秀（≥90分）、良好（80~89分）、中等（70~79分）、不及格（

接着，统计期末成绩的等级比率。操作如下：选择菜单AnalyzeDescriptive StatisticsFrequencies中，选中“期末成绩等级”送入Variables，再单击OK按钮，即可得出表3。

表3.200701班期末成绩等级分布（N=38）

表3显示，学生较多集中在良（28.9%）、中（18.4%）和及格（18.4%）段，优和不及格段分布少（各占18.4%、15.9%），说明本卷试题难度适宜，绝大部分学生能在及格以上。

值得注意的是，若要按班进行试卷分析，则要首先划分数据，方法为：拆分文件，执行DataSpilt File……，弹出Spilt File对话框，选择Organize Output by Groups，将“班级”变量移入Groups Basedon框中，然后单击图中OK按钮，即将文件按“班级”进行了拆分。然后按照上面的操作流程，得到按班完成的成绩分析表单和图形。

四、试卷质量分析

1.试题的难度分析

试题的难度是指全体考生对试题失分的统计量，公式为：P=1-X/W，其中：P为难度值，X为均分值，W为该题满分值。计算方法为：首先将窗口切换回数据视图，点击Data view标签，将表1中的各题满分和表2中的各题平均值直接录入，并定义变量名“满分”和“均值”。然后，单击TransformCompute，在Numeric expression中输入公式1-Mean/W，在Target Variable中输入难度系数，单击OK按钮，得到各个题的难度系数（见表4）。若要计算整个试卷的难度系数，只需要将各题的难度系数与各题的满分之积相加，再除以100即可（见表4）。

“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

表4.各题难度系数、区分度和信度分析

一般认为，难度系数P值越大，试题难度越大，不及格的考生越多。试题的难度在0.3~0.5之间为宜，P>0.7为难题，P0.2，虽然比较恰当，但难度偏小，试题容易，提示应该适当增加难度，特别是判断说明题。

2.试题的区分度分析

区分度是指试题对考生实际水平的鉴别能力，将考生成绩优劣区别开来的统计量。在进行区分度分析时，常以考试总分作为被试的实际能力水平，而把被试在某题上的得分与总分之间的相关系数作为该题的区分度。区分度的计算方法很多，对于客观题来说，使用斯皮尔曼（Spearman）等级相关分析；对于主观题来说，看成是非等间距测度的连续变量，采用皮尔逊（Pearson）相关分析。这些分析在SPSS中都有相应菜单命令可选用。具体操作：单击AnalysisCorrelateBivariate，在弹出的对话框中选择各客观题号变量和总分进入Variables，在Correlation Coefficients中单击Spearman，完成后即可得到客观题的区分度。主观题的区分度方法同上，只需选择主观题和总分字段进入，然后选择Pearson即可。若要计算整个试卷的区分度，只需要将各题的区分度与各题的满分之积相加，再除以100即可。本次考试的区分度结果见表4。教育理论认为，区分度D>0.4为优，D0.75，整个试卷的区分度为0.792，说明本卷区分度都很高，试题和试卷能区分学生之间的实际差异。结合前面难度偏小，试题容易，提示成绩比较低分的学生要加强课外学习，增强学习自觉性和行动力。

3.试题的信度分析

信度是反映试卷的题目得分一致性程度的统计量，表示考试的可靠性、稳定性，反映试卷或试卷测试结果是否代表考生的真实水平。其取值范围为0~1，其值越大，信度越高。对试卷信度大小的衡量通常用信度系数α来度量，此系数的估算方法很多，有重测法、等值法、克伦巴赫系数等。如果测验中包括有非0-1记分的题目，可选用克伦巴赫Alpha系数来计算一致性信度系数。做法是：在SPSS中单击AnalyzeScaleReliability Analysis，在弹出的对话框中选择所有题目变量进入Item框中，在Model中选择Alpha模型，得到测试信度。本文中实例的信度Alpha=0.8351。一般来说，大规模标准化考试的信度应在0.9以上，学校教师自编考卷的信度应在0.6以上。可见，本自编测验的信度很高，本次测评成绩较真实地反映了该班学生的学习状况和水平。

4.试题的效度分析

效度是指测试的有效程度。常用的效度检验有内容效度分析、结构效度分析、关联效度分析、项目分数效度分析。试卷分析一般采用效标关联效度分析法，即首先寻求一种可靠的效标，然后求出测试结果与效标的相关系数，该相关系数则为效标关联效度。具体操作：首先将窗口切换回数据视图，点击Data view标签，将“可靠的效标”录入，并定义变量名“平时成绩”。然后，单击AnalyzeCorrelateBivariate，选择“平时成绩”和“总分”进入表达式，然后在Correlation Coefficients中单击Pearson。得出总分与平时成绩的相关系数为0.837。说明本次考试与平时成绩相关性较高，即平时成绩好的学生此次考试成绩亦较好，平时成绩差的学生此次考试成绩亦较差。

五、结论与建议

本次考试平均水平为74分（宜用中位数和众数表示），成绩分布基本符合正态分布；标准差为16.03，标准差值较大，说明学生个体之间存在较大的差异，这主要是由于此班的极少数学生上课不认真听讲，考试也不下功夫复习所致。因此，以后在教学中应当关注这类学生，调动他们的学习积极性，经常鼓励他们，从而达到提高他们成绩的目的。

在难度分析中，可知第3题判断说明题特别容易，其他各题和整个试卷的难度>0.2，虽然比较恰当，但难度偏小，试题容易，应该适当增加难度，特别是判断说明题；在区分度分析中，可知各题的区分度均>0.75，整个试卷的区分度为0.792，说明本卷区分度都很高，试题和试卷能区分学生之间的实际差异，所以本次测试的各题均有较好的区分作用；在信度分析中，可知信度为0.8351，此次考试的信度比较高；在效度分析中，可知本次测试的效标效度为0.837，说明本次考试与平时成绩相关性较高。

通过SPSS对试卷成绩的统计，可以知道学生个体的差异程度，比较客观地反映教师与学生“教”与“学”的水平与效果；通过对试卷质量进行分析，可以进一步筛选试题、修订试卷，将符合指标的题目，分门别类归入题库，防止出题的随意性，提高试题和试卷的质量。

利用SPSS软件统计分析时，只需了解相关统计术语和操作步骤，具体的统计分析和结果输出均由SPSS自动完成，可以较大地提高分析试卷效率，准确地得到分析结果；且操作方便快捷，大大减轻教师负担。因此，SPSS是进行学科成就测验质量分析的理想工具。

（参考文献本刊略）

作者单位：

数学考试分析总结篇4

1.内容结构分析:基本概念和化学原理、元素化合物知识、有机化学知识、化学计算、化学实验等方面的内容比例乃至每一方面的二级结构分析。

2.目标水平结构分析:按照考试大纲所列水平(通常分为知道、理解、应用、综合运用等)种类,分析它们的组成比例并且作内容—水平双向交*分析。

3.题型结构分析:各类题型的比例分析。

4.分数结构分析:内容—分数和水平—分数的双向交*分析。

5.难度和时限结构分析:对难度测验作难度分布描述,对速度测验作时限分布描述。

6.试卷特点及横向、纵向比较:就试卷是否符合考试(教学)大纲规定、是否反映化学学科特点和内在联系、符合学生实际水平、合理性、适宜性以及其他特点作出描述和判断。横向比较可以在学校—学校或地区—地区间进行,纵向比较可以在不同学年间进行。

进行结构分析时,分析者要对测验各项目逐一分析和作出判断,因而结构分析带有较强的主观色彩。分析者对项目的判断跟编制、设计者不一致的情况经常会发生,对于比较复杂的综合题尤其是这样。为此可以把试卷结构分析结果跟编制试卷的结构设计进行比较。

除了难度结构分析跟答卷情况有关,只有在考试实施之后才能进行外,其他各项分析跟答卷情况无关,在考试实施之前就可以进行,属于试卷的“静态”分析。

二、答卷情况描述

主要包括:

1.成绩分布情况描述:列出频数分布表或频数分布图。

2.统计量描述:列出平均分、标准差、优分率和低分率以及某些因素间的相关系数等数据,还可以进一步作各内容跟其平均得分率、标准差、优分率和低分率的双向交*分析,各水平层次跟其平均得分率、标准差、优分率和低分率的双向交*分析,以便从中发现问题。

3.分布形态判断:判断总体分布是正态还是偏态或其它形态。

4.由样本统计量推测总体参数(总体平均成绩、总体标准差等)。

三、试题及解答情况分析

1.题目的内容、水平分析:逐一分析各题的内容、水平和考核意图。

2.题目的难度、区分度、灵敏度、识别度和题目反应分布:具体方法参见文后所附题目分析部分。

四、试卷质量分析

1.试卷的信度分析和效度分析。参见文后所附“试卷的信度分析和效度分析。”

2.整卷难度分析。

3.试卷质量评价:就考试目的和试卷内容、结构、形式的合理性、适宜性、有效性和可行性等对试卷作出全面评价。

五、教学分析和教学建议

从得分、失分情况以及某些部分之间的比较、分析,发现教师、学生以及命题等方面的成功与不足之处,并针对存在问题提出改进意见。

为了使试卷分析全面、可靠和有效地发挥应有作用,试卷分析工作应实行教师分析和学生自我分析结合、“动态”分析和“静态”分析结合、定性分析和定量分析结合,在认真分析的基础上,简明、扼要、有重点地写出试卷分析报告。

附:题目和试卷的统计分析方法

一、常模参照性测验的题目分析

常模参照性测验题目的分析工作,主要是对测验结果进行统计分析,估计题目的难度、区分度,分析答案是否适宜等。

1.难度分析

所谓题目难度是指某一题目的难易程度,通常用答对率P来表示。

一般说来,题目的P值以0.2~0.8为宜。也有人用不通过率Q来表示难度。它们的计算方法如下表所示:

*X高为高分组的该题得分总和,X低为低分组的该题得分总和,H、L分别为该题的最高、最低得分。

P值无等距性,无法对试题之间的难度差异作精确的比较,也不能用于计算平均难度。为了对各题难度作比较,通常要把P转换成标准难度,使之等距化。

值越大,题目难度越大;=13时,题目难度为中等。

运用下表可以方便地由P值直接查得对应的值:

2.区分度分析

题目区分度是指某一题目对被测水平的区分能力。若某题目能使水平较高的被测得较高分、使水平较低的被测得较低分,该题就有较高的区分度。

区分度分析可以采用极端分组法,或者采用相关法。相关法比较复杂,这里从略,不作介绍。在极端分组法中,从总体中分出高分组和低分组(比例均为25%~33%且数值相同),然后计算区分指数D作为区分度的指标,如下表所示:

除了计算方法以外,还可以采用弗拉南根查表法:根据占总人数27%的高分组的答对率和占总体人数27%的低分组的答对率,从专门的表(附表5)中查得题目的区分度。

一般说来,当D<0.20时,题目的区分度太低,必须淘汰或者加以修改;当D≥0.40时,题目的区分度非常好;通常题目的区分度指数D在0.2~0.4之间。题目难度跟题目区分度之间有着一定的联系。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。

3.题目反应分布分析

对于多重选择题等可能有多种答题情况(题目反应)的题型来说,仅仅作难度分析和区分度分析是不够的,还需要分析题目反应分布情况,检查它是否跟预期的反应分布模式符合,从而发现需要修改之处。题目的难度和区分度也可以从反应分布中得到反映。进行题目反应分布分析,先要制作题目反应分布表。下面是该表的示例,表中还列出了有关的分析和判断:

*为答对人数

二、目标参照性测验的题目分析

目标参照性测验题目试测后的分析工作主要是作灵敏度分析和识别度分析,有时也要作题目反应分布分析。

1.灵敏度分析所谓灵敏度是指题目能灵敏地反映教学作用的能力,通常用目标教学前后被测总体的通过率之差来估计。

设目标教学前、后通过试题的被测人数分别为R1、R2,被测总体人数为N,则试题对教学的灵敏度指数S可按下式计算:

当S>0时,试题有效,S越大,试题对教学作用的感受越灵敏;当S≤0时,需要研究是否由教学不当而引起,如非教学不当引起,则可认为试题质量不佳。

2.识别度分析

题目识别度是指某试题能有效地识别达标者的能力,通常用合格者通过本题的百分比跟不合格者通过本题的百分比之差来估计。

设P1和P2分别为合格者和不合格者的本题通过率,则

识别度指标D=P1-P2

识别度指标的最大值为1.0,当D≤0时,该题无预期的识别能力。

题目识别度还可以用被测是否合格跟是否通过本题的φ相关系数来表示。设题目在总人数为N

的被测总体中的试测结果如下表所示:

所得φ相关系数需进行检验,方法是:按下式算出φx2

x2=Nφ2

的,其犯错误可能性为0.05。

3.题目反应分布分析

目标参照性测验的题目反应分布分析方法跟常模参照性测验的分析方法相似。通过分析不但可以发现题目中存在的问题,还可以了解被测的错误类型及其分布,具有学习诊断作用。

三、试卷的信度分析

信度表示测量的一致性、稳定性和测量结果的可靠性。测量时的随机误差越小,测量结果就越接近真实值,其信度就越高;样本统计量越是接近总体参数,其信度也越高。

信度常用信度系数r__表示,其值在0~1之间。若r__=0,表明实得分数完全由偶然误差决定;若r__=1,表明实得分数完全不受偶然误差的影响。一般说来,化学学业成绩测验的信度应在0.90以上,甚至达到0.95。

由于Sr和SR难于直接测得,所以r__通常借助于某些特别方法进行计算。

(一)常模参照测验信度的计算

常模参照测验的信度系数可以用再测法、等价测验法和两半法等方法求得,所得信度系数意义略有不同,分别表示测量的再测稳定性、等价测量稳定性和内在一致性,故又分别称为稳定性系数、等价性系数和内部一致性系数。在化学教学测量中,常用下列方法计算内部一致性系数。

1.两半法,即在一次施测后,把试题分为对等、可比的两半,其内容、预测难度、总分和题数都大致相同;计分时把各被测的两半实得总分分开统计,计算两半间的积差相关系数;

式中,x、y分别为某被测实得的两半总分,N为被测总数。

再将rhh代入下式校正,即可得整卷的信度系数r__。

采用这一校正公式时,两半的平均数、标准差、项目的组间相关、分布的形态和内容都应相近。否则,整个测验的信度估计r__将有误差。此时可改用下式计算r__:

式中,Sa、Sb分别为两半分数的标准差,St为整个测验总分方差,Sd为两半分数之差的标准差。

2.克龙巴赫法

方差。

影响测验信度的因素主要有:

(1)测验长度:测验越长,题量越大,信度越高。

(2)试题难度:当各题难度和平均难度为中等(P=0.25~0.75)时,有利于提高测验的信度。

(3)样本(或总体)大小:样本(或总体)越大,分数分布越广,信度越高。

(4)测验内容的复杂性:测验内容同质性高,信度也高;反之,内容越庞杂,信度就越低。

(5)施测条件的标准化,有利于减小随机误差的影响。

(6)评分的客观性。

(二)目标参照测验信度的计算

复本法:以等价的两份测验对同一被测群体施测,设测验结果的分布情况如下表所示:

四、试卷的效度分析

效度表示测量跟测量目的符合的程度,是测量准确性和有效性的指标。跟测验目的无关的因素影响越小,测验的有效性即效度就越高。

(一)常模参照测验的效标关联效度

在确定常模参照测验的效度时,通常以另一比较符合测量目的的测量结果作为检测效度的参照标准(即效标)。设被测总数为N,x和y分别为被测i的本次测得成绩和效标成绩,则

若已将成绩转换成Z标准分,则

rxy>0时,说明两者相关(正相关),rxy值越大相关程度也越大;rxy=1时表示测量完全反映测量的目的;rxy=0时,表明两组分数完全不相关(零相关)测量结果跟测量目的无关;rxy<0时为负相关,表明一测量得分高者另一测量得分低,测量结果跟测量目的完全相反。一般情况下,化学学业成绩测验的效度应在0.4~0.7之间

系统误差和随机误差跟实得分数方差比值的大小影响着效度的高低,要提高效度,就必须:

(1)提高测验的信度,减小随机误差的影响。

(2)施测标准化、评分标准化、采用适宜的分数合成方法,减少与测验的目的无关的因素,尽量降低系统误差的影响。题文难于理解、数学计算过于复杂等,均会降低测验的效度。

(3)提高命题质量。试题太少、偏、怪,覆盖面小、编排不当、过难过易等,都会影响效度。

(4)增大样本容量、使之具有较好的代表性。

(5)选择可靠(信度高)、符合测量目的的测验作效标。

效度系数也可以视具体情况改用二列相关系数或者点二列相关系数、φ相关系数等来表示。

(二)目标参照测验的效度

目标参照测验要求测量结果的变异最好为零,故不能用变异量来表示其效度。此时,可以通过内容适宜性来确定其效度。

五、试卷难度分析

数学考试分析总结篇5

大学新生英语分级考试是我院为临床医学专业七年制新生制定的英语技能水平测试。测试的目的是衡量学生的英语技能水平,为后续的英语分级教学提供依据。考试试卷的设计、考试的实际实施、评分标准的统一与否对于能否公正客观地反映学生的能力都有影响。因此,我抽取2009级90名临床医学专业七年制新生的试题,采用广东外语外贸大学设计开发的Gitest III软件对该份分级考试试题的100道客观选择题(其中听力15题,阅读理解20题,词汇语法题40题,完形填空题25题)进行项目分析,包括平均分、难度、区分度、信度等各项数据和效度分析等,以检测试题的设计是否合理,是否能在保证信度和效度的基础上考查学生的英语语言知识和技能并针对发现的问题提出建议,希望能对以后的分级测试命题和设计有所帮助,从而提高测试质量。

2.理论依据

2.1信度

“测试的信度,指它的结果分数对受试者的表现而言的可靠程度……具体说来,就是代表分数与试题,及试题与受试者(test population)的关系”。[1]45为了保证测试的信度,我们应该更多地关注到测试的数量与质量、测试的实施与试卷的评阅。[2]首先在数量上,语言测试应该有足够的数量来保证测试点的覆盖及测试抽样。其次在质量上,考试结果的分数分布应该是正态分布,大多数在中间水平。至于评分的信度,应该保证评分员与评分员之间保持一致,每个评分员自身也要保持前后一致。因为该份分级测试全部题目均为客观选择题,评分信度不受人为因素影响,因而可以得到保证。

2.2效度

“语言测试的效度,亦称有效性,指测试所考的,是否就是所要考的,或者说,在多大程度上,是考了目的所要考的”。[1]49效度分为内在效度、外在效度、使用效度和超考试效度。其中,内在效度是指测试本身的效度,包括内容效度和结构效度。前者是指测试是否考了考试大纲规定要考的,后者指考试的原则理论的效度。结构效度是所有的各种效度之本,决定了整个考试的性质。[1]49-56因此,本文主要分析该份分级考试试题的结构效度。

2.3项目分析

项目分析指的是应用统计学得出的结果来描述测试项目的难度和区分度。项目难度以答对题目人数的百分比表示,而项目区分度则表示被测试者具备的所要测试能力的大小。项目分析的结果用以修正一次测试,通过对不合格项目的修改或删除可以增加测试的信度和效度。我所作的项目分析是根据李莜菊定下的标准进行的,[2]125答对率(facility value,p)、难易度(the difficulty level,pd)和区分度(discrmination index,R-Bis)都有使用。答对率是显示考试的总人数中答对某题的比例。一般来讲,答对率值应该在0到1的范围之间,理想值是0.5。难易度值的范围在1到25,理想值是13。值越小,题目就越容易。如果值达到9或更低,就说明84%的受试者答对了题目。如果值达到17或更高,说明只有16%的受试者答对。区分度是这个题目区分性能的量度,即这个题目正确鉴别不同受考者在所考目标方面的能力。区分度值的范围在-1到1。一道题目的区分度值达到0.3就算符合要求,0.4是理想值。如果低于0.3,那此题目就需要修改或者舍弃不用,而且这样的题目量要控制在总题数的5%以下。

3.结果与讨论

3.1信度分析

整份试题的信度分析结果如表1所示。试题的全部100道客观选择题的平均分为67.40,有67.4%的题目做对了,说明这是一个难度中等的测试。标准偏差是7.40,而预期的标准偏差应该是14.06,说明分数比较集中,分布比较窄。分数的分布呈负偏态,偏态值为-0.54,表示得分高于规定平均分的人数超过了50%,说明试题总的难度比理想难度低。而峰值为1.65,表示峰比理想的峰高尖,说明分数过分集中在中段。一般说,一个考试偏态值和峰值能控制在-1到1之内,便算其分数基本符合正态分布。[2]124因此该试题的分数没有符合正态分布。信度指标R11值为0.74,aValue值为0.56,未达到李筱菊要求的理想值0.9和0.8,[2]128说明整份试题的信度不高。

语言测试的结构效度可以用相关分析及因素分析来验证。根据李筱菊所定的标准,如果相关系数达到0.4,那这两个部分就是相关的;如果相关系数能达到0.5或者以上,那就说明显著相关。[2]129从各大题的相关分析得到试题的四个部分听力、阅读理解、词汇语法和完形填空与总分的相关系数分别是0.52、0.54、0.76和0.77,显示这四部分与总分高度相关,表明考生对大部分试题的作答影响着最后总分的高低。但是,各大题之间都没有显著相关,相关系数在0.15到0.28之间。试卷中两部分之间的低相关常常被片面地认为是因为这两部分检测了考生不同的能力技巧,实际上两部分之间的低相关可以是由很多因素造成的,Oller(1979)指出,试卷两部分的低相关可以从以下几个方面来探讨其原因:1)对于考生来说,其中一部分试题太容易了或者太难了,因而导致这一部分试题的结果不可信;2)两部分试题的信度值都不高;3)其中一部分或者两部分试题都没有检测应该被检测的能力技巧,即测试结果无效;4)试题的效度值不高。[3]56

从表3可以看出,听力理解部分的信度值较低,只有0.33,这可能是该部分与其他大题低相关的原因。阅读理解部分的信度值也不高,只有0.41,而且答对率为0.73,可见阅读题过于简单而且信度不高,因而解释了该部分与其他大题之间的低相关。词汇语法部分需要修改的题目多达19道,占了需修改题目总数的70%,造成这部分区分率较低,只有0.34,这或许解释了该部分与其他大题之间的低相关。

综上所述,各大题之间的低相关可能是由于有些部分的信度值很低,也有可能是有些部分的难度低,我们需要作深一步的研究,探讨考生试题的解答过程,[4],[5],[6]以得出更加可靠的结论。

另外,因素分析也验证了该份试题的结构效度,结果如表4。通过对试题潜在因素分析与主成分分析,可以看到试题因素1的总负荷量是26.72%,另两个因素负荷量分别为3.68%与1.98%,低于10%,因此这两个因素可视作为无意义。[1]130完形填空部分在第一个因素中的负荷最大(0.604),其次是词汇语法(0.560)。由于这两部分侧重于测试考生的词汇和语法基础知识的运用及句子层面的理解能力,因此因素1是词汇和语法基础知识,以及句子层面的理解。考虑到该试题只有一个有效因素,那么这份试题在测试词汇和语法这方面的语言知识与句子理解的语言技能方面有较高的效度,但现代语言测试理论认为单是语言知识并不足以让人们使用语言,此试题忽略了其他语言技能,因而可以说其效度是较低的。

根据项目分析得到试题难度和区分度来看(见表5),这份试题中等难度、容易、非常容易的题目数量达85道,占题目总数的85%,超过了标准分布率80%,特别是容易的题目多达45题,占题目总数的45%,远超过了标准分布率15%,说明这份试题倾向于容易。此外,符合要求(区分度≥0.3)的题目仅为73道,不合格题目有27道,占题目总数的27%,远超过了5%的标准。在27道不合格题目中,听力题有3道,阅读题有3道,词汇语法题有19道,完形填空题有2道(见表3),这些题目需要修改或者直接淘汰。

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

经过分析总结出需要修改的题目存在的问题,具体如下:第一,有些题目难度不够,区分度低,无法有效反映学生掌握的语言知识和技能的程度,从而无法区分不同语言水平的学生。题46“46.We went to the airport to ?摇?摇?摇?摇 a friend who was leaving for New York.A) see off C) come across B) take over D) look up”就存在这样的问题。第二,问题出在答案项上。有的题目出现两个选项是正确答案,而有的题目却没有一个选项是正确答案。这类题如题49,56,68等。“49.The school team has won five ?摇?摇?摇?摇 games.A) running C) successive B) continuous D) uninterrupted”“68.Few came to the classroom than I ?摇?摇?摇?摇.A) expect C) have expected B) was expecting D) expected”。第三,问题出在干扰项上。有些题目的干扰项干扰作用太强,以致太多考生选错。题14,51,60,63存在这样的问题。

4.结语

通过对试题进行分析可以得出以下结论:1)从测试分数上看,分数没有呈正态分布,信度指标值没有达到理想值,因此试题的信度不高。2)试题没能测试学生多方面的语言能力,考察面较窄,因此效度不高。3)试题难、中、易题目搭配不合理,容易题目偏多,需要修改和淘汰的题目过多,以致试题区分度不高。

本文只是对试卷进行了统计性的分析,因而有一定的局限性,仍然需要从其他方面对试卷进行全面分析来论证上述结论,但是,从本次分析所反映出来的问题是值得试题命题者思考的。客观选择题考卷的设计者,在完成试卷的设计后应进行试测,试测完后进行题目分析,然后审改,审改之后再用于正式考试。同时,应从每道题的三个质量指标:答对率、难易度和区分度,以及每道题目的每个选择项的三个质量指标:人数、平均分、区分度来判断每道题的总质量指标,[2]220从而满足信度和效度的基本要求,这样才能有效、可信地评价学生的语言能力。

参考文献:

[1]李莜菊.语言测试科学与艺术[M].长沙:湖南教育出版社,2001.

[2]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,1997.

[3]Oller,J.Language Tests at School:A Pragmatic Approach[M].London:Longman Ltd.,1979.

[4]葛福东.语言测试的信度、效度与题型关系的研究[J].内蒙古农业大学学报(社会科学版),2006,(4).

数学考试分析总结篇6

1．内容结构分析：基本概念和化学原理、元素化合物知识、有机化学知识、化学计算、化学实验等方面的内容比例乃至每一方面的二级结构分析。

2．目标水平结构分析：按照考试大纲所列水平（通常分为知道、理解、应用、综合运用等）种类，分析它们的组成比例并且作内容—水平双向交叉分析。

3．题型结构分析：各类题型的比例分析。

4．分数结构分析：内容—分数和水平—分数的双向交叉分析。

5．难度和时限结构分析：对难度测验作难度分布描述，对速度测验作时限分布描述。

6．试卷特点及横向、纵向比较：就试卷是否符合考试（教学）大纲规定、是否反映化学学科特点和内在联系、符合学生实际水平、合理性、适宜性以及其他特点作出描述和判断。横向比较可以在学校—学校或地区—地区间进行，纵向比较可以在不同学年间进行。

进行结构分析时，分析者要对测验各项目逐一分析和作出判断，因而结构分析带有较强的主观色彩。分析者对项目的判断跟编制、设计者不一致的情况经常会发生，对于比较复杂的综合题尤其是这样。为此可以把试卷结构分析结果跟编制试卷的结构设计进行比较。

除了难度结构分析跟答卷情况有关，只有在考试实施之后才能进行外，其他各项分析跟答卷情况无关，在考试实施之前就可以进行，属于试卷的“静态”分析。

二、答卷情况描述

主要包括：

1．成绩分布情况描述：列出频数分布表或频数分布图。

2．统计量描述：列出平均分、标准差、优分率和低分率以及某些因素间的相关系数等数据，还可以进一步作各内容跟其平均得分率、标准差、优分率和低分率的双向交叉分析，各水平层次跟其平均得分率、标准差、优分率和低分率的双向交叉分析，以便从中发现问题。

3．分布形态判断：判断总体分布是正态还是偏态或其它形态。

4．由样本统计量推测总体参数（总体平均成绩、总体标准差等）。

三、试题及解答情况分析

1．题目的内容、水平分析：逐一分析各题的内容、水平和考核意图。

2．题目的难度、区分度、灵敏度、识别度和题目反应分布：具体方法参见文后所附题目分析部分。

四、试卷质量分析

1．试卷的信度分析和效度分析。参见文后所附“试卷的信度分析和效度分析。”

2．整卷难度分析。

3．试卷质量评价：就考试目的和试卷内容、结构、形式的合理性、适宜性、有效性和可行性等对试卷作出全面评价。

五、教学分析和教学建议

从得分、失分情况以及某些部分之间的比较、分析，发现教师、学生以及命题等方面的成功与不足之处，并针对存在问题提出改进意见。

为了使试卷分析全面、可靠和有效地发挥应有作用，试卷分析工作应实行教师分析和学生自我分析结合、“动态”分析和“静态”分析结合、定性分析和定量分析结合，在认真分析的基础上，简明、扼要、有重点地写出试卷分析报告。

附：题目和试卷的统计分析方法

一、常模参照性测验的题目分析

常模参照性测验题目的分析工作，主要是对测验结果进行统计分析，估计题目的难度、区分度，分析答案是否适宜等。

1．难度分析

所谓题目难度是指某一题目的难易程度，通常用答对率P来表示。

一般说来，题目的P值以0.2～0.8为宜。也有人用不通过率Q来表示难度。它们的计算方法如下表所示：

*X高为高分组的该题得分总和，X低为低分组的该题得分总和，H、L分别为该题的最高、最低得分。

P值无等距性，无法对试题之间的难度差异作精确的比较，也不能用于计算平均难度。为了对各题难度作比较，通常要把P转换成标准难度，使之等距化。

值越大，题目难度越大；=13时，题目难度为中等。

运用下表可以方便地由P值直接查得对应的值：

2．区分度分析

题目区分度是指某一题目对被测水平的区分能力。若某题目能使水平较高的被测得较高分、使水平较低的被测得较低分，该题就有较高的区分度。

区分度分析可以采用极端分组法，或者采用相关法。相关法比较复杂，这里从略，不作介绍。在极端分组法中，从总体中分出高分组和低分组（比例均为25％～33％且数值相同），然后计算区分指数D作为区分度的指标，如下表所示：

除了计算方法以外，还可以采用弗拉南根查表法：根据占总人数27%的高分组的答对率和占总体人数27％的低分组的答对率，从专门的表（附表5）中查得题目的区分度。

一般说来，当D＜0.20时，题目的区分度太低，必须淘汰或者加以修改；当D≥0.40时，题目的区分度非常好；通常题目的区分度指数D在0.2～0.4之间。题目难度跟题目区分度之间有着一定的联系。难度太大或者太小，都可能使区分度变小；只有难度适中时，才可能有较高的区分度。

3．题目反应分布分析

对于多重选择题等可能有多种答题情况（题目反应）的题型来说，仅仅作难度分析和区分度分析是不够的，还需要分析题目反应分布情况，检查它是否跟预期的反应分布模式符合，从而发现需要修改之处。题目的难度和区分度也可以从反应分布中得到反映。进行题目反应分布分析，先要制作题目反应分布表。下面是该表的示例，表中还列出了有关的分析和判断：

*为答对人数

二、目标参照性测验的题目分析

目标参照性测验题目试测后的分析工作主要是作灵敏度分析和识别度分析，有时也要作题目反应分布分析。

1.灵敏度分析所谓灵敏度是指题目能灵敏地反映教学作用的能力，通常用目标教学前后被测总体的通过率之差来估计。

设目标教学前、后通过试题的被测人数分别为R1、R2，被测总体人数为N，则试题对教学的灵敏度指数S可按下式计算：

当S＞0时，试题有效，S越大，试题对教学作用的感受越灵敏；当S≤0时，需要研究是否由教学不当而引起，如非教学不当引起，则可认为试题质量不佳。

2.识别度分析

题目识别度是指某试题能有效地识别达标者的能力，通常用合格者通过本题的百分比跟不合格者通过本题的百分比之差来估计。

设P1和P2分别为合格者和不合格者的本题通过率，则

识别度指标D=P1-P2

识别度指标的最大值为1.0，当D≤0时，该题无预期的识别能力。

题目识别度还可以用被测是否合格跟是否通过本题的φ相关系数来表示。设题目在总人数为N的被测总体中的试测结果如下表所示：

所得φ相关系数需进行检验，方法是：按下式算出φx2

x2=Nφ2

的，其犯错误可能性为0.05。

3．题目反应分布分析

目标参照性测验的题目反应分布分析方法跟常模参照性测验的分析方法相似。通过分析不但可以发现题目中存在的问题，还可以了解被测的错误类型及其分布，具有学习诊断作用。

三、试卷的信度分析

信度表示测量的一致性、稳定性和测量结果的可靠性。测量时的随机误差越小，测量结果就越接近真实值，其信度就越高；样本统计量越是接近总体参数，其信度也越高。

信度常用信度系数rxx表示，其值在0～1之间。若rxx=0，表明实得分数完全由偶然误差决定；若rxx=1，表明实得分数完全不受偶然误差的影响。一般说来，化学学业成绩测验的信度应在0.90以上，甚至达到0.95。

由于Sr和SR难于直接测得，所以rxx通常借助于某些特别方法进行计算。

（一）常模参照测验信度的计算

常模参照测验的信度系数可以用再测法、等价测验法和两半法等方法求得，所得信度系数意义略有不同，分别表示测量的再测稳定性、等价测量稳定性和内在一致性，故又分别称为稳定性系数、等价性系数和内部一致性系数。在化学教学测量中，常用下列方法计算内部一致性系数。

1．两半法，即在一次施测后，把试题分为对等、可比的两半，其内容、预测难度、总分和题数都大致相同；计分时把各被测的两半实得总分分开统计，计算两半间的积差相关系数；

式中，x、y分别为某被测实得的两半总分，N为被测总数。

再将rhh代入下式校正，即可得整卷的信度系数rxx。

采用这一校正公式时，两半的平均数、标准差、项目的组间相关、分布的形态和内容都应相近。否则，整个测验的信度估计rxx将有误差。此时可改用下式计算rxx：

式中，Sa、Sb分别为两半分数的标准差，St为整个测验总分方差，Sd为两半分数之差的标准差。

2．克龙巴赫法

方差。

影响测验信度的因素主要有：

（1）测验长度：测验越长，题量越大，信度越高。

（2）试题难度：当各题难度和平均难度为中等（P=0.25～0.75）时，有利于提高测验的信度。

（3）样本（或总体）大小：样本（或总体）越大，分数分布越广，信度越高。

（4）测验内容的复杂性：测验内容同质性高，信度也高；反之，内容越庞杂，信度就越低。

（5）施测条件的标准化，有利于减小随机误差的影响。

（6）评分的客观性。

（二）目标参照测验信度的计算

复本法：以等价的两份测验对同一被测群体施测，设测验结果的分布情况如下表所示：

四、试卷的效度分析

效度表示测量跟测量目的符合的程度，是测量准确性和有效性的指标。跟测验目的无关的因素影响越小，测验的有效性即效度就越高。

（一）常模参照测验的效标关联效度

在确定常模参照测验的效度时，通常以另一比较符合测量目的的测量结果作为检测效度的参照标准（即效标）。设被测总数为N，x和y分别为被测i的本次测得成绩和效标成绩，则

若已将成绩转换成Z标准分，则

rxy＞0时，说明两者相关（正相关），rxy值越大相关程度也越大；rxy=1时表示测量完全反映测量的目的；rxy=0时，表明两组分数完全不相关（零相关）测量结果跟测量目的无关；rxy＜0时为负相关，表明一测量得分高者另一测量得分低，测量结果跟测量目的完全相反。一般情况下，化学学业成绩测验的效度应在0.4～0.7之间

系统误差和随机误差跟实得分数方差比值的大小影响着效度的高低，要提高效度，就必须：

（1）提高测验的信度，减小随机误差的影响。

（2）施测标准化、评分标准化、采用适宜的分数合成方法，减少与测验的目的无关的因素，尽量降低系统误差的影响。题文难于理解、数学计算过于复杂等，均会降低测验的效度。

（3）提高命题质量。试题太少、偏、怪，覆盖面小、编排不当、过难过易等，都会影响效度。

（4）增大样本容量、使之具有较好的代表性。

（5）选择可靠（信度高）、符合测量目的的测验作效标。

效度系数也可以视具体情况改用二列相关系数或者点二列相关系数、φ相关系数等来表示。

（二）目标参照测验的效度

目标参照测验要求测量结果的变异最好为零，故不能用变异量来表示其效度。此时，可以通过内容适宜性来确定其效度。

五、试卷难度分析

数学考试分析总结篇7

定量分析是多年来自学考试试卷质量评估方面的难点。因为样本采集的难度、统计分析方法的局限以及需求不明显等原因，定量分析一般只是限于研究和探讨层次，没有更广泛地展开。适合于自学考试的统计分析方法是多年来探讨的重点，自学考试的特殊性决定了选择理论方法的特殊性。选择哪种分析方法不仅要参照教育统计与测量专家的建议，更需要工作人员结合工作需要。既要科学、合理，又必须具备可解释和可操作性。下面结合《高等数学（专）》的统计结果来探讨统计分析方法的差异：

1.难度

3.项目性能和测验信息量

定性分析缺乏项目性能和测验信息量分析，经典测量理论不能揭示测验所含有的各个项目的性能与质量，也不能揭示整个测验的性能和质量的关系，所以采用Logistic的单参数和双参数模型进行评价。

以上统计分析可见，定性分析和定量分析的结论后差异比较大（定性分析表仅由阅卷组长填写），定量分析采取不同的方法、选择不同的分析项目也有不同的评价意见。项目反映理论的Logistic单参数模型是以难度为参数的模型，双参数模型是以难度、区分度为参数，单参数和双参数模型是独立于被试特质水平的，其测验总分都是充分的统计量，这是两者的优点。单参数模型更加突出（但当实测资料跟模型拟合良度不好时，优点突出不出来）。因为区分度不是自学考试测量的必要信息量，将区分度作为重要的信息量参数，不是十分适宜，相比较之下Logistic的单参数模型更具优势，更契合自学考试的性质特点。因此，可以采取项目反映理论的单参数模型作为自学考试试卷定量分析方法，其次参考经典理论的分析结果（经典理论的结果比较直观和形象），也可以从双参数模型中把握较为细微处的差别，从而得到比较全面、比较客观的定量分析结果。

二、定性分析

教育理论认为，定性分析就是从性质上进行探讨。对于试卷的定性分析，多是对试卷的总体评述和对试题性质等方面的评价。填写定性分析评估表是目前采用的较为普遍的定性分析方法。因为定性评估表的填表人的主观因素所起的作用非常大，同一份试卷由不同的人评价，结论差异很大，所以定性分析必须是多方参评。主命题教师（或审题教师）、阅卷组长、助学老师以及考生四方面的意见集合的定性分析才能定为本试卷的定性结论，缺乏任何一个方面，定性分析都缺乏科学性。

比较适合的操作方式是：试卷命制结束，由主命题教师（或审题教师）预估试题和试卷的各项指标，填写定性评估表。考试结束后将同样的定性评估表随试卷发放给阅卷组长，阅卷组长在阅卷结束后将定性评估表填好上交。在此期间组织助学教师和考生对试卷进行评价。意见收集后由命题管理人员总结分析形成该课程的定性评估报告。

目前使用的定性分析表过于拘泥于某些指标的量化往往影响了教师对试卷客观公正的评价，诸如难易度指标的评定，参与评估的老师主观性因素非常大，即使结合阅卷情况，尺度也有失公允。与其收集参考意义不大的数据，倒不如放弃指标数据的主观评估，把重点转移到对试卷的非量化的因素的评价上，即用描述性语言对试卷的质量进行评价，增加可操作性。

三、反馈

教育统计分析和评价的结果必须反馈到考试的实践中才能起到作用。在反馈前必须进行全面分析。单纯的定性分析和定量分析都缺乏解释的合理性，只有将二者结合起来才是相对科学的评估。从质量评估指标体系可以看出，测量和评价各有所长，应突出二者的特点，避免相同指标的重复，适当的交叉可以保留作为分析效度的参考，如定量分析是用数据来说话的，在定性分析中不必保留诸如难度的比例和数据，但可以有描述性的推断。而对能力层次、覆盖面等方面的评价在定量分析中又无法实现，所以一份成功的课程试卷分析报告必须综合定性分析和定量分析，才能得出较为全面和科学的结论。同时也汇总一些其他信息，诸如全国其他省市的定性分析情况、考试时掌握的考场反馈情况、阅卷结束后获取的本市全部考生的及格率、各分数段统计等信息。

命题管理人员根据分析的情况和掌握的信息形成书面的课程试卷分析报告，然后反馈到命题教师，组织命题教师认真研究、分析，利用各种信息和相关考试数据，重新评价试题的各种指标，并在此基础上对题库（卷库）里试题的各项指标进行调整和修改，使之更加科学准确，以改进完善命题工作。

数学考试分析总结篇8

一、引言

近年来，大学英语教学的质量备受关注。学生的英语水平不一，差别较大，一直以来是很多人比较苦恼的问题。根据《大学英语课程教学要求》提出的“分类指导、因材施教”原则，很多大学纷纷根据学生的英语水平实行分层教学。然而在分级试题质量方面的研究寥寥无几，本文以上海理工大学2012年大学英语分级考试试卷为例，对大学英语入学分级考试的试卷质量进行量化分析，旨在对试卷进行客观、准确、定量的分析和评价，使考试能更有效地检验学生的学习水平，使分级更加科学合理，为建立分级试题库做铺垫。

二、研究基础

就分级考试研究现状来说，国外针对英语作为外语或第二语言学习者（EFL，ESL）的分级考试的研究起步较早，硕果累累。Wall 等人（1994）研究了用于判断学术英语环境中受试语言能力弱点的大学英语分班考试并指出效度研究中较大的难题就是进行同期效度检验。也有学者（Fulcher 1997）对英语分级考试信度和效度进行了校验。除此之外，还有学者（如Green & Weir）基于项目反应理论和因子分析法，研究了英语分级考试，并质疑了语法测试对教学的反拨作用。国内学者对分级考试的研究起步较晚，而且研究方法主要以理论综述和试卷结构描述分析为主（如：王瑞，2006；彭家海，2007；刘立，2009），并没有对分级考试试题的质量进行定量化分析。

三、结果与讨论

（一）描述性统计

通过数据统计，试卷的平均分为39.6092，说明整体得分较低；标准差为18.63556，说明分级试卷分数上下分值波动非常大。另外，倾斜度为0.065，大于0，呈正偏态，这个数值表明很多分数都低于平均值，因此分级试卷难度较大。除此之外，峰值为-1.256，小于0，说明曲线比较平坦，从另一角度说明分数上下差异很大，符合分级考试的目的，挑选优差生，可以根据考生的实际英语水平把他们编入不同班级学习。由于倾斜度和峰值在-2至+2之间，表明本次分级考试分数呈正态分布，可以进行下一步数据分析。

（二）信度分析

信度是对整个测量优劣的评价指标，它揭示测量值与真值的相差程度，反映样本与总体的接近程度，从理论上讲，信度越高，测量结果越可信。Lado（1961）认为，若一个测试既包括主观题又包括客观题，它的信度系数应高于0.7。根据SPSS信度检验，该试卷信度系数（Cronbach ）为0.825，表明该试卷得分可信。

（三）效度分析

效度（胡中锋，李方，2000）指测量结果的准确性和有效性的程度，亦即测量是否达到预期的目的。效度的估计有多种方法，常分为三大类：内容效度、效标关联效度和构念效度。由于本论文是关于分级考试试题的定量分析，笔者重点分析了构念效度。

1.各部分之间的相关

Alderson等（1995）认为，测试中之所以设计不同项目是因为他们能够考核不同的能力，因此我们预期的相关也比较低，可能在0.3-0.5之间。从数据分析看出，听力、写作、阅读理解、词汇、完型、阅读和试卷总体的相关度分别是0.935、0.750、0.687、0.874、0.842 和0.860（在0.01水平上相关）。除了完型和听力、翻译与听力、完型与翻译的相关度在0.7左右之外，试题其他各个部分的相关度均在0.5左右（在0.01水平上相关），在合理的范围内。因此，此次分级测试的效度整体上是可以保证的。

2.各部分与总分相关

通过数据分析可知，每一部分与总分的相关都在0.01水平上显著。“根据经典测量理论，子项目与总分的相关可能被期望达到0.7或者更高，因为总分是对语言能力的综合测量”（Alderson等， 1995：184）。根据这个标准，每一部分与总分的相关度都符合理论要求，其中听力与总体相关度最高，高达（0.934）。

3.难度与区分度分析

难度是指试题的难易程度，试题的难度决定了整份试卷的难度及考试分数的分布。在常模考试中，大多数试题的难度应控制在0.3～ 0.7 之间（胡中锋，李方，2000）。区分度指测验对考生实际水平的区分程度，用D表示（胡中锋，李方，2000）。如果试题的区分度高，他就能科学地反映学生的水平。难度与区分度是衡量试卷质量的两个重要指标。难度数值越大，分级试卷试题就越容易；然而区分度系数越高，分级试题质量就越好。数据显示每个部分的难度都在0.3和0.5之间，且试卷整体的难度是0.4。对于难度而言，理想的范围是在0.3和0.7之间（Brown， 2006）。据数据分析，听力部分的难度最小，也就是说在试卷的所有题型中难度最大。因此我们推断这次分级考试试题难度略为偏大。根据区分度系数值，除了词汇略低，其他部分的区分度基本达到0.4的理论要求（Alderson等，1995）。并且听力、阅读和构词部分的区分度都在0.55附近；完型和翻译部分的区分度甚至更高，分别是0.83和0.64。区分度系数这一数据可以从一定程度上显示一个项目从总体上区分出优差生（Brown，2006）。一般而言，区分度的理想范围应该高于0.35（越高越好）。因此，我们可以得出此次分级考试试卷质量很高，能够区分不同水平的学生。

四、结论

本研究以上海理工大学2012年试卷为例，对大学英语分级考试进行了量化分析。研究结果表明，该试卷在信度、效度、难度和区分度四个方面都基本达到理论要求。但在该试卷的开发和设计中也存在一定的问题。例如：从分级试题的难度与区分度分析得出，虽然试题的总体质量很高，有些题目尚需改进；完形填空与翻译的相关度超出了0.3～0.5的理想范围，在完形填空和翻译试题项目的设计上可能存在问题。

受限于研究条件，本文只分析了上海理工大学2012年大学英语入学分级考试的一部分受试样本。虽在一定程度上体现该试卷的总体质量，但是鉴于分级考试是大学英语分级教学实施的重要基础，对教学产生巨大的反拨作用，笔者将在未来研究中扩大研究样本，并进行历时研究，以对该项考试进一步修正，提出更全面的建议。

参考文献

[1] Fulcher，Glenn.An English language placement test：issues in

reliability and validity[J].Language Testing，1997（14）：113-139.

[2] Lado，Robert.Language Testing：The Construction and Use of

Foreign Language Tests―A Teacher’s Book[M].London：Lo-

ngman，1961.

[3] Lee，Y.&Greene，J.The Predictive Validity of an ESL Place-

ment Test：A Mixed Methods Approach[J].Mixed Methods Re-

数学考试分析总结篇9

1引言

考试是遴选人才的重要手段，也是教育评估中不可缺少的重要评价环节，既要考察出考生掌握知识的程度，区分出各种层次的学生，又要反映出学生的真实水平。因此，每次出题考试都应非常慎重，特别是高考、研究生招生考试和公务员考试等国考，更是关系到国家的利益，关系到考生一生的命运，尤为重要。所以，我们有必要对每次考试的试题、试卷进行综合分析，得出哪些试题适合作为考题，放入试题库中；对不太适合作为考题的试题进行舍弃或修改，提高考试试题的质量，通过不断的积累，建立完善的试题库系统。

试题、试卷的评价体系主要分为难度、区分度、信度和效度分析[1]。通过对试题、试卷这四方面的分析来判断出试题、试卷质量的好坏。为客观评价考生和遴选各种人才提供准确的参考。

1.1难度

难度为试题的难易程度，是考生应试水平和试题深度相对而言的。用以计算的公式为：

式中：为难度值；为该试题的满分值；为该题得分的平均值。

由此可知，若，则表示无一人得分，该题极难；若，则表示每个人都答对，该题极易。这两种情况对区分度来说都没有意义的。对于一般性教学试题，难度应控制在0.3～0.4之间。

1.2区分度

区分度为试题对每位考生水平的鉴别能力。若某试题能将不同水平学生的成绩区分开来，则表示该题的区分度高；反之，若某试题考生都能答对或无一答对，则无区分度可言。常见的区分度算法为：将考生的该题成绩从高到低排列，各取总人数27%的学生分成高分组和低分组，将高分组的总得分减去低分组的总分，除以各组的人数与该题的满分值的乘积，则区分度表示为：

式中：值越大表示该题区分度越高，最大值为1，表示高分组的所有同学答该题全对，低分组则全错；则说明该题没有区分能力；一般认为区分度为很好；0.3～0.4是良好，0.2～0.3为合格，

1.3信度

信度为考查考试结果是否稳定和可靠的一种指标，反应学生成绩的一致性，表明一次考试反映学生真实水平的程度。一份信度较高的试卷，在大致相同的班级进行测试，所得成绩应基本一致。成绩中偶然因素少，可靠性较大。若两次考试成绩差异很大，则说明信度低。

常采用的算法为半分法。即把某次考试的考生分成奇、偶两部分，并看作为水平相同的两次考试，按下式计算两次考试的相关系数：

式中：—学号为奇数的第位学生的成绩；—学号为奇数的学生的总平均成绩；

—学号为偶数的第位学生的成绩；—学号为偶数的学生的总平均成绩。

当时，则表示奇、偶两部分学生所得总成绩相当，考试结果与学生的实际水平没有任何误差，考分是稳定可靠的；若，则表示该题根本不能反映学生实际水平，分数毫无意义；若和时，表示试卷信度好。一般信度应高于0.5或低于-0.5。

1.4效度

效度指试卷结果能否正确地、有效地反映学生真实水平，它是教育评估中的一个难点。教育学专家的观点也各不同，目前常用的效度指标为试卷平均区分度的值。效度为：

式中：为效度，一般效度应大于0.2；为试题个数；

为第题的区分度。

以上四个指标虽然从单方面量化了试题与试卷质量，但他们是相互联系的。通过几个指标的综合分析才能正确、全面评价试题与试卷质量。

2 试题、试卷评估分析软件

软件的界面最顶部为菜单栏；左边灰色区域为显示数据界面；右边为操作界面。

具体操作步骤如下：

2.1将考生的学号、每个题所得分数和总成绩依次输入文本文档中。

2.2从菜单栏文件中打开文本文档。

2.3在界面右侧输入试卷名称、考试题数、命题人、考试人数、考试日期、试题满分值和每个题的满分值。

2.4点击信度按钮可得到信度值；点击效度按钮可得效度值；本题难度值里，首先选择题目数，再点击本题难度值按钮可得该题难度值；同理，本题区分度里，先选择题目数，再点击按钮可得该题区分度值；点击总平均分按钮可得总平均分。

2.5依次点击对比列表、分数统计表、成绩排序、分数段统计、区分度图示和难度图示按钮，数据或图形会依次显示在界面左侧的灰色区域。

2.6打开菜单文件，可逐一保存分析结果、成绩排序、分数统计图、区分度图示和难度图示。

3实例分析

我们应用该试题、试卷评估分析软件对我校机械专业2010-2011第二学期的理论力学课程考试情况进行了评估分析，分析结果见试题、试卷分析软件主界面图1，各试题的难度、区分度对比列表见图2，难度、区分度柱状图见图3、图4，各分数段的统计分析见图5。

通过以上图表分析可以得出，该套试卷这次考试信度：-0.25138212，信度较低；效度：0.61214290，效度较好；平均分：66.92208000。从图2、图3和图4中得出第一题的难度系数太小（为0.0941558441558441），区分度一般（为0.3625），区分不出各层次的学生。应将其完善和修改，同时教师应从考试中找到学生对知识掌握中存在的问题，改进自己的教学。

4 结论

通过对试题、试卷的评估分析，可改进考题、考卷的质量，提高试卷的可信度和效度。为教育教学评估向着正确性和准确性发展提供了改进办法，为命题、考试提供了重要的参考。

数学考试分析总结篇10

试卷作为考试的一个重要载体，是测评学生学习成绩的工具，是教学质量检验的重要手段，因而教学质量评估管理中越来越重视试卷分析，试卷质量的分析结果客观地向教与学双方提供了反馈信息，进而实现评价教育目的的实现、教学效果的好坏等一系列质量要素，今后，应该成为教学工作中重要的常规环节之一。

1SPSS软件简介

SPSS软件是StatisticalPackagefortheSocialsciences英文名称的首字母缩写，即“社会科学统计软件包”，它是目前世界上常用的三大统计分析软件（SAS、SPSS及SYSTAT）之一，是世界上最早采用图形菜单驱动界面的统计软件，其界面友好、功能强大和操作简便，能方便地从其他数据库中读入数据。

SPSS是一款功能强大的教育统计软件，既可以进行基本数据的统计分析，还可以进行各种推断和检验统计。

2试卷质量分析应用实例

下面数据以安徽大学公共基础课程—《程序设计基础VB》的期末考试成绩为样本，利用SPSS软件分析说明考试质量分析的模式和各项指标。

2.1试卷基本结构

本试卷（满分100分），由两部分组成：客观性试题与主观性试题，其中客观性试题共A分，占X%，主观性试题共B分，占Y%。具体情况见表1。

填写试卷基本结构可以发现，题量尚可，试卷题型不够丰富，填空题可以细化为一般填空和程序计算填空，客观性试题一般强调知识点考察，常见类型为：单项选择题、多项选择题、判断题和简单填空题，而主观性试题则根据学科的不同，一般设有复杂填空题、简答题、问答题、论述题和计算题等题型。

2.2考试分析指标的定量分析

2.2.1成绩数据的录入与处理

1）定义变量并输入数据

这是直接方法。启动SPSS软件后会启动Statistics数据编辑器界面，通过單击VariableView标签进人变量名编辑窗口，在Name（名称）下注明学号、姓名、各题型、总分、平时成绩和班级代码。其中，各题型、总分、平时成绩和班级代码均设置为：Numeric（数值）类型，Decimals（小数点长度）定义为0，其余各项使用默认。

第二步，选择数据视图，开始输入数据：从第一行第一列起直接输入相关数据，这样，每行输入一个学生的记录，各列输入数据为一个某种题型的成绩，最后一列是班级代码等。

最后保存扩展名为sav格式的数据文件。

2）直接导人外部数据，更改数据类型

为了更好地对数据进行共享，SPSS还可以快速打开和编辑其他格式的文件，可直接导入操作的数据文件包括：MicrosoftExcel文件（*.xls）、SAS、dBase、Stata等格式。

具体的操作步骤为：依次单击FileOpenData，此时要在文件类型下拉菜单中选择AllFiles，在出现的全部文件列表中找到关联文件双击，在弹出对话框内选中其中的Read复选框（此项设置为把表格中的第一行作为变量名导人，否则第一行将作为数据导入），单击OK按钮后会打开DataEditor界面，就能显示出刚才导人的Excel文件内容。随后，也可依次单击FileOpenSave（Saveas），将当前数据存为其他格式的文件，比如sav格式，方便下次使用。

本文实例数据先对考试系统自动生成的xls文件格式进行数据导入，然后对变量属性作了适当修改，如图1、2所示。

2.2.2成绩统计的基本描述性分析指标

成绩统计分析的基本描述性指标主要有：学生总数、实考人数、最高分、最低分、各等级的人数分布及百分比、均值与标准差、成绩分布图等，相应的描述性统计量包括最小值（Mini-mllm）、最大值（Maximum）、频数（Frequency）、均值（Mean）、标准差（Std.）、偏度（Skewness）和峰度（Kurtosis）等。这些指标均要求按班级对试卷成绩及总评成绩进行分析。其中，均值用来描述数据集中趋势，标准差强调数据的变异性，即数据的差异量数，进而反映数据全貌。而对称、偏斜及分布陡缓程度等数据分布的结构形态及特征则由频数、偏度和峰度用来描述。

1）卷面成绩的集中和离散数据统计

打开录入后的数据表，依次单击AnalyzeDescriptiveSta-tisticsFrequencies，出现频数对话框，导入要建立频数分布表和直方图的项目，同时选上Minimum、Maximum、Mean、Std.devi-ation、Skewness和Kurtosis等参数，得到表1。

依次单击菜单AnalyzeDescriptiveStatisficsFre-quenciesChartsHisto-gramsWithnormalcurve，显示出分数段分布图和直方图。直方图如图3所示。

一般而言，学生成绩标准差在满分的5%-10%以内属于正常。从图表中得到的统计值可以发现：①本次考试的两个班的离散程度均较大，表明学生成绩离散度太大，可能是试题的问题，也有可能是学生水平的两极分化比较严重；②学生成绩基本呈正态分布；③考生总分偏度值为-0.138和-0.648，依据偏度在数据分析中的意义，本次测试数据显示：考生所得总分相对集中于平均分左侧，即大部分考生成绩小于平均分值；④在峰度的计算中，计算结果σ<0，可知在学生成绩的正态分布图有比正态分布更长的尾部，不过盯为较小负值说明，考生成绩在平均分附近的集中度虽低于标准正态曲线，但也差别不大；⑤标准差1≥10，差异较大。但是结合对总分的直方图的观察，可以发现：低分段考生的成绩与平均分的差距较大，这是造成即使大多数考生的总分集中于平均分附近，最后标准差数值仍较大的主要原因。

2）难度指标分析P

对于课程考试来讲，保持合适难度是保证试卷质量的前提。

观测得出：总试题难度大概在0.6-0.8之间，难度值中等偏低，试题适中，相对较难。

3）区分度指标分析D

区分度（Discrimination）是指测验题目对学业水平不同的学生的区分程度或鉴别能力。区分度作为评价试题质量、筛选试题的主要指标与依据，是测验是否有效的“指示器”。该指标对于选拔性考试如高考，竞赛尤为重要。具有良好区分度的测验，实际水平高的被试应得高分，水平低的被试应得低分。区分度与难度有一定关系。

在工具软件环境下，我们一般求出总分与每个试题得分间的积差相关系数作为试题的区分度，可以采用皮尔逊（Pearson）相关分析来对试题进行分析，步骤为：AnalyzeCorrelateBi-variate，在弹出的BivariateCorrelations对话框中选择各种题型和总分进人Variables，然后在CorrelationCoefficients中点击Spearman，完成后得到了各个题目的区分度。如表5所示：

从表中数据看出，由于三种题型的Sig.（2-tailed）：p=0.000<α=0.01，相关系数值达到了0.01显著性水平，表示试题的区分功能显著。

4）信度指标分析

信度（Reliabilitv）用来反映考生稳定水平可靠性，即测验能否真实反映学生水平程度的数量化指标，是测验的必要条件。常用的有重测信度、复本信度、同质性信度、荷伊特信度和评分者信度等。

因为影响测验水平的因素有很多，导致信度的计算方法也不同，实际使用何种信度要依据考试目的和性质而定，从而选择其中一种或几种。

由于高等教育测验中绝大多数混合了客观题和主观题，所以SPSS软件中一般采用克隆巴赫（Cronbach）α系数计算信度，取值0.5左右即可达标。这种计算方法是由Cronbach于1951年提出的，不要求測验题目必须是记分型也能计算任何测验的内部一致性系数。

在工具软件环境下，依次运行：AnalysisScaleReli-abilityAnalysis，出现对话框，从中选择所有题型和总分，在Items框的Model项目中单击选择Alpha模型，并选中Scaleifitemdeleted复选框，计算出该试卷的信度系数Alpha=0.757。如表6所示：

通常Cronbach仅系数的值在0和l之间。如果Alpha系数不超过0.6，一般认为内部一致信度不足；达到0.7-0.8时表示量表具有相当的信度，达0.8-0.9时说明量表信度非常好。对上机测试来说，信度Alpha=0.757相对信度较高；一般来说，增加试题的数量；保持所有试题的难度接近正态分布；努力提高试题的区分度；严格监考和按评分标准给分均可以提高信度。

5）效度分析

效度（Validity）是指试卷准确地测量了考试目的的欲测内容的多少，多大程度上效检了所要测定的功能或达到其测量目的。

具体地讲，就是覆盖面和权重在教学大纲范围内的完成情况，体现考试能力水平和反映教学大纲完成的情况有效程度。

公认的效度分类方法是将效度分为内容效度、结构效度、构想效度和效标关联效度。确定使用何种效度要根据测验目的而定。常用的效度检验方法是：效标关联效度法，这种方法首先是寻求一种可靠的效标，然后求出测试结果与效标的相关系数，该相关系数则为效标关联效度。

在工具软件环境下，依次单击：AnalyzeCorrelateBi-variate，选择总分和平时成绩字段，随后在相关系数（Correla-tionCoefficients）中选择Pearson，计算数据如表7所示。

2.3试卷质量控制的定性综合分析

1）结合统计数据，进行定性评价

对试卷质量分析时的定性评价应有如下几个方面内容：一是题量和题型；二是试卷语言的表述是否明确和准确（如参考答案是否正确，试卷内容是否有重复或是对后继题目有提示等，专有名词表述是否准确，选择答案设计是否均衡、排列是否科学，）；三是试卷内容的难易度；四是试卷的内容效度—覆盖面问题；五是教学重点的突出程度。

2）结合教学实践，进行教学反思

建立一个长久稳定的指标体系。通过长期分析这些指标，可以更好地客观地指导我们的教学改革。

数学考试分析总结篇11

试卷分析的读者可以是教学管理部门、相关的教育工作者、将来可能参加此类考试的考生等。

（二）试卷分析的特点

1.评估性

试卷分析的作者要对自己所评的试卷作出基本的评价，是成功还是失败，成功了有哪些地方值得发扬，失败了有哪些地方需要改进，都要做出认定。

2.分析性

对试卷的评估是建立在分析的基础之上的，要针对试卷中的一些具体形式和内容进行分析，进而得出科学的结论，要避免仅凭印象主观臆断。

3.探讨性

试卷分析中的分析意见和评价意见，未必一定是权威的定论。参加命题者、参加评卷者、参加考试者，甚至什么也没参加的旁观者，都有写试卷分析的权力。大家所发表的意见，很可能并不一致。但这些意见总会有一些启发性价值，可用于参考。当然，优秀的见解也可能影响下一步的命题的决策。

（三）试卷分析的类型

1.总结性试卷分析

这种试卷分析是写给教育管理部门、教育工作者、相关教师看的，主要功能是总结经验，以利于将来的教学工作，提高以后的命卷水平。

2.指导性试卷分析

这种试卷分析是写给以后要参加此类考试的考生们看的。譬如每年高考之后，都有名师在报刊上分析试卷，总结考生答题的成功经验和失败教训，指导学生应当如何学习这门课程，在考场上遇到某种题型应该如何审题，如何思考，如何答题等。

（四）试卷分析的写作

试卷分析的标题是考试课目加“试卷分析”四字组成。正文由以下几个部分组成：

1.试卷的基本情况概括

包括试卷名称、总分数、基本题型、各种题型所占分数等。

2.考试成绩及难易程度判断

包括优秀、良好、及格、不及格等各占多少百分比，由此判断难度是否合适。

3.考生在答题中出现的规律性和倾向性

如果考生在答题中出现了一些带有规律性的现象，或者具有明显的思考倾向性，不管是应该肯定还是应该否定，都应在试卷分析中明确指出，以便追索原因，总结经验，发现问题。

4.考卷自身的优点与缺陷

优点包括科学、严谨、新颖、巧妙之处，缺点则是疏漏、陈旧、错讹、平庸之处。这些认识都必须建立在细致分析的基础之上，不可任意褒贬。

5.今后应该吸取的经验和教训

成功之处应该怎样发扬，失败之处应该怎样避免。通过考试发现了老师讲课和指导方面存在哪些问题，学生的学习方法和思考方式存在哪些问题等等，今后如何改进等等。

6.其它情况或问题

如监考存在什么问题，考试中作弊现象是否严重，应怎样防止等。

【例文】

《邓小平理论概论》试卷分析

（20__～20__学年度第一学期）

本次的《邓小平理论概论》试卷共五大题100分。题目和分数安排如下：一、填空题10题（10分）；二、单选题10题（10分）；三、多选题10题（20分）；四、简答题4题（32分）；五、论述题2题（28分）。下面简要分析一下这次试卷题目及考生的作答情况。

一、综合情况

该试卷能紧紧围绕《邓小平理论概论》教学大纲，考查学生对邓小平理论基本问题的掌握情况。主观题、客观题分配比例为6:4，较适中。难易程度一般。从考试的总体情况看，绝大部分考生都在70～80多分，一部分考生在90分以上，甚至100分，少数考生不及格。由于试卷量庞大，故随机抽出100份试卷进行调查。其中90分以上的有21人，占21%，80～90的有38人，占38%，不及格的有8份，占8%。虽然不同考场因监考或其他原因分数比例会有很大差异，但抽样调查结果多少也能反映出本次考试得分的一些情况。那就是：及格率高，高分者多。

二、试卷及考生做答情况

在第一大题填空中，多数考生能得5分以上，不少还能得满分。相对来言，第4、6、10小题错误率较高，第3、7题正确率较高。就出题来说，笔者结合阅卷情况，觉得题目出得不够严谨。如填空题1，题目是：将邓小平理论作为党的指导思想写进是在

。给的标准答案是党的十五大，不少考生写的是1997年，这也不能算错，因为此题本身就可以被理解为问时间，但标准答案上却没有说明。相似的还有第4题，问我们建设的指导思想，给的答案是“马列主义、思想、邓小平理论”。由顿号隔开的三者放在一空，本身就不甚合理。而且三者实质上又是一致的东西，考生填漏一个如何给分？这些都没有说明。对于填空题，一空一分，就应当每空有惟一答案，不然就在标准答案上附上说明。这样才不失严谨，既公正于考生，又方便于阅卷。

试卷的第二与第三大题为单选与多选题。笔者个人认为单选的难度偏低，易错的为最后二小题。多选题难度适中，属于客观题中较为灵活的一种题型，失分情况也较为均衡。

第四大题是简答题。考生普遍得分情况中上。其中：第1小题简述社会主义经济体制的基本内容，得分率较高；第2小题问的是政治体制改革的主要任务，考生经常漏最后一个一一坚持完善民族区域自制制度；而且对此项任务，许多考生不能理解，答的不伦不类。关于第3小题，大部分考生都能答对和平共处五项原则的内容，但却有一部分考生答精神，答非所问。看来这些都是以后在教学中应该注意的问题。

最后一大题为论述题，共2题，每题14分，共28分。从试卷来看，学生作答较为准确

数学考试分析总结篇12

一、高考数学试题的概述

（一）高考数学试题的命题理念

随着时代的发展，为了能够更好的适应社会经济时代的发展，对学生的学习力、创造力等都提出了较高的要求，因此，为了能够促进素质教育改革的发展，上海在高考数学命题上也进行了相应的改革，从高考数学试题的命题理念来看，高考数学试题命题的设计，体现在对学生获取和学习新知识的能力进行考查，对学生应用所学到的数学知识对现实生活和相关学科进行解决，对学生的数学基本知识、逻辑思维能力、空间想象能力等进行相应的考查.

（二）高考数学试题的设计意义

在新课程改革不断深化的背景下，高考数学试题的设计充分体现了新课程的重点以及核心，同时也是高中数学课堂的要求，因此，在对高考数学试题的设计上，对高中数学的教学与学习拥有更高的要求，更加的关注到学生对数学的应用意识以及应用能力的提高，使学生能够通过对高中数学的学习，对现实生活中出现的问题以及相关学科进行解决，使学生能够通过对问题的发现、研究和解决来提高自身的能力，使学生思维能力得到进一步的提高.

二、解高考数学试题的概念分析法

（一）概念分析法的涵义

对于高考数学试题来说，概念是其构成的基础单位，同时也是高考数学试题的核心基础，包括了数学试题中给出的已知条件、提出的相关需要解决的未知问题，可以说，试题的两个重要组成部分就是题设以及题问.在数学试题中，题设中出现的概念是属于已知概念，而题问中的概念则是属于未知概念，对高考数学试题进行解题，则是从已知对未知进行逻辑推演.根据已知概念和未知概念来看，可以分为顺推、逆推和两边凑的方法，为了能够更好的使用顺推、逆推和两边凑的方法对高考数学试题进行解题，那么则需要对概念分析法进行相关的掌握.

（二）概念分析法的步骤

根据相关的概念和解题方式，概念分析法的步骤则分为对概念的认定、分析和综合三个基本步骤.

1.对概念的认定.当看到试题的时候，需要对试题进行通读，在通读一两遍之后就应该将试题中存在的概念进行认定，从中得出已知概念以及未知概念，找出试题中已知和未知之间的联系，以此来确定需要进行分析的对象.

2.对概念的分析.对试题中的概念认定出之后，需要对每一个概念进行分析，将与概念有关的内容通过所学到的知识，对每一个概念所具有的定义以及性质进行分清，让感觉陌生的试题逐渐的变成属于自己的试题，从而弄清楚数学试题的基本目的.具体来说，就是要对试题中的概念定义进行清楚明确的说出，让题中的每一个字和每一个符号所具有的正确意思都确定清楚，从而确保试题中的每一个概念实质都能够做到深入浅出.当试题中的目的和题意都得到明确和弄清楚之后，就能够为下一步的数学试题解题思路做了基础的铺垫.只有弄清楚高考数学试题的题意之后，才能够更好的找出解题思路，才能够更好的对高考数学试题进行解题.

3.对概念的综合.当对高考数学试题的题意和基本目的弄清楚之后，那么就可以将试题中所拥有的所有概念进行综合，对概念进行综合性的整体思考，从中设法找出已知到未知进行推演的逻辑途径.当全部的概念进行分清和综合确定之后，则从中找出相应的数学试题解题方法，最重要的一点就是要找出题目中的关键突破口.从一定程度上来说，每一道高考数学试题都存在着相关的重点关键处，只要紧紧地抓住关键点，就能够将试题中出现的难题进行化简，让试题中所有的概念都综合起来，获取简单和快捷的解题方法.

总结

综上所述，随着新课程改革的不断深入，高考数学在命题以及试题内容上都出现了一些变化，而在对高考数学试题进行解答的时候，经过长期的教学实践和教学效果可以看出，高考数学试题的解题不能只在于懂，还在于熟和巧.因此这就要求学生在平时进行数学解题的时候，要学会采用概念分析法，在解题的过程中总结自身的解题经验，从而掌握一套适合自身的解题方法，更好的适应高考数学试题的解答要求.

【参考文献】

[1]何淑娟.新课程背景下高考数学试题的特征分析[J].高考（综合版），2014（03）.

数学考试分析总结篇13

试卷分析是教学工作中的重要组成部分,也是每个教师必须完成的工作,通过对试卷进行分析,可以反馈学生学习结果和教师教学效果,帮助教师发现教学活动中的薄弱环节提高教学质量,全面的试卷质量分析工作量很大。目前尚无较好的试卷质量分析软件,尝试用SPSS软件进行分析,该软件能够满足试卷分析的全部指标。

二、原始数据录入

以《教育技术学导论》考试试卷为例来说明各个指标的实现方法。

1.试卷结构。本试卷10分有两个部分组成,客观性试题与主观性试题:其中客观性试题40分占40%,主观性试题60分占60%(具体情况见表1)。

2.数据定义。在SPSS软件中点击Variable View标签,在Name标题下定义:学号、题号、总成绩、平时成绩。其中总成绩定义为total,平时成绩定义为daily,然后在相应的标签名中进行注释。在Type标题下定义各个项目的类型,其中学号定义为String类型、题号和平时成绩定义为 Numeric类型,其余选项使用默认即可(如图1所示)。

3.数据录入。点击Data View标签,将47份试卷按照各部分得分情况和他们的总成绩、平时成绩输入到相应的表格中(如图2所示)。

三、基本描述性统计分析

主要包括:参加考试的学生总数、缺考人数、每个部分的最高分、最低分、极差、平均分、标准偏差(方差)等。在试卷质量分析数据中,运行菜单:Analyze―> DescriptiveStatistics ―>Descriptives,把除平时成绩外的所有变量加入到Variables中,点击Options选项对话框,选中Mean、Minimum、Maximum、Range、Std.deviation 、Variance。点击Continue,再点击OK,运行后得到结果(如表2所示)。

四、难度分析

试题难度是指测验题目的难易程度,难度系数一般用字母P表示,且 0《P》1。对是非题和论文型的题目,我们可以统一为 P=M/W(M:全体学生某题的平均得分;W:题规定的最高得分)。对于选择题我们先计算得出难度系数P,然后再根据公式cp=(kp-1)/(k-1)(k为选项个数)算出矫正难度系数 cp。(单项选择题学生可能随机猜测,公式能排除这种影响)试题难度系数与试题实际难易程度正好相反,越大表示能够正确解答该题的学生越多试题越容易,越小则试题越难。一般认为,难度适中更能客观地反映出学生的学习效果情况,多数试题应分布在0.3～0.7之间,选拔性测试为0.5左右为宜,通常期末考试为目标参照性考试,可适当偏高,全卷平均难度以0.7左右为宜,0.6～0.8为正常根据表2,很容易得到各个部分的难度系数(如表3所示)。

五、区分度分析

区分度是指试题对被测试对象实际水平的鉴别能力,是把考生区别开来的统计量。在进行区分度分析时,常以考试总分作为被测试对象的实际能力水平,把被测试对象在某题上的得分与总分之间的相关系数作为该题的区分度。

试题区分度多少合适也和测试目的密切相关。就期末考试测验而言,一般要求与总分的相关系数要达到0.20以上,一般认为0.4《D》1该试题区分度优良。若0.2

对于客观题来说,使用等级相关分析,在此使用斯皮尔曼(Spearman)等级相关分析,对于主观题来说,样本数为47,大于30,可以看成非等间距测度的连续变量,在此采用皮尔逊(Pearson)相关分析对试题进行分析。

具体操作如下:Analyze―> Correlate―>Bivariate。在弹出的对话框中选择各个客观题,题号变量和总成绩进入Variables,然后在CorrelationCoefficients 中单击 Spearman,完成后即可得到客观题的区分度,主观题的区分度分析方法同上,只需选择主观题和总成绩进入,然后选择Pearson即可,得到每个部分的区分度(见表4)。

六、信度分析

信度分析是反映试卷题目得分一致性程度的统计量,通常用信度系数表示考试的可靠性指标,其取值范围为0～1,其值越大,信度越高。一般认为在 0.9 以上可靠性好。在SPSS中,可选用克伦巴赫系数来计算一致性信度系数。具体操作为:单击Analysis―>Scale―>Reliability―>Analysis,在对话框中选择所有题目变量和总成绩,进入Items框中,在 Model中选择Alpha模型,单击Statistics…Reliability―>Analysis:Statistics选中,Scale if item deleted 得到该试卷的信度系数Alpha=0.729,从结果中也可以看出舍弃第二题后的信度系数

为 0.7468,舍弃第三题后的信度系数为0.7483。这都比整个试卷的信度系数要高。

七、效度分析

测验的效度指的是测量的正确性和有效性,即它能够测出所要测量的心理特质与行为特质的程度。换言之,效度指测验能在多大程度上实现测量目的。它是科学测量工具最重要的质量指标。一个测验若无效度,则其他任何优点都无法发挥其真正的功能。在此我们计算的是测试的效标效度,效标效度是指测验结果与效标之间的一致性程度。平时成绩主要包括学生的作业情况、上课回答问题方面和平时表现等,对于评价学生来说,具有一定的正确性和有效性。在此利用学生的平时成绩作为效度分析的效标,利用积差相关法求效标效度(Pearson法)得到结果为0.849。具体操作如下:在SPSS中单击Analyze―>Correlate―>Bivariate,选择total和daily变量进入Variables,然后在CorrelationCoefficients中单击 Pearson。

八、结语

考试是一种测量,试卷就是测量的工具,用科学的测量理论对组成试卷的一道道题目进行分析,取优弃劣,为教学积累资料。这样做,虽然对于本次考试已经没有多大意义,但是通过分析,把每一次考试的优秀题目积累起来,慢慢地就构成一套实用的题库。

(1)基本描述统计数据上来看,学生总数为47人,无人缺考,学生的的卷面总成绩平均分为82.83,分最高分为99分,最低分为59分,分数极差为40分,标准差为 10.538,标准差比较大,说明学生个体之间存在较大的差异,主要影响因素是他们的入学时学历结构,上课听讲、作业完成、课后复习等。对一部分后进学生,在今后的教学过程中应当充分关注,努力调动他们的学习积极性,经常鼓励他们,从而达到提高学习成绩的目的。

(2)从难度上来看,第二题(0.983)、第三题(0.996)难度系数过大,说明此题出的太容易,建议此题不宜进入题库,在修改后参加下一轮的遴选。

(3)从区分度上来看,除了第二题、第三题区分度较低、其余都比较好,基本达到了考试要求。

(4)从信度分析来看,信度系数为(0.7296),一般教师自编试题的信度系数应要求在0.85以上,标准考试应该0.9以上。分析的结果说明了本次测试的信度不是很好。其原因在于第二题、第三题所致,从信度的运行结果上可以看,在其去除后信度都会有所提高。

(5)从效度上来看,效标效度为0.849,说明本次考试与平时成绩相关性较高,即平时成绩好的学生此次考试成绩亦较好,平时成绩差的学生此次考试成绩亦较差,因此本次测试反映了学生的真实能力,符合考试要求。

(6)可以看出:利用SPSS进行试卷分析既能大幅提高办公效率、节省时间,又能增加分析结果的可靠性。

(7)通过对考试后进行量化分析,将符合指标的题目,分门别类归入题库,可以很好防止出题的随意性和有利于试题,试卷的标准化,促进考试的科学化,进而经济、方便、有效地测试出被试者的真实水平。

参考文献

[1]梅洁.用统计软件SPSS14.0来分析试卷的质量[J].时代教育.2007(6):134～135

[2]任艳玲,朱明放.基于统计软件SPSS的学生试卷分析方法[J].重庆工学院学报(自然科学版).2007(4):95～98

[3]杨代庆,李晟,梁典.几种利用SPSS对试卷进行分析的方法[J].

[4]贵州教育学院学报(自然科学版).2005(4)

[5]伍新春.高等教育心理学[M].编高等教育出版社,1999