学校增值的一致性与稳定性——基于多水平追踪数据 的实证研究

   2020-08-20 6770
核心提示:用增值 来评价学校是一种更为公平和精确的评价方法。然而这种评价方式也存在一定风险。研 究发现 ,学校的增值在各个学科之 间的一致性并不高,基于学生总分计 算的增值可能会掩盖校 内各个学科教师效能的差异 ,这可能会引起部分学科教 师的“搭便 车”行为。此外 ,对于同一届学生来说 ,学校增值在不 同年份具有极 大的变动性。因此 ,基于单个年份计算的学校增值不能被运 用于具有 高利害性 质的学校问责体 系中。
       利 用 学生 的进 步 而非 学 生在 关键 考试 中 的原始分数来评价学校的绩效 ,被公认为是 一 种更加公平和精确的学校评价方法 。这种 评价方法 因考虑到学校的生源水平 以及学生 的家庭背景 ,因此被称 为增值评价 。学校 的 增值被定义为在剔除 了其他因素的影响后 , 学 校 对 于 学 生 学 业 成 就 的 “净 贡献 ”。在 美 国、英国等发达国家 ,增值指标 已经被广泛用 来评价学校甚至教师的效能 。作为评价指标 体系 的全部或一个部分 ,增值指标 已被运用 到一些 国家的教育问责体系如对教师有高利 害关系的奖励和惩罚制度中。一些 国家和地 区还在 网络上公开学校的增值指标 ,为家长 择校提供更为科学的信息来源 。
       当前 ,我 国 仍广泛使用学生升学率 、优秀率来评价学校的工作业绩 ,使用平均成绩 、及格率等来评价 教师 的工作业绩。这种忽略生源水平差异和 学 生背景 差异的评 价方法 ,无法公平公正地 评 价学 校和 教师对 学生学 业成绩 的促进 作 用 ,甚至会误导家长对学校质量的评判 ,从而 做 出非理性的择校决策。据此 ,我们认为 ,实 施 增 值评 价 的意 义 尤 为重大 。
       增值评价已经引起 了我国一些学者的注 意 ,他们 的研究均表 明增值评价与原始分评 价 的结果相差很大 [1]。然而 ,对 于增值评价 的研 究 不能 止 步 于此 。要想 在 中 国推 广这 种 评 价方法 ,还需要对增值指标及其计量模型 本 身做 更为深人的探究 ,以了解增值指标更 多维度的特点 。在学校效能研究 的经典文献 — — 《教育效能基础》一 书中 ,希润斯和博斯尚无 国家一级或省一级 的学生学业成就 的长 期追踪数据 。因此 ,针对本文的研究问题 ,只 能选 取一 个 区实施 探索性研究 。此外 ,增值 评价所用多水平模型的参数估计依赖于正态 分 布 的 假设 ,对 于 学生 (层一 )和 学 校 (层 二 ) 的样本量有一定要求 。经合组 织建议每所学 校 的 学生 数 至 少 为 20~-"30人 [3l,本 文 中每所 学校的学生数都高于此标准 。有关层二的样 本量 ,目前并没有一致 的意见 ,一个经验法则 是 20个 以上 [4]。本 文 中学 校数 为 25所 ,满 足 分析的要求 。
     1.学生测试成绩数据
       由于增值测量依赖于两次考试成绩 ,所 以对 于测量工具 的选择尤为重要 。 目前 ,对 于增值测量在考试工具上有多种选择 。
       第一 种方法是让前后两次试题完全相同。这样能 让保证前后测 的分数等价 ,但这种方法缺点 非常明显 ,如果前后测试间隔时间较短 ,那么 可 能存在记忆效应 ,学生的真正进步难 以测 出 ;此外 ,学生 的学 习是接受新知识的发展过 程 ,前后测试如果完全相 同,就难 以反映学生 学 习的增 值 。
       第 二 种方 法 是通 过 项 目反 应理 论 (IRT)设计标准化试卷 ,前后测试的部分试 题相同 ,对两次考试进行垂直等化链接 ,让两 次测试的分数能直接 比较 。这种方法的优点 是认 为学生学 习是一个 累积过程 ,但对 于试 题 制 定 的技 术 要 求 较 高 ,在 标 准 化 考试 非 常 流行 的国家如美 国运用较多 ,但 在我国尚无 成规模的应用。其缺点则是测试更强调不同 年级 中所学 的共 同内容 ,对教学的敏感度不 高[5】,且据此估算的增值排名对所选择的链 接方法非 常敏感 【6]。
       第 三种方 法是根据 经 典测试理论 和课程 内容本身设计前后试题 , 在增 值模 型 中运用 标 准分 。这 种 方 法在 标 准 化 考 试 不 甚 流行 的 国家 ,特 别是 在关 键 考试 中以等级计 分的英 国 ,非常受欢迎 。该 方法 比较简单易行 ,符合我国的教育评价国情 ,其 缺点是标准分增值所测量的并非学生绝对进 步 ,而是学生在两次测试 中成绩在总体中相对位置的变化 。本研究采用 的测试依据 的是 第三种方法 ,即该 区本身实施 的区统考 以及 2012年 的 中考 。 图 2本研究所采用的纵 向测试成绩数据 图 2显 示 了本 研 究 所 采 用 的测 试 成绩 数 据 结构 。其 中测试 1为该 区 2012届 学生于 2009年 初 一 入 学 时 的摸 底 统 考 ,该 考 试 度 量 了学 生 学 习 的初 始 能 力 。测 试 2与测 试 3为 初一 和初二年级末 的统考 ,测试 4为初三末 的中考 ,它们分别度量 了学生在初 中各年末 的最 终 学 习成 果 。这 些测 试 的试 题均 由独立 于学校之外 的专 门机构依据义务教育 国家课 程标准设计开发 ,且考试程序严格 ,确保 了考 试本 身 的公 平性 。此外 ,试题 的信度较 高。 如测试 3中 ,语文试题 的信度 为0.72,数学 为 0.87,英语 为 0.92(Alpha内部 一致性 系数 )。 我们利用学号 、学生姓名 、学校识别码将这四 次考试成绩 在学生个体层次上连接起来 ,形 成 了本文所用的追踪测试数据 ,共涉及语文 、 数学 、外语三个科 目。
       2.学生家庭社会经济地位数据 (SES)
       自科尔曼报告 以来 ,研究界就形成 了普 遍 的共识 :家庭背景对于学生的学业成就有 影 响。而学生的家庭背景是学校不能控制的 变量 ,因此有必要将其纳入增值模型中,以尽 可能得 到学校 的“净 ”效应 。本文参考 PISA 学生问卷 ,利用三个指标来描述学生的家庭 背 景 :社 会 经 济 地 位 (SES)、家 庭 财 富 (Wealth)和文化资源 (Culture)。变量具体描 述 见 表 1。 纳入模型的其他人 口学变量还包括学生 的性别 、年龄 、是否为农 民工子弟等。需要提 及 的是 ,一些 学 生层 次 的变 量如 学 习态度 、学 习时间不能被纳入增值模型 ,因为这些变量受 学 校 和教 师影 响较 大 ,某 种 程 度 上 反 映 了 学校 的效能 ,纳入模型会导致增值的估计偏 误 。此外 ,学 生从 入 学到 毕 业 的三 年 中 ,样本 的损耗 率 (sampleattrition)较 大 ,即使考虑 到 新转到该 区学校 的学生 ,仍有 20%的学生 因 各种原因缺失中考成绩数据。因为难以判断 缺失值是否为随机 ,所 以在分析 中只能做逐 条删除(1istwisedeletion)。由于每个变量都可 能 存 在 缺 失值 ,所 以最 后 参 与 建模 的个 案数 更 低 。为 方 便解 释参 数 ,对 于 连 续 型 的 自变 量纳入模 型时我们采用 的是总均值中心化方 法 (grandmeancentering),即将 自变量 的值 减 去该 自变量的均值。
       3.学校层次的变量
        在 教 育 生 产 函数 研 究 中 ,由于 缺 乏 理 论 指导 ,往往将学校层次 的各种资源投入都纳 入 模 型 ,然 后 根 据 纯 统 计 学 的标 准 来 对 自变 量 进 行 取 舍 。 但 在 增 值 模 型 中要 避 免 这 样 做 ,这主要是 因为我们假定学校 的效能与资 源投入是相关的 ,而且资源投入是学校能够 控 制 和 改 变 的 (至少 在 一 个 区域 内 的义 务 教 育学校 ,资源投入反映 了学校的努力程度 ,比 如教师 的学历 、职称 、生均经费等 )。依据 同 样 的逻辑 ,我们也避免在增值模型 中纳入任 何班级层次 的投入变量 ,这样做也可 以避免 受 到 学生 中途 换 班 的影 响 。在 本文 的模 型设 置 中我 们 只控 制 那 些 学 校 难 以改 变 的 变量 : 第一 ,学校生源的平均初始学习能力(以平均 前测成绩代替 );第 二 ,学校生源的平均社会经济地位 。这两个变量属于学生个体的学校 汇总变 量 (aggregatedvariables),也称 情境 变 量 (contextualvariables),纳入 它 们是 因为学 生 个体特征在不 同学校 的分布不同 ,纳入这些 变量能增加增值估计 的精确度。为 了模 型参 数解 释的方便 ,纳人模 型时对这两个变量也 实施总均值 中心化 。 最后要说 明的是 ,对 于哪些变量进入增 值模型 ,理论指导仍然是不够的 ,实践中也远 未 达 成共 识 。过 少 的变 量可 能会 导 致模 型 调 整 不 足 (under—adjustment),而 纳 入 过 多 的 变 量 可 能会 导 致 调 整 过 度 (over-adjustment),因 为教育投 入变量 的效应 存在相关 性 和重叠 性。巴娄等 (Ballou,eta1.)学者 的研究表明 , 纳人班级层次的变量对于班级增值 的估计影 响不大 。[8]本 文 中纳人学校 汇总变量 ,并不 完全依从 纯统计学原则 ,目的也不是仅让模 型能更好地拟合数据 ,而是为了更合理地计 算学校增值 。要 明确 的是 ,在实践 中不存在 最好的模 型 ,只存在最符合政策 目标 的合适 模 型 。
       (二 )增 值 的 计 量 方 法
        在有关学校效能的文献 中 ,有一系列的 统计计量模型可用来估算学校增值 。如果不 考虑面板数据 ,当前主要的增值计 量模 型可 以分为三类 :简单 回归增值模 型、固定效应增 值模 型 、多水平(随机效应 )增值模型。这三 类模 型在估算增 值 时所遵循 的逻辑 是相 同 的 ,即将模型拟合后的“残差”(residua1)中的 学校部分作为学校贡献程度 的度量 。因此 , 无论采用哪种模 型 ,所估算 出的学校增值排 名都应该很类 似 ,我们之前的实证研究 亦发 现 ,不 同模 型估 算 的学 校增 值 相关 程 度 在 0.96以上 。[9]由于在学校效能研究中多水平 模型已经得到多数学者 的认同和应用 ,因此, 本文拟采用两水平 (学校 、学生 )模型来估算 学 校 的 增 值 ,并 以此 为 基 础 考 察 增 值 的 一 致 性和稳 定性 。本文 的模 型中只包 括随机 截 距 ,出于方便考虑没有纳入 随机斜率。
Y =flo,+fl,y + +句 (层 1:学 生 ) 『=灿 + .。 +U。, (层 2:学 校 ) vaF(U0J)=z~var(句)= 在此计量模型 中,y啦为学校 ,中学生 f的 后测成绩 , 。为学生的前测成绩 ,。为斜率 ,句 为每个学生 的残差 ,假定其服从 均值 为0,方 差 为cr2的正态分布。 为学生层次的其他变 量 ,如学 生家 庭社 会 经济 地位 、性 别 、年 龄 等。_,是学校层次 的汇总变量。对于每所学 校而言 ,其截距 包括两个部分 : (固定截 距 ,所 有学校都一样 )与 U。,(随机截距 ,每所 学校不一样 )。随机截距 U。,即为学校增值 的 度 量 ,我们假定 其满足均值为 0,方差为 的 正态分布 ,其估算公式为: , 、 “ 『二F 年L 一 啦 公式中nl为学校 ,的学生数 ,.啦为模型的 预测 值 ,这 种估 计 也 被称 为 经验 贝 叶斯 预 测 。对此增值估计要做两点说 明。首先 ,增 值是一种相对指标 。一所学校增值 的计算必 须依赖于样本 内所有其他学校 的信息 ,它不 能用来孤立地衡量一所学校学生学业进步的 绝对数 。其次 ,增值带有不确定性 。由于多 水平模型将学校 以及学生个体作为某个“超 总体 ”中一个 随机样本来看待 ,其增值估计是 带有抽样误差 的 ,因此 比较学校增值 时必须 考虑到其置信 区间。置信区间的长短取决于 标准误 ,标准误的计算公式为 : E 丽 1 [10] 由此公式可 以看 出 ,增值 的置信 区间长 短 取 决 于 残 差 的校 内变 异 、校 间变 异 以及 学 校 的 学生 数量 。在 同一 显 著性 水 平下 (如 95%),学校的学生数越多 ,标准误越小 ,置信 区间越 窄 ,估计 精 度越 高 。理 论 上来 说 ,增值 的置信 区间重合 的两所学校 ,尽管其增值排 名不 同 ,但 它们 之间实际上没有统计学 意义 的差异 。 (三 )研 究 问题 的分 析 方 法本文 聚焦于增值 的一致性和稳定性 ,因 此是 对计量模 型 中对增值 估计后 的二 次分 析 。本文拟用两个指标来分析 。第一 ,斯皮 尔曼等级相关 系数 (Spearman’srho)。由于学 校增值在用于学校 问责和家长择校时 ,利益 相关 者所关 注 的是各个 学校增 值 的排 名情 况 ,所以我们用等级相关 系数而非皮尔逊线 性相关 系数来衡量学校增值 的一致性与稳定 性 。例 如 ,如果所有学校语文的增值排名 与 数学 的增值排名相关程度很高 ,那说 明增值 的一致性在这两个科 目之 间较高 。第二 ,评 分一致 性系数 (Cohen’skappa)。从统计意义 来说 ,增值分析只将学校分为三类 :显著高于 平 均值 (即置信 区间底端 大于 0)、与平均值 无显 著差异(置信 区间与 0重合 )、显著低 于 平均值 (置信 区间顶端小于 0)。在考察增值 的一致性和稳定性时 ,相 当于三个评分者(三 个 科 目或 三年 )将 所 有 学 校 归 人 这 三个 类 别 中 。如果 不 同学 校 在 三年 内始 终处 于某 一个 类别 ,那 么可以认定增值的稳定性较高 。
       三 、研 究发 现
       (一 )模 型参数 估 计 本部分给出总分增值模型的参数估计结 果(见表 2)。在控制 其他变量 时 ,学生个体 的初始学习能力 (入学总分 )每增加一个标准 差 ,学生 中考 总分 能增 加 0.929个标 准 差 。这 表明学生个体的初始学习能力是学习结果的 最佳 预测 变量。和女生相 比 ,男生即使 在入 学总分上相同 ,其学业进步程度仍较低 。同 一 届 内的学生年龄越大 (以月份计 ),成绩越 低 。进城务工子女 的学习进步幅度要高于非 农 民工子女学生 ,但这种差异没有统计 学意 义。学生个体的社会经济地位在控制其他变 量时 ,对学生学习结果仍有正的影响。家庭 文化资源对学生成绩有 正的影 响 ,但 该影响 不显著 。
 
举报收藏 0打赏 0评论 0
 
更多>同类资讯频道
  • shtxc
    加关注0
  • 没有留下签名~~
推荐图文
推荐资讯频道
点击排行
网站首页  |  福建省海峡教育研究院简况  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  闽ICP备19002640号-1