不公平或误差
基于研究原因不应用高取测试评价教师
Illustrator:J.D.金山
西雅图老乡今年秋天爆发战事警监Maria Goodloe-Johnson和西雅图公共学校区与西雅图教育协会为最近教师工会协议争吵核心争议:师资评价应部分基于标准测试学生分数吗?
西雅图并非独一无二的这场争斗,Goodloe-Johnson警司显然从全国正在发生的事情中取出信号。
8月,例如洛杉矶时报印制大规模研究LA学生测试分数用于评分单个师资效能研究基础统计模型称为增值测量作为故事的一部分时报发布约6,000名教职员工及其VAM评分中文本第37段
10月纽约市教育局效仿发布计划发布一万二千名公立学校教师VAM评分U.S.教育秘书Arne Duncan向两位时报学习和NYC教育部计划,立场与Ecle向顶点指南一致,欧巴马总统支持使用考试分数评价教师并判定功绩
华府MichelleRhee和新奥尔良Paul Vallas等多大城学区当前和前主管努力使用测试评价教师高取标准测试评价师资性能已成为当前努力重构公共教育自由市场之道的基石之一
VAM逻辑和用学生评分评价教师似乎是常识:教师越有效,学生标准测试应越好
研究显示师资素质对考试评分有影响, 但不表示由特定师资对特定学生使用标准测试的方式负责。也不表示我们可以等同有效教学(或实学)和高测试分数
教育者、学生和家长必须理解为什么基于教育研究的测试不应用来评价教师,
i选择强调六大问题与VAM问题如此之多, 单应足以停止使用高取标准测试进行这类评价希望这些能帮助论坛版文章、博客和学校董事会会议讨论、PTA会议和篮球赛露台讨论
统计错误率
统计误差率为35%, 使用一年测试数据测量师资有效性, 误差率为25%, 研究人员Peter Schuchet和Hanley Chang教育部国家教育统计中心
Rutgers大学金融专家Bruce Baker解释说,使用高取评分评价教师方式表示一四分之一的可能性,被评为平均的教师可能被误评为平均以下并面临纪律措施正因如此差错率,师资性能评价可分解何为dice统计卷
逐年测试分数不稳定
佛罗里达州立大学经济学教授Tim Sass在《师资质量和对师资补偿政策的影响增值度量稳定性》中指出,同一名师资教程测试分数逐年剧烈波动一项研究比较5个城区两年测试分数,一年排名底者三分之二以上下一年从底层排位移出完全三分之一从底层20%一年转至顶部40%下一类似地,排名最高一年的教师中只有三分之一保持第二位,近三分之一前排名最高教师在第二年跌入底部40%
测试分数精确测量师资效果时, 有效教职员工年复一年会持续高评, 因为他们是优秀教职人员!并期望无效教职员工对测试分数的低评Sass逐年高调显示测试分数与单师效率无关,更多与学生逐年变换相关(当然,除非有人认为第一年排名最高教师中三分之一决定二年级低教 ) 。
日复一日评分不稳定
5-80%学生标准测试分数的提高或下降可归结为一次性随机生成因素,哈佛大学Thomas Kane和达特茅斯学院Douglas Steger在其研究报告《测试分数波动》中表示
表示测试日儿童是否吃早餐,儿童是否在上学路上与父母或同龄人发生争吵等因素,其他学生在考试时碰巧在场,儿童对测试管理员的感觉至少占任何特定学生标准评分增减的一半某些因素,如狗在开窗外乱叫,会波及整个类
Kane和Steigers发现显示使用测试评价教师忽略现实,即一连串完全超出教师控件的日常因素有助于学生执行任何测试的方式。奖赏或惩罚教职员工可能表示奖赏或惩罚教职员工,
非随机学生分配
校内学生分组通过正规和非正规跟踪或跨校种族、社会经济类和语言隔离对VAM测试结果产生极大影响,10位教师质量教育评估领先研究人员在其政策简介中强调使用学生测试分数评估教师问题,由经济政策学院发布
研究者指出,选择为富裕学生服务学校的教师可能显得更为有效,仅仅因为他们有学生前行和当前学习有更多家庭支持和学校支持,而不是因为他们是更好的教师。
即使在VAM模型试图考虑学生前成绩或人口特征时,模型假设所有学生都以相同速率显示测试增益或测试速率可能无法比得上任何其他学生的残疾学生。
非随机派生意味着教师可能被惩罚、解职或丧失终身教职完全因为他们教程或教程中有大量传统上低分学生,这些学生可能显示变慢测试分数增益
隐蔽度量
高取标准测试也无法说明学习的复杂性(并扩展教程)。举个例子,我们从Steven Pinker语言研究中知道,学习常发生于U形状中,误差是学习过程的一个组成部分。儿童测试时,我们永远不知道U形学习曲线上他们可能在哪里,我们也不意识到他们的错误可能是自然学习过程的重要组成部分。测试评价师资时, 高有效师资推送学生走出认知宽广区,
标准测试也太粗糙,无法说明学生跨题学习技能认知转移的可能性VAM研究者在上述经济政策学院政策简介中解释, 表示写作学生从历史教师中学习可记为英语教师功劳, 即使英语教师不分配写作!数学学生学习物理类可归功数学教程换句话说,我们永远无法确定哪类和哪位教师帮助特定学生测试任何特定科目
校外因素
校外因素,如获取保健不足、粮食无保障和与贫困相关压力等,对学生校内成绩产生如此深刻的负面影响,以致严重限制学校和教师自己能做的事情,亚利桑那州立大学摄政教育教授David Berliner在他的报告《贫穷和潜力》中解释
斯坦福大学Linda达令-Hammond和其他人的研究显示,教师在学生成功方面绝对举足轻重,当我们使用高取测试评价教师时,我们错误地假设教师有能力克服学生生活中的任何障碍提高学习水平。优秀教师虽然极有必要,但并不总是足够。
假设别的办法是认为教师(和学校)可以以某种方式弥补缺房、缺粮、缺房、缺房、缺房、缺房、缺房、缺房、缺房、缺房和缺生活工资等因素,等等全部靠自己解决。社会安全网是一个广度社会经济网络的责任,而非完全由教师负责。
政治非现实
标准测试的现实是测试太不精确和不准确,无法衡量单个教师的效能。可悲的是测试专家 研究者 心理学家 已经知道一段时间举例说,1999年,组成国家研究委员会适当测试使用问题专家小组警告说,对测试师有重大影响的教育决策不应单凭或自动根据单评分作出。
短短两年后,两党大会和George W总统政府布什通过了Brittle后退法并测试教程法
布什政府似乎忽略教育研究作为政策问题(如NCLBs阅读优先程序和宣传使用微调教学法,这些方法几乎没有研究基础),但许多人希望与奥巴马总统选举有别。
不幸的是,奥巴马政府传递了一个清晰信息:当涉及到高取标准测试时,研究无关紧要。
无关紧要 根据上引U.S.教育部报告 超过90% 学生增分变化师生级不受教师控制的因素
无关紧要的是,国家科学院国家研究理事会表示VAM师资有效性估计不应用于操作决策,因为这种估计极不稳定,无法被视为公平或可靠。
连完成研究者都无关紧要洛杉矶时报研究确认VAM数据太不可靠,无法作为唯一衡量师资性能尺度使用时报忽略文章清晰表达)
可悲的是,布什和奥巴马政治思想压倒教育研究
会想所有决策人、政治家、专家、主管、脱口秀主机、记录片制作者、企业领袖和慈善基金会都如此爱用测试分数据评价教师的理念,对精度同样热切。人民生命危在旦夕,然而关于教师性能的重要决策基础数据无法动摇。
测试VAM数据虚弱说明当前为教师问责而战并非真正有效问题更实质性公共对话我们应该讨论贫困加剧、学校种族再隔离、失业增加、缺乏保健以及公共部门持续解资等对学生教育成绩产生压倒性影响的所有因素都埋藏反之,教师和他们的工会成为社会、教育和经济灾难的方便替罪羊
师资性能需要评价,高取标准测试和VAM做这种评价两者都无关
增值和民权
RigobertoRuelas以学生身份上Miramonte小学并返回那里工作14年,先是TA教程,后是5级教程几乎从不缺工星期天9月十九岁时他请病假一周后发现尸体 地下100尺高桥 洛杉矶国家森林
自杀很少有单一原因,但Ruelas对8月事件感到不安14文章发布洛杉矶时报Who's教L.A.sKidsRuelas兄弟Alejandro告诉KABC电视台8月后14他一直说工作压力Miramonte的家长和教职员工表示, 校长自那以来一直大力向Ruelas施压提高学生分数,
写文章时报记者Jason Felch、Jason Song和Doug Smith向LAUSD提交公共信息请求,为6000三四五级师生考试分数LAUSD满足请求,尽管他们以前从未使用或发布按教师分类的学生测试数据上头时报数据使用VAM方法分析(见主文章)并上传结果数以百计的教师被公开贴上最有效、最有效、平均、低效率或最无效标签,完全依据学生考试分数变化Ruelas评为无效
但据学生、同事和父母称,没有什么能比事实更远前Ruelas学生LAUSD中学解释道:令我父母震惊听到很多父母都尊敬他不论他生病与否,他都在那里他总是笑他对学生欢乐,对父母友好教得很好我喜欢进他的课
Mayra Vega六年前离校后一直与Ruelas保持联系两周前他刚告诉我 他为我申请大学感到骄傲他总能帮助你 即使你不是他的徒弟他总让我感觉自己很好 仿佛他让我毕业时戴眼镜多亏了他,我停止混淆我的bs和ds
Mat Taylor表示南区师协United Educe Lospie这些都是他想要的孩子,尽管他们可能是最难测试者
两周后Who's教L.A.S洛杉矶校委投票接受代理Supt的建议John Dease表示VAM占教师评价的30%两周后加利福尼亚州教育局投票创建在线数据库,按学生考试分跟踪教师其他地区甚至颁布了极端规则:佛罗里达州和丹佛州VAM可能占评价的50%
UTLA要求时报取下网络链接 评分单个教职人员名泰勒说,里戈家想为某事而死学习过程和人力开发无法分配数值以学生和自教自学
SarahKnopp