標準化考試失敗的考試
如果有足夠多的教育者和noneducators意識到如何評價我們學校有嚴重缺陷,也許我們可以停止這荒謬。
在過去的四十年裏,越來越多的學生在標準化測試分數作為評價美國學校最有意義的證據。的確,大多數美國人認為學生標準化考試的表現是唯一合法的學校的教學有效性的指標。
然而,盡管基於評估的學校似乎一樣經常發生消防演習,在大多數情況下這些評價是不準確的。這是因為使用的標準化測試是完全錯誤的。
標準化考試被用來評估美國的學校自1965年以來,美國的時候初等和中等教育法案成為法律。第一大輸液的聯邦法令提供所需資金投入到當地的學校和教育工作者產生基於證據表明ESEA美元花得值。
但是,你可能會問,可以如此普遍的實踐這麼長時間是錯誤的嗎?想回到多年我們迫使航空公司乘務員和乘客不吸煙吸二手毒素,因為飛機上禁止吸煙隻在起飛和降落。
一些糟糕的事情可以持續很長時間。但錯誤,即使是我們與生活了幾十年,但通常可以糾正一旦被確認,這是我們必須做些什麼來停止今天的錯誤的學校評估。如果有足夠多的教育者,noneducators,意識到我們有嚴重缺陷評估我們的學校,和那些缺陷削弱教育質量,有機會我們可以停止這荒謬。
教學不敏感
首先,一些定義:
管理的標準化測試是任何測試,得分,和解釋標準,預定的方式。標準化能力傾向測試的目的是對應試者將如何執行進行預測在隨後的設置。例如,SAT和ACT用於預測成績,高中學生在大學。相比之下,標準化考試的成績表明應試者已經獲得了知識和掌握一定的技巧。
雖然學生的標準化能力傾向測試成績有時不明智地攪拌到學校評價燉肉,在標準化成就測驗分數通常用來判斷一個學校的成功。兩種常用的標準化考試的成績為學校評估是不適合測量。
第一個類別是全國的標準化考試的成績愛荷華州基本技能的測試,采用比較測量策略。所有這些測試的根本目的是比較一個學生的分數和成績的前一批考生(即規範集團)。它可以決定如果約翰尼的得分在第95個百分位在給定的測試(幹得好!)或第十百分位(兒子,我們有一個問題)。
因為全國標準化成就測驗的必要性提供細粒度,percentile-by-percentile比較,這些測試必須產生一個相當程度的分數傳播——換句話說,很多考生的分數之間的區別。所以,生產得分傳播往往占據那些構建標準化考試的成績。
據統計,最容易造成分數的問題蔓延在標準化成就測驗,隻有大約一半的學生回答正確。多年來,開發人員的標準化考試的成績已經學會了,如果他們能聯係學生的成功一個問題學生的社會經濟地位(SES),然後大約一半的考生通常正確答案項。如果一個項目是經常回答正確的學生上端的社會經濟規模比lower-SES孩子,這個問題將提供大量的傳播。
畢竟,SES是一個很廣泛的變量,另一個不是很快改變。因此,在今天的全國標準化考試的成績,有許多SES-linked物品。
不幸的是,這種類型的測試往往測量不是什麼學生在學校所學但他們帶到學校。之所以有如此強烈的關係學校的標準化測試分數和經濟和社會組成的學校的學生。
因此,大多數國家標準化考試的成績最終教學不敏感。是,他們無法在學校即使檢測改進教學一定發生。由於這種不敏感,當學生的成績這樣的測試是用來評估學校的教學表現,評價通常忽略了馬克。
第二種教學不敏感測試的標準化成就測驗,許多州已經開發出了問責在過去兩年。這些測試通常被創建來更好地評估學生的官方認可的技能和知識的掌握。這些技能和知識,有時被稱為目標或課程目標,通常這些天被稱為內容標準。因此,這樣的國產開發標準化的評估——像佛羅裏達綜合評估測試(FCAT)——經常被描述為標準的測試。
因為這些定製的基於標準的測試設計(幾乎總是一個外部測試開發承包商)的協助下與國家課程的願望,現在看來,他們會適合評價一所學校的質量。不幸的是,這並不是它的工作方式。
當一個國家的教育官員決定確定學生應掌握的技能和知識,這樣做的典型過程取決於主題專家的建議。例如,如果新墨西哥當局在俄亥俄州或想了解他們國家的官方標準的數學內容,然後一群,說,30歲的數學老師,數學課程顧問,和大學數學教授被邀請去形成一個全國範圍內的內容標準委員會。
通常,當這些委員會試圖確定學生應掌握的技能和知識,他們的建議——並不奇怪——他們應該掌握一切。這些委員會似乎執意要他們熱切地希望學生具備識別技能。令人遺憾的是,合成committee-chosen吆喝內容標準傾向於類似課程的願望列表而不是現實的目標。
是否有意義的目標,往往是很多人,效果適得其反。國家標準測試的目的是評估學校根據學生的測試性能,但是老師很快被太多的目標。教育者必須猜測這大量的內容標準會在給定的測試評估。此外,因為有太多的內容標準進行評估和測試時間有限,不可能報告任何有意義的結果的內容標準和沒有掌握。
使用基於標準的測試後針對很多目標,教師可以理解可能投入越來越少關注那些測試。因此,學生的表現在這種類型的教學不敏感測試通常依賴於同一SES因素妥協的效用全國標準化考試的成績當用於學校的評估。
錯誤的測試,錯誤的後果
不好的事情發生在學校評估使用這兩種類型的教學不敏感測試。尤其如此,當學校評估的重要性是很大的,因為它是現在。所有的國家的公立學校每年評估下聯邦不讓一個孩子掉隊法案》的規定。
NCLB的結果不僅是學校坐評估廣泛傳播,也有處罰學校接收NCLB基金還未能取得足夠的基於測試進展。這些學校是放在改善追蹤,可以很快“改善”不存在。美國公立學校的教育者顯然是承受著巨大的壓力來提高他們的學生無論NCLB考試成績選擇狀態。
然而,除了少數例外,評估州選擇實現因為NCLB的全國標準化考試的成績或國產開發的基於標準的測試——兩者都是有缺陷的。教室,然後,三個不良後果出現在州教學不敏感NCLB測試是使用:
課程簡化論
為了提高學生NCLB考試成績,許多老師拋棄課程內容——盡管重要,不容易被覆蓋在即將到來的考試。最終結果是,學生教育受到了欺騙。
過度開采
因為它本質上是不可能提高學生的分數教學不敏感測試,許多教師——在絕望中要求看似無窮無盡的練習與測試項目類似在即將來臨的問責製。這沉悶的鑽探經常郵票任何真正的快樂時學生可能(而且應該)的經驗學習。
建模不誠實
一些老師,由於被要求提高考試分數故意設計杜絕這樣的分數提高,可能會采取不道德的行為在政府或責任測試的得分。學生學習,隻要風險足夠高,老師認為這是作弊。這是一個教訓,永遠不應該被教。
這三個使用教學的負麵影響不敏感標準化考試作為測量工具,綜上所述,說清楚,今天的普遍方法判斷學校不僅導致無效的評估。除此之外,這種測試可以大大降低教育質量。
解毒劑
有可能構建責任測試,提供準確的學校質量,促進教學改進的證據?答案是肯定的。2001年,NCLB法案的頒布之前,一個獨立的國家研究小組教學支持委員會評估,確定了三個屬性“教學支持”問責測試必須具備:
中等數量的Supersignificant課程目標
避免與艱巨的壓倒性的教師和學生列表,課程目標,教學支持問責測試應該衡量學生掌握隻有一個智力可控數量的課程目標,更像是一個比50左右的六個老師今天可能遇到。然而,因為更少的課程標準來衡量,他們必須是真正重要的。
清晰的目標的描述
教學有用的測試必須附有清晰、簡潔和teacher-palatable描述每個課程的目標是評估。明確描述,教師可以直接教學對促進學生掌握的技能和知識,而不是向學生提出正確答案特定的測試項目。
教學Uuseful報告
因為一個責任測試支持教學重點是隻有非常有限的具有挑戰性的課程目標,學生的掌握每個主題可以有意義的測量,讓教師確定有效指令。學生和他們的家長也可以受益於這樣的信息報告。
這三個特性可以產生一個教學支持問責的測試,將準確地評價學校和提高教學質量。顯然,擺在我們麵前的挑戰是如何取代今天的教學不敏感的問責製和更好的測試。幸運的是,至少有一個州,懷俄明州,現在創建自己的教學支持NCLB測試。更多的國家應該這樣做。
你能做什麼
如果你想成為解決方案的一部分,這種情況下,你所能了解的教育是很有必要的測試。然後學習更多。它的重要性,教育考試真的並不是特別複雜,因為它的基本麵包括常識的想法,而不是數值朦朧。
你不僅能更好地理解發生了什麼在當前學校質量的計量方式,你也可以向別人解釋。和別人,在理想的情況下,將學校董事會成員,議員,和關注公民,反過來,做出貢獻。簡單地跳上互聯網或者去你當地的圖書館,追捕一本入門書對教育評估。(我寫過一些這方麵的書,雖然不是一樣迷人的劈啪聲好間諜驚悚片,真的不可怕。)
更好地理解為什麼如此愚蠢的和破壞性的評價學校用學生的錯誤種類的標準化考試成績,你能說服任何人會聽,政策製定者需要做出更好的選擇。我們的40年的傳奇不健全的學校評價需要結束。現在。
w·詹姆斯·波法,他開始他的職業生涯教育作為一個高中老師在俄勒岡州,加州大學名譽教授洛杉磯學院的教育和研究的信息。他的作者是25的書籍和前總統美國教育研究協會。
評估評估:想了解更多?
下一步對更好的理解評估通過訪問評價:一目了然,你會發現文章和視頻替代形式的評估,由專家訪談和評論文章,和大量有beplay体育博彩用的信息資源,包括一個教學模塊在構建一個基於證據的評估。