真實的評估的挑戰
問題:老派責任測試原油的測量學生的學習。
解決方案:構建一個更好的測試。
當我還是一個年輕的教育記者舊磨勞倫斯鎮的馬薩諸塞州,大喜的日子是在學校問責考試成績公布。的麻薩諸塞州綜合評估係統,更好的和擔心被稱為纖顫,滿足聯邦不讓一個孩子掉隊法案的要求通過年度測試在英語和數學(現在其他科目)。
我詳細頁的數字和寫一個故事在附近學校的成功與失敗。我編輯了首頁上的大熱門,因為他們知道父母會焦急地看他們學校的結果和房主將精神調整屬性值基於分數。我要求校長和學校負責人解釋他們的學校的跳躍或絆跌。
不知不覺地,我玩弄於占主導地位的錯覺,這些不流血的考試成績是最明確的衡量一個學校的成功,他們衡量什麼是最重要的。
冷,硬數據看似權威的一種方式,但責任卡片測試不可靠的、深入的報道我們(和政府)想象。教育評估測試狀態今天使用有兩個根本缺陷:他們鼓勵的那種麻木的drill-and-kill教學教育者和學生看不起,同樣重要的是,他們沒有告訴我們很多關於學生學習的質量。
“我們是完全的責任,但是我們有錯誤的度量標準,”約翰·Bransford說西雅圖華盛頓大學的教育學教授研究學習和設計評估。“這些測試是教育改革的最大瓶頸。”
由於曆史
詹妮弗·西蒙在迪爾菲爾德小學五年級教師,在埃奇伍德,馬裏蘭州,敏銳地意識到標準化測試的局限性。beplay体育吧她的課程必須強調學科的國家責任測試措施熟練——數學、閱讀和科學。社會研究?雖然主題是在她的總體計劃,如果有縮短的學校的一天,它會下降。
此外,西蒙說,考試成績並不是真正反映學生的能力和太模糊,幫助她確定個體的需要。她渴望有一個評估,依靠的不僅僅是書麵問題,能夠捕捉到更加多樣化的技能出現在她的教室和價值在工作場所,如藝術人才,精通電腦,技術與機械設備診斷和解決問題。西蒙問:“如果我們區分指令來滿足所有學習者的需要,我們為什麼不區分測試?”
簡單,但是不滿意,答案是曆史和效率。測試狀態用來滿足NCLB的後裔在1920年代創建的模型旨在把學生分為組織更有效的跟蹤能力。八十年,世界大戰,和技術革命(或兩個)後,測試相同的結構。
政策製定者敬畏看似這些測試的客觀性,但事實是,考試也不是善於確定如何教師教和學生學,測試廠商自己會告訴你。有影響力的作者斯蒂芬•鄧巴愛荷華州測試基本技能,解釋說,這些測試可以幫助照亮全州教育趨勢但太寬刷的細節在學校和課堂,NCLB法案的要求。
評估測試可能顯示的整體有效性九年級的課程,例如,或表明趨勢在年級大的人口群體。但鄧巴說,當你開始測量學生的能力在達拉斯的伍德羅·威爾遜高中,例如,你比較去年的今年的九年級學生,問責製考試分數不是很有用。“他們可能會告訴你更多關於特性,結合孩子比成就水平和教與學的質量,”鄧巴解釋道。
換句話說,州政府,聯邦政府的要求下,使用測試來測量他們其實並不很好,然後懲罰學校——在某些情況下,否認學生文憑——基於結果。
“大多數決策者都是泥土無知的關於這些測試應該和不應該被用於,”w·詹姆斯·波名譽教授在加州大學洛杉磯分校和美國教育研究協會,前總統告訴PBS前線在2001年。“悲劇是他們建立了一個係統的教育質量的主要指標是完全錯誤的。”(See Popham's article, "F進行評估”,2005年4月)。
有幾個原因,測試是不精確的。(參見“在標準化測試失敗”)。有些是技術性的:一個模棱兩可的問題,設置難度的誤判,計分錯誤。的國家教育考試委員會和公共政策波士頓學院,記錄情況計分錯誤判孩子暑期學校或使他們錯過畢業前被發現的錯誤。一些個人原因:西蒙,他的學校去年勉強躲過了國家幹預,已經五年級學生到達測試一天生氣的個人問題;別人努力靜坐在壓力下的測試或淚流滿麵。
最與測試的不可靠性的測量一年的學習在一個單一的考試。不可避免的是,死記硬背那麼多報道成一個簡短的測試引線國家主要依靠多項選擇題——大規模的最快和最便宜的方式評估。這樣的短暫然而重要的考試限製方麵學生可以展示他們的技能,因為它是不可能的測試數以百計的國家標準在幾個小時內,他們離開老師強調的猜測。蘭迪·班尼特擁有傑出的科學家的稱號美國教育考試服務中心寫道,這種嚴格的評估收益率“狹義的熟練度”定義為“在相對較短的技能需要成功,很人工物品。”
即使州交出使用開放式的作文問題人類得分手和支付,可以鼓勵公式化的回答這些問題。上一學年,我看著校長(加索爾)的波士頓高中應試會話中斷警告學生不要偏離了寫作公式,主要觀點,證據,分析,聯係,免得他們失分。激烈“不創新,”她說。“你聽我抱怨標準化測試,這就是為什麼。有一種方法,它的方式評估協調員告訴你。”
同樣令人不安的是,今天的評估強調狹窄幾何和語法等技能,並省略大量教育工作者和商業領袖所說的對現代學生學習是至關重要的:創造性思維,解決問題,合作團隊合作、科技素養和自主性。然而因為NCLB責任測試尾巴搖狗的整個教育體係——威脅補救和國家接管學校不足,不是測試經常不教。
簡而言之,美國的問責製是一個堡壘的過去扼殺我們應對未來的能力。
高股權
好消息是有工作進行中創造更好的測試,將挑戰學生演示更有創造性,適應能力,反過來,鼓勵教師教他們。一些模型評估已經存在;例如,許多專家兜售學生能力國際評估計劃”(PISA)考試的挑戰,開放式的問題在實際的話題,諸如氣候變化或塗鴉的利弊。甚至更高級的模型,利用計算機模擬,將可用在幾年內,正逢其時。
商業領袖們發出嚴重警告如何艱難的美國經濟將罐如果我們的教育係統不能得到自己的19世紀,快捷。他們強烈要求有創造力,生產力,和藹可親的員工,不僅孝順的考生,他們指出,作為評估的一個至關重要的工具。微軟的創始人比爾·蓋茨,解決州長,首席執行官,國家教育和教育工作者2005年峰會上高中,說,“美國的高中是過時了。甚至當他們完全按照設計工作,他們不能教我們的孩子今天他們需要知道什麼。在國際競爭的最大和最好的知識工人的供應,美國落後。”
新委員會美國勞動力的技能召開的非營利組織國家教育與經濟中心2006年12月發出鮮明的報告預測,我們的生活標準”將穩步下降”與其他國家相比,除非我們改變方向。全球化的經濟創造了,委員會寫道,“一個舒適的世界與想法和抽象是一份好工作的護照”;的本質是什麼,它補充說,是“一個深靜脈的創造力不斷更新本身。”According to the report, whatever efforts we make to modernize education, without a complete overhaul of the testing system, "nothing else will matter."
國會議員喬治·米勒,眾議院教育和勞工委員會主席和首席房子牧人NCLB(喬治·盧卡斯教育基金會的顧問委員會的成員),理解這個問題。beplay体育安全原法律離開國家選擇自己的測試,但是現在他相信大多數州選擇測試的成本和效率比教育價值。“他們不真正衡量一個學生知道或者不知道,”他說,“還是學生深度理解,這樣他們可以應用他們的知識。”
真正的解決問題
在過去,國家沒有太多選擇的類型的大規模評估可用,他們也沒有要求。這是即將改變。
測試製造商創建更複雜的評估,在多個角落的,如果和課程與教學更加緊密地聯係在一起,可以描繪出一個清晰的學生學習。他們建造這些評估測量一分之二十世紀技能我們如此迫切需要,旨在衡量孩子的準備,等待真正的挑戰。如果這些測試成功了,他們不僅可以提供更好的信息兒童現實生活還準備給教育者激勵去做他們想做的事:以引人入勝的方式教孩子成為全麵發展的人,終生學習者,不鑽與幹試驗準備學校的生活。
許多研究人員正在測試,可能是模型——或者至少一塊更大的模型。華盛頓大學的約翰•Bransford和Andreas Schleicher指標和分析部門的負責人經濟合作與發展組織(oecd)(經合組織),製造商PISA考試,相信學生需要解決動態問題,那些需要真實的研究和允許他們在現場學習,不僅運用先驗知識。
一個靜態的問題,例如,會問考生說從內存如何拯救一個瀕臨滅絕的鳥類。動態評估(在一個真實的例子從Bransford實驗室)要求學生使用可用資源來了解需要防止white-eyed綠鵑成為瀕危物種。這是一個新穎的問題,要求學生獨立挖掘信息和有足夠的了解,提出正確的問題達成一個解決方案。
Bransford說他不相信舊的比喻,學生必須掌握一係列內容特定的事實才能有祈禱的學習高階技能。“正好相反,”他說:學生需要了解大概念在每個學科,如物種之間的關係生命周期及其滅絕的風險,但是從高階的技能,使他們有相關的事實。
在ETS——寫SAT和跳級考試,其中,管理五千萬測試——蘭迪·班尼特是實地試驗評估使用大約三十年的心理學研究的孩子學習。它的研究,他說已基本排除測試設計。他發現的關鍵策略包括要求學生結合多種技能(如閱讀和做比較),呈現問題有意義的上下文,並使用各種形式的信息,如文本、圖和符號。伊娃貝克,加州大學洛杉磯分校的監視點國家研究中心評估、標準和學生測試提出一個:從未有人提出一個解決方案沒有解釋為什麼他或她選擇了它。
不是所以不同於評估珍妮弗·西蒙想為她的學生。她想要使用的考試比寫格式,包括視覺或口頭組件。“你將不得不花時間麵試一個學生,讓學生有一個口頭反應,”她說。“這就是我們教他們閱讀。”
技術就是將使這場革命成為可能。電腦已經啟用Bransford、貝克和其他創建互動問題,搜索環境中,學生可以發現新的信息,和模擬使問題更迷人的和真實的。這些工具可以記錄學生的答案以及他們的思維過程:他們尋找什麼樣的信息,每個Web頁麵上他們花了多長時間,以及他們可能已經偏離軌道。
英國政府創造了一個計算機能力測試挑戰青少年解決現實問題(如何控製人群在足球比賽,例如)利用網絡資源。這些工具變得更複雜,更熟練地測試廠商使用,更好的評估。
所以,進步是未來——在某些情況下,已經到來,但經合組織的Andreas Schleicher說,“這是一個漫長的道路,我們開始。”的biggest hurdles are time and money (richer tests require more of both to design and administer), and that rarely tamable beast, politics. The next version of NCLB, due later this year, could pump federal money into pilot projects to help states create richer assessments, paired with richer curriculum -- but only if that clause survives the political battle to come.
愛荷華州測試作者斯蒂芬•鄧巴懷疑更複雜的測試可以大規模進行。他說,盡管努力是值得的成本和時間來創建和開放式的問題,並從每年讓他們可比,也可以讓它不切實際。可怕的,因為它聽起來,人工智能可能扮演著重要的角色在這種考試的得分。如果技術變得足夠成熟,處理棘手的問題的答案,它可以更好地評估更便宜。
ETS的蘭迪·班尼特,另一方麵,認為建立一個評估體係的前景與21世紀的要求是“相當不錯”。的key is to convince states that it's practical, affordable, and clearly better than today's exams at providing meaningful information. At least one state, West Virginia, has begun asking the test makers it contracts to emphasize more modern problems and skills. Another hurdle will be for politicians to temper their devotion to multiple-choice questions and get comfortable with a little subjectivity. "For any assessment," Schleicher says, "you have to make a trade-off between objectivity and relevance."
詹妮弗·西蒙,是根據前瞻性試驗成功的製造商和決策者——為了她的學生,最重要的是。“我們負責是一件好事。我們做一些測量的進展我們的學生是一件好事,”她說。“我隻是不同意這樣做。”