TOEICプログラムの理論
テストが設計された目的に適しているかどうかはどう判断すればよいのでしょうか? この根本的な妥当性の問題は、テスト開発者、研究者、スコア利用者にとって懸念事項です。 専門的な基準は、テスト開発者がステークホルダー(すなわちテストの影響を受けるすべての人)に対して、テストの意図された使用が適切に支持または正当化されていることを納得させる必要があるという見解を受け入れるようになりました。 この見解は、テスト使用を正当化するための議論ベースのアプローチ で 形式化されています。
論文『TOEIC® テストの妥当性の論拠を表現し評価し、論証ベースのアプローチ、TOEIC テストにおける その実装、そしてステークホルダーへの利益について分かりやすく紹介しています。
論文は、検証における著名な議論ベースのアプローチである評価利用論点の簡単な概要から始まります。 次に、TOEICテストの検証引数を構築するためのプロセスを説明します。
このプロセスには、試験記録、モニタリング活動、研究など多様な情報源からの証拠が組み込まれました。 最後に、論文はTOEIC検証の議論が主に使われる2つの方法、すなわち研究の優先順位付けとステークホルダーとのコミュニケーションの概観を提供します。
全体として、このプロセスはTOEIC研究がTOEIC試験の適切な利用を支援するために広範かつ批判的かつ厳密なアプローチを取ることを示しています。 この取り組みは、すべてのテスト開発者が支持すべき重要な主張に焦点を当てることで、ステークホルダーの評価リテラシーを向上させることも意図しています。
目的
議論に基づくテスト利用の正当化アプローチは、テスト開発者がステークホルダー(すなわちテストの影響を受けるすべての人)にテストの意図された使用が正当であることを納得させる必要があると前提としています。 この目的のために、テスト開発者はテストスコアの解釈方法や意思決定の用い方について明確な主張 を行っています。 これらの主張は、テスト開発プロセスや進行中の研究に関する文書などの証拠によって支持または否定されます。 テスト開発者の主張とそれを裏付ける証拠を検証することで、関係者はテストの意図された使用が正当かどうかをグローバルに評価することができます。 この手法は以下に用いられます:
- ガイドテスト開発
- 進行中の研究の方向性を提供します
- 異なるステークホルダーグループに対する説明責任のツールとして機能します
構成
評価使用論証とは、「特定の言語評価の開発と使用を導く概念的枠組みであり、その評価に基づいて私たちが行う解釈や使用を含む」(Bachman and Palmer, 2010, 99)です。 このフレームワークは、テストスコアの解釈方法や意思決定の用い方について、テスト開発者が主張する階層的な主張の集合として構成されています。 一般的な形は以下の 通りです。

上の図の各構成要素は請求を表しています。 最高レベルでは、テスト開発者がテストに基づく意思決定の結果がすべての利害関係者グループにとって有益であると主張 することがあります(例:意思決定の誤り が最小限に抑えられました)。 これはスコア解釈から導かれる決定 、 すなわち決定が公平であり、関連機関(教育、社会、組織、法的)の価値観に配慮しているという主張を前提としています。 スコアに基づく受験者の能力解釈を正当 化するために、テスト開発者は解釈の意味、公平性、一般化可能性、関連性、十分性について主張します。 最後に、これらの主張はすべて、受験者の成績に基づくスコアが 試験形式、実施機関、評価者間で一貫しているという 基本的な主張に基づいています。 したがって、AUAにおける各請求は以下から構成されます:
- テスト利用の結果(例:受験者の能力に関する解釈から導かれる決定)
- その結果の性質(例:意思決定が価値に敏感かつ公平である)
意思決定者とテスト開発者の双方が、評価利用の正当化に責任を分担しています。 テスト開発者は、テストスコアが一貫性を持ち、スコアが受験者の能力の解釈に使われることを裏付ける証拠を提出することが求められています。 意思決定者は、意思決定が価値観に敏感かつ公平であること、そして意思決定の結果が有益であることを示す必要があります。 残念ながら、意思決定者はこれらの主張を十分に裏付ける専門知識(例:標準設定の文書化、意思決定誤差の推定)を欠いている場合があります。 したがって、意思決定者とテスト開発者の協力によってAUAは強化される可能性があります。 少なくとも、テスト開発者は意思決定者からのフィードバックを求め、テスト利用に基づく決定や結果に関する主張が正当かどうかを判断すべきです。
ユーティリティ
全体として、AUAの構造は、意思決定やその結果に関する現実的な懸念と、テスト開発者 の伝統的な関心である信頼性 と 妥当性を結びつけた包括的なテスト利用の根拠を提供します。 主張、令状、支持、反論の包括的なリストとして、テスト利用の全体的な議論の弱点を特定し、研究やテスト開発プロジェクトの優先順位付けに利用できます。
最後に、上記の図に示すような単純な階層的な請求集合として、AUAは公平性、影響力、信頼性、妥当性など、テストの有用性の重要な特性を決定する主要な問題を示すコミュニケーションツールとして利用できます。 個人やステークホルダーグループの懸念はさまざまであり、研究の課題の一つはこれらの懸念に一貫性を持って対処しつつ、ステークホルダーの評価リテラシーを高めることです。 懸念事項には以下が含まれます:
- スコアの安定性
「どうやってすべての評価者が採点ガイドに従うようにするの?」 - 楽譜の解釈
「基準の妥当性を計算するとき、その基準とは誰、あるいは何なのか?」 - これらの解釈に基づく決定
「他の機関のカットスコア はどのくらいですか?」 - 試験使用の結果
「TOEICの試験は求職者にとってどのように役立ちましたか?」 - これらの問題に関連するテスト使用例
「採用担当者はどうやってTOEICスコアが市場のニーズを満たしていると判断できるのか?」
特定のステークホルダーグループを対象としたAUAのバージョンを提供することで、強力なリサーチプログラムを持つテスト開発者は、ステークホルダーが疑問に答えを見つけ、より洗練された評価製品の消費者となる手助けができるかもしれません。
このアプローチが再設計された TOEIC Bridge® テストにどのように実装されたかについては、「新しい言語能力評価の質と使用の理由を立たせる:再設計されたTOEIC Bridgeテストの妥当性の議論」という論文で説明しています。 本論文では、スコアの一貫性に関する具体的な主張を支持する証拠を研究者が述べています。 テストスコアの解釈、スコアに基づく決定、テスト使用の結果。 この総合は、ステークホルダーがテストが何を測定し、どのように使用されるのかについて実際の主張(および証拠)に批判的に関与することを促します。 このレベルの関与は、ステークホルダーがテストが自分たちのニーズに適しているかどうか、またテストの効果的な利用を促進する役割をよりよく理解するのに役立ちます。
バッハマン, L. F., & パーマー, A.(2010)。 言語評価の実践。 オックスフォード:オックスフォード大学出版局。
シュミットガル, J.(2017年)。 TOEIC® テストの妥当性の議論の明確化と評価(研究覚書番号) RM-13-09)。 ETS。
シュミットガル, J., シド, J., カーター・グリッソム, E., およびリー, L.(2021年)。 新しい言語能力評価の質と利用の根拠を立証する:再設計されたTOEICブリッジ® テスト の妥当性の議論(研究報告番号)RR-21-20)。 ETS。