TOEIC® リサーチ

英語評価、教育、学習の推進

スコアの一貫性

TOEIC スコアは一貫性があり信頼性があります。 TOEICリサーチプログラムの研究により、スコアは言語能力に関連する要因のみによって影響されることが保証されています。スコアの一貫性や信頼性を評価する際には、テスト項目、試験用紙、試験の実施、評価者など、複数の側面が考慮されます。

再設計されたTOEICブリッジ®試験のためのフィールドスタディ統計解析

本論文は、再設計されたTOEICブリッジ試験の開発に貢献したフィールドスタディの結果を報告しています。統計分析は、再設計されたTOEICブリッジのテストスコアが一貫性を持ち、テストスコアが基礎から中級レベルの英語能力を示す意味のある指標であるという主張を支持する初期証拠を提供しています。

続きを読む

新しい言語能力評価の質と利用の根拠を立証する:再設計されたTOEICブリッジ®テストの妥当性の議論

本論文は、再設計されたTOEICブリッジ試験の「妥当性」の議論をまとめています。妥当性の主張は、スコアの一貫性、妥当性と公平性、適切なテスト使用、そしてポジティブな影響に関する4つの主要な主張で構成されています。これらを合わせると、測定の質とテストスコアの意図された用途について一貫した物語が示されます。妥当性の主張と支持証拠を考慮することで、読者は再設計されたTOEIC Bridgeテストが自分の状況に適しているかどうかをよりよく評価できるはずです。

続きを読む

TOEIC®リスニングおよびリーディングテストの質をサポートするためのスコア変動パターンのモニタリング

TOEICのような大規模で重要な試験プログラムでは、受験者が時間をかけて複数回受けることもあります。これらのいわゆる「リピーター」のスコア変化パターンは、テストの全体的な品質(例:信頼性、妥当性、意図された用途)を支持するために分析できます。本研究では、前述のスコア変動パターンを検証し、TOEIC^®リスニングおよびリーディングテストのスコアの信頼性と妥当性を評価することを目的としました。

続きを読む

サブグループ間の英語能力測定:スコア公平性評価を用いたテストの公平性評価

英語能力評価は対象となるテスト集団を対象としており、多様な人口統計学的、社会文化的、教育的背景を持つ受験者を含む場合があります。テストは公平であると仮定されており、受験者の異なるサブグループが得たスコアは同じ意味を持ちます。テストの公平性を評価する一つの方法は、各サブグループごとにリンクテストを作成し、リンクされたテストの結果と元のテストスコアを比較することです。

続きを読む

ETSがTOEIC®のスピーキングおよびライティングテストの回答をどのように採点するか

通常、人間の評価者は、自動システムよりも幅広い言語能力を評価する能力があるため、スピーキングやライティングテストの採点に使われます。本稿では、ETSがTOEICスピーキング・ライティングテストにおいて、人間評価者によるスコアの信頼性と一貫性を、訓練、認証、体系的な管理・統計的モニタリング手続きを通じて保証する方法を説明しています。

続きを読む

TOEIC®リスニングスコアを使ったTOEIC®スピーキングスコアのリンク

テストプログラムでは、異なる管理機関で複数のテスト形式が使用され、試験用紙の過剰露出を防ぎ、受験者が試験内容の事前知識を得る可能性を減らすために使われます。代替形式の統計難易度にわずかな差が生じることがあるため、テストスコアリンクと呼ばれる統計手法が一般的に用いられ、これらの難易度差を調整してテスト形式同士を比較可能にしています。

続きを読む

受験者の背景情報を活用したTOEIC®リスニングおよびリーディングテストの成績を各学区でモニタリング

TOEICリスニング・リーディング試験の採点プロセスには、異なる形式や試験実施でスコアが一貫性を保ち、スキル解釈が公平であることを確認するためのモニタリング手順が含まれています。本研究は、受験者の背景に関する情報を活用して、さまざまな監視手法の強化に活用できる可能性を探ります。分析結果は、いくつかの背景変数が実施機関間のテストパフォーマンスの監視を容易にし、TOEICリスニング・リーディングテストの品質管理手順を強化し、スコアの一貫性の証拠を強化する可能性を示唆しました。

続きを読む

TOEIC®スピーキングおよびライティングテストにおけるテストスコア平均の安定性評価

教育テストでは、スコアスケールの一貫性を維持し、時間経過によるスコア平均の変動の原因を理解することが非常に重要です。これにより、受験者の能力に関する解釈が各試験(または形式)ごとに比較可能になることが保証されます。統計的手法を用いて、本研究はTOEICスピーキングおよびライティングテストのスコアの一貫性を検証しました。

続きを読む

再設計されたクラシックなTOEIC®リスニング・リーディングテストにおける内容、問題統計、受験者の成績の比較

本論文では、古典的なTOEICリスニング・リーディングテストと2006年に再設計されたものの内容、信頼性、難易度を比較します。再設計されたテストは、現在の言語能力モデルをよりよく反映するために若干異なる項目タイプを含んでいましたが、テストはバージョン間で類似していると判断されました。

続きを読む

TOEIC®スピーキングテストの拡張問題形式に関する統計分析

テストプログラムは、テスト項目や課題が実際の活動とよく整合しているかを確認するために、定期的に評価を見直すべきです。このため、コミュニケーション言語学習をより効果的に支援し、暗記やその他の試験戦略の使用を抑制するために、ETSは2015年5月にTOEIC^®スピーキングテストの一部問題の既存の形式を拡充しました。

続きを読む

更新版TOEIC®リスニング・リーディングテストの統計解析

テストが受験者のニーズを満たし、利用者を採点し続けるためには、テストプログラムが定期的に評価を見直すことが重要です。このため、英語の使用が絶えず変化し、グローバルな職場や日常生活で個人が一般的にコミュニケーションを取る方法に対応するため、2016年5月に改良版TOEICリスニング・リーディングテストが設計・開始されました。

続きを読む

評価や課題をまたぐTOEIC®スピーキングスコアの一貫性

本研究はTOEICスピーキングスコアの一貫性を調査します。この分析は一般化可能性理論に基づく手法を用いており、研究者はテスト手順の側面(すなわち評価者やタスク)がスコアにどの程度影響を与えるかを検証できます。この結果は、TOEICスピーキングのスコアが一貫しているという主張を裏付ける証拠となっています。

続きを読む

TOEIC®スピーキングおよびライティングテストにおける個別レーターの成績モニタリング

本稿では、TOEICのスピーキング・ライティングテストで実施された手順を説明し、個々の評価者のパフォーマンスを監視し、全体的なスコアの質を向上させることを目的としています。これらの多面的で慎重に開発された手順は、人的ミスの可能性を最小限に抑え、TOEIC試験の採点の一貫性と信頼性に寄与しています。

続きを読む

TOEIC®スピーキングおよびライティングテストのテスト再テストの信頼性およびスコアの変更の代替フォーム

スコアの信頼性や一貫性は、同じ受験者のスコアが異なる試験形式間で一貫しているかどうか(いわゆる「同値形式信頼性」)や異なるテストの機会(「テスト再テスト信頼性」)など、さまざまな方法で検証できます。この研究では、異なる試験形式間(例:1〜30日、31〜60日)におけるTOEICスピーキングおよびライティングのスコアの一貫性を調査し、テストのスコアは同等形式のテスト再テスト信頼性がかなり高いことを発見しました。

続きを読む

TOEIC®スピーキング・ライティングパイロットスタディの統計分析

本論文は、TOEICのスピーキング&ライティング試験開発に貢献したパイロット研究の結果を報告しています。テストスコアの信頼性分析では、複数の評価者間の信頼性(複数の評価者がスコアに合意していること)や内部整合性(同一テストの項目間の相関に基づく指標)など、いくつかの種類のスコア一貫性の証拠が見つかりました。

続きを読む

再設計されたTOEIC®リスニング・リーディングテストのフィールドスタディ結果

本稿は、2006年に再設計されたTOEICリスニング・リーディングテストのフィールドスタディの結果を説明しており、問題とテストの難易度、信頼性、そして従来のTOEICリスニング・リーディングテストとの相関関係の分析が含まれています。結果は、別の比較可能性研究(2010年のLiao、Hatrak、Yuの研究)と一致しており、そこでは再設計されたテストの信頼性の証拠が示され、再設計されたテストのスコアは従来のTOEICリスニング・リーディングテストのスコアと似た解釈や利用が可能であることが示唆されています。

続きを読む