トーフル研究

TOEFL iBTアップデートの内幕:設計による妥当性

2026年4月23日

60年以上にわたり、TOEFLは学術的な英語能力の主要な評価機関として機能し、大学入学やその他の高等教育や専門的な場面での意思決定において重要なリソースとなっています。

1964年の試験開始以来、ETSは言語教育と評価の最新な考え方、測定科学の進歩、そして変化する社会的ニーズを反映するために、TOEFLを複数回改訂してきました。現在のバージョンであるTOEFL iBTは2005年に作成されました。今年1月、ETSは試験の更新版を発表しました。

このアップデートは同じ核心目的を維持し、ETSでの数十年にわたる測定研究に基づく妥当で信頼できる評価としてのTOEFLテストの長い歴史を基盤としています。これらの強化の背後にある設計哲学について、さらに詳しくお伝えできることを楽しみにしています。

意味のある結果を出す英語試験の構築

すべてのテストにおいて重要な要件は、その結果の主張および最終的な利用に有効であることです。言い換えれば、結果は意味のあるものでなければなりません。これらの有効な主張や使用の証拠も多様かつ十分であるべきです。学生がさまざまな課題で自分の能力を示す機会が多ければ多いほど(例:異なる種類の項目を多く出すなど)、結果への信頼(妥当性)は高まります。

妥当性の議論には証拠が必要です。この証拠は、人が何ができるかについて私たちが収集した情報、すなわちテスト課題とその課題で得られるスコアを指します。

入学目的の英語能力テストには、以下の課題が含まれなければなりません:(1) 4つの言語スキルすべてをカバーすること(読み、作文、リスニング、話すこと);(2) 大学学習に典型的なこれらのスキル(例:読解と書き書き)の統合的な活用を反映すること;(3) 実際の言語使用の特徴を含む。

テストで得られるスコアは、適切な精度で全体的な言語能力の信頼できる推定値であり、必要な言語能力レベルの範囲にわたって一貫して正確で正確でなければなりません。言語能力のテストでは、多様な学術環境で言語を活用して成功する能力を正確に反映している必要があります。

過去20年間で、現代の学術環境は新しい技術や教育モデルによって促進される新しいコミュニケーション方法を重視するように進化してきました。例えば、今日の学生は、講義を受動的に吸収するだけでなく、グループ学習の場で世界中の仲間とコミュニケーションを取ることができなければなりません。また、より幅広い英語のテキストを解釈できる能力も必要です。

現代の学術環境で成功するために必要な英語力を測定し、有効な結果の有意義な証拠を収集するために、更新されたTOEFL iBTは多様な課題を取り入れ、言語能力の有意義な証拠のコレクションを拡充しています。

タスクタイプの多様性と量の増加

更新されたTOEFL iBTでは、元のフォーマットの堅固な基盤を基に、より多様な試験課題が追加されました。受験者の成績は、講義を聞いたり教科書を読んだりするだけでなく、学業成功に寄与する他の大学の文脈でのコミュニケーション能力と一致している場合に意味があります。

しかし、テスト開発者にとって共通の課題の一つは、実際の活動を非常によく模倣したテストタスクは実行に非常に時間がかかり、測定情報や関連証拠が比較的少ないという点です。

例えば、1時間のエッセイ1本だけで構成され、1から5のスケールで採点されるライティングテストを想像してみてください。このようなテストは「本物」と見なされるかもしれませんが、学生の言語能力を狭く捉え、単一の項目を超えた学生の全能力を測る機会を制限します。

質的には、この仮定のテストは、一種類の執筆のみを成し遂げる能力に関する情報を提供します。定量的にはわずか5点しか得られず、異なるパフォーマンスレベルを確実に識別する能力が制限されています。このアプローチはランダムな状況にも脆弱です。例えば、普段は有能なライターがエッセイのテーマで苦戦すると、その結果は深刻になることがあります。

別のアプローチとしては、より多くのタスクだけでなく多様なタスクも用い、能力の広い視野と測定の信頼性を高める方法があります。この目標を達成するために、更新されたTOEFL iBTには基礎的な言語能力を測定する課題と、コミュニケーション能力をより深く理解できる近代化された学術課題が含まれています。

TOEFL iBTがスピーキングセクションをどのように近代化したか

TOEFL iBTのスピーキングセクションは、この設計哲学の実践を示しています。まず、よく調査された話す課題「 聞いて繰り返す」は、話された文を理解し、正確に再現する能力を評価するものです。学生は言語入力を素早く解読し、その後、言語を正確に再生して応答を生み出し、基礎となる言語能力の発達を反映させます。

この課題には、口頭コミュニケーションに必要な基礎的なスキルが含まれています(Levelt, 1989)。さらに、高度に発達した内的言語システムを持つ個人は、より効率的かつ正確に長い文を再現できるため、文の長さを変えることで、幅広い言語能力の一般的な言語能力を効率的に測定することが可能です (Davis & Norris, 2021)。

「聞いて繰り返す 」は、学生が事前録画された面接官と模擬会話に参加するコミュニケーションスピーキング課題「 インタビュー」と組み合わせて使用されます。面接は研究参加など様々な学術状況の中で行われ、学生は面接の文脈に関連する合計4つの質問に採点されます。最初の質問は事実情報や個人的な経験に焦点を当て、後半の問題ではより広範な問題について意見を表明し支持するよう求められます。

この課題は、学生がさまざまなトピックについて話す能力を測定し、適切なサポートと詳述をもって明確で一貫した回答を生み出します。また、この課題は、理解可能で流暢で、多様な語彙や文法構造を効果的に活用できる発話能力も測定します。

基礎的な(聞いて繰り返す)とコミュニケーション能力(インタビューを受ける)を対象としたこの課題の組み合わせは、構成表現や学生の口頭言語能力に関する関連証拠の多様性を提供しつつ、学術的な文脈での意思決定のためのスコアの意味も維持しています。

TOEFLの結果と実際の学業成績の結びつき

基礎的スキルやコミュニケーションスキルに焦点を当てる課題に関わらず、意味性は課題の遂行が学業成功に適した現実世界の言語能力を予測することを意味します。そうでなければ、テストスコアを付けるのは無駄な作業になるでしょう。

「聞いて繰り返し」と 「バーチャル面接 」の課題では、ハワイ大学マノア校の最近の研究で、これらの課題のスコアが教室で割り当てられた他のタイプのコミュニケーション言語課題の成績と高い相関を示しました。

研究者たちは、リスニングとリピート課題と2つの教室でのコミュニケーション課題それぞれのスコアで相関が0.84、 バーチャルインタビュー 課題では0.83〜0.85の相関を発見しました。これらの結果は、更新されたTOEFL iBTの両課題が典型的な学術スピーキングの成績を非常に良好に予測できることを示唆しています。

TOEFL iBT読解・作文セクションの近代化

ETSは同様の戦略を導入し、課題の種類の多様性を高め、生徒の成績を評価する機会を多様化しました。これは読解と作文のセクションでも行われました。

読書セクションの新たに追加されたタスク「 単語を完成させる」では、読書パッセージ内の2語ごとに後半が削除されます。生徒は欠けている文字を埋めて元の単語を再現し、一貫した文章を作成する必要があります。

この課題は一般的にCテストとして知られ、テキストの処理と理解能力、さらに語彙、構文、スペルの知識を効率的に提供します。この課題を補完するために、より伝統的な読解課題、例えば「 学術的な文章を読む」は、学術学習で一般的な情報収集や意味理解能力の洞察を提供します。

ライティングセクションでは、「 学術ディスカッションのための書く 」課題は、リテラシースキルのコミュニケーション面を評価します。この課題は、講師が提示する質問についての継続的なクラスディスカッションの文脈で行われます。学生は関連する推論、知識、経験をもとに自分の見解を加えます。また、仲間の投稿にも応答することがあります。

さらに、 学術的なディスカッションのための執筆 は、学術的な文脈でますます一般的になっている執筆の一種をシミュレートしています。また、執筆の文脈を提供し、作家が特定の読者や状況に適切に書けるかどうかを明確にするのに役立ちます。これは、従来のライティングテストで「裸の」トピックで、対象者や状況の説明がない場合とは対照的です。

これらの革新的な特徴に加え、「 学術的議論のための書く 」課題は、成功する書面コミュニケーションの他の側面、すなわち一貫性や明瞭さ、詳述の質、言語の幅広さと正確さも測定します。

まとめると、更新されたTOEFL iBT試験の開発は、強力な妥当性証拠を基に、より多様性と、現代の高等教育機関の厳しい期待と多様な学術環境を反映した追加課題を推進するという興味深い設計課題でした。

前述の内容や構成文の妥当性に加え、TOEFL iBTテストは新たに実装された適応型テスト設計、測定科学の革新、テストセキュリティの向上なども恩恵を受けています。このチャンネルで詳しく知りたい方はお楽しみに!

参考文献

デイビス、L.、ノリス、J.(2021年)。 効率的な英語能力評価のための革新的な誘発模倣課題の開発 (TOEFL研究報告書第96号)。ETS。 https://doi.org/10.1002/ets2.12338

Isbell, D. R., および Crowther, D.(出版予定)。学術英語スピーキングテストの現実世界での関連性の調査:主観的評価と言語パフォーマンス特性の推算。言語テスト。

レベルト、W. J. M.(1989年)。話すこと:意図から発音へ。MITプレス。

パールマン、M.(2008年)。テスト設計図の最終調整。C. A. Chapelle, M. K. Enright, J. M. Jamieson(編)『 英語の外国語としてのテストの妥当性議論の構築 』(pp. 227-258)。ラウトレッジ。