e-raterエンジンの仕組み

エッセイの採点時、e-rater^® エンジンは以下の通りです:

特徴が読者のスコアを予測するだけでなく、執筆課題と論理的に関連していることを検証してください
トピックから外れていたり一貫性のない回答は自動的にフラグを立て、レビューのために脇に置かれます
スコアリングの特徴を統計モデルで組み合わせて最終スコア推定値を算出します

e-raterエンジンは継続的に開発・改良されており、重要かつ難しい執筆能力の側面をモデル化する能力を拡大することを目指しています。継続的な研究は、e-raterエンジンの能力を強化し、エッセイ内の議論の構造を特定し評価し、学生や受験者の文章における言語の創造的使用を評価することを目指しています。

E-raterの特徴

e-raterスコアリングに用いられる特徴は、ETSにおける自然言語処理の約20年にわたる研究の成果であり、各特徴は独立したサブ特徴で構成されている場合があります。また、e-rateエンジンに基づくK–12の学年横断的なライティングスコアの垂直連動スケール「発達的ライティングスケール」の確立も行われています。

e-raterスコアリングエンジンの現在の特徴は以下の通りです:

語彙指標に基づく内容分析
語彙の複雑さ/語彙
文法、用法、機械的誤りの割合
スタイルコメントの割合
組織と開発スコア
報われるイディオム的な表現

エッセイに総スコアを割り当てるための特徴調整は、特定のプロンプトに合わせて調整することも、「汎用的」にできるため、同じe-raterモデルを使ってさまざまなプロンプト回答を採点できます。

スコア合意

e-rateterエンジンに適した課題(回答の主張の正確さではなく文章の質で評価されるエッセイ長の執筆タスク)では、人間の評価者との合意が非常に強い場合があります。Attali, Bridgeman & Trapaniが2010 年に『Automated Essay Writing with e-rater v2.0 (PDF)』で発見したように、e-rater engineがTOEFL^® 独立試験およびGRE^® 問題の課題に対して人間評価者と合意した割合度は、独立した2人の人間評価者間の合意よりも高かった。