思っているほど簡単ではありません。
OpenAIのChatGPTやMetaのLlamaのような大規模言語モデル(LLM)は、しばらくの間私たちの生活を変えてきました。しかし、選べるモデルが多すぎて、多くの人がどのモデルが「最高」かを疑問に思っています。この問いに答えるために、研究者や利用者はしばしばベンチマークやテストを参照し、どのモデル が最も難しいコーディング問題を解決した か、あるいは 最も高いSATスコアを獲得したかを調べます。この投稿では、三つのポイントを論じます。
- ベンチマークも従来のテストも、現代のLLMの能力を評価するには適していません。
- 人間のような能力を示すLLMは、人間のような知能や認知を持たないものの、サイコメトリクス分野にまったく新しい次元を加えます。
- 結果を自信を持って解釈できるLLM評価に至るには、かなりの研究が必要です。
ベンチマーク
ベンチマークは伝統的にソフトウェアとハードウェアのパフォーマンスを評価するために用いられてきました。ベンチマークは、ツールが 設計された一連のタスクを完了させることでそのパフォーマンスを評価します。画像分類器は画像の選択を分類することでベンチマークされ、コンピュータプロセッサは複雑な計算を一連の実行することでベンチマークされます。
LLMに関しては、ベンチマーキングは単純ではありません。まず、LLMは特定のタスクのために訓練されているわけではなく、 テキスト分類には使えますが、テキスト分類器ではありません。エ ッセイの採点には使えますが、自動採点器ではありません。などなどです。したがって、ベンチマークの結果は どの LLMが使われたかだけでなく、 どのように 使われたかにも依存します。この曖昧さは結果の信頼性を損ない、例えば 別のプロンプトが違う結果を生んだかどうかという議論を生むことが多いです。
ベンチマークに共通する他の2つの問題は、飽和状態(最近のモデルがほぼ完璧なスコアに近づいていること)と、ベンチマークの要素の一部または全部が モデルのトレーニングデータに含まれている汚染です。これらの問題は特にLLMの場合深刻で、その進歩が速く、訓練データには ほぼインターネット全体が含まれているためです。
これらの問題やその他のため、多くのLLMベンチマークはLLMの全体的な品質を評価する価値が限られています。この欠点は、さまざまな品質基準に基づいてベンチマークをベンチマークする取り組みを促しています。これらの取り組みは、慎重に作成された問題セットで構成され、飽和や汚染を監視し、必要に応じて更新または再調整する高品質なベンチマークのセットを確立することを目指しています。この点で、ベンチマークは従来のテストに近づきつつあり、初期からそのような慣行が一般的でした。しかし、ベンチマークからAIのテストへと移行すること自体が課題を生みます。
テスト
ほぼすべての人が、大学入学、専門職免許取得、運転免許取得など、人生のどこかで検査を受けた経験があります。このようなテストはベンチマークとは著しく異なります。最も重要なのは、テストが評価する能力や知識があまりにも複雑で、直接測定できないということです。例えば、学生の大学進学準備は、複数の学部プログラムに通わせることでテストされるものではありません。したがって、 テストは有効性を保つために慎重に設計される必要があります。
妥当性の一般的な2つのタイプを考えてみましょう:予測的証拠と内容関連証拠です。テストの妥当性に関する予測的証拠は、そのスコアが重要な観察可能な結果やパフォーマンスをどの程度予測するかによって確立できます。例えば、 SATスコアは学業成績のさまざまな指標とよく相関しています。内容関連の証拠は、テストがテストされる能力を反映していることを示唆しています。例えば、テニスの文脈で出題された代数の問題は、テニスのルールの知識を必要としるべきではなく、テニスのルールの知識だけで答えられるべきでもありません。
人間向けに設計されたテストをLLMに任せると、妥当性の問題は必然的に生じます。予測的証拠を例に挙げましょう:LLMはSATで高点を取ることはできますが、大学には進学しません。司法試験には優秀な成績で合格できますが、少なくとも当面の間は、法廷で依頼人を代理することはできません。同様の問題は内容関連の証拠にも見られます。もし人間が代数テストで高得点を取れば、その人がテストの項目で探る代数の法則を理解し、適用できると推測できるかもしれません。一方で、LLMがどのように代数問題を解決し、本当に一般化可能な法則を学ぶのかという問い はまだほとんど答えが出ていません。一般的に、テスト対象の構造が複雑であればあるほど、LLMのテストスコアの解釈はより推測的になります。すなわち、医療免許試験で高得点を取ったLLMは、本当に臨床医学や患者管理能力の知識を示すものなのでしょうか?
しかし、より多くのタスクや責任がLLMに委ねられるようになる中で、LLM専用に設計された初期のテストが登場しつつあります。例えば、顧客サービスにLLMを使用している企業は、新しいモデルを展開する前にテストする必要があります。このようなテストは、最初は ベンチマークや健全性チェックの集合として始まるかもしれませんが、時間が経つにつれてより構造化され、以前のモデルが直面し誤った課題の重要な側面を捉える高度な項目を含む傾向があります。その結果、このテストはモデルが会社の顧客サービスニーズを満たす能力を示す指標としてますます有益なものとなるでしょう。
このような「プロトテスト」は有用ですが、多くの場合独自的で範囲が限られており、科学的探求よりも運用上の必要性によって駆動されます。
研究課題
前述の通り、LLMの非人間的な知能は、テスト理論や心理測定学の多くの前提を無効にします。どのテストがLLMに適切であり、どのテスト結果の解釈が科学的に信頼できる実験で支持できるかを明らかにするには、大規模な研究努力が必要となるでしょう。
さらに、巨大なデータセットで一から訓練された大規模ネットワークが、人間のような能力を持つ唯一のシステムであり続ける可能性は低いでしょう。例えば、 ジョイント埋め込み予測アーキテクチャ(JEPA )は環境を直接観察し相互作用することでより人間的な方法で学習するのに対し、 ニューロシンボリックAI は記号的推論と明示的知識表現に焦点を当てています。したがって、研究者たちはまもなく同じ能力を生み出す多様な 知能 の種類に直面することになるでしょう。
これは根本的な問いを投げかけます。つまり、基礎となる知能の種類とは独立して構成概念を定義できるのでしょうか?例えば、「批判的に考える」能力は人間やさまざまな種類のAIにとって同じものなのでしょうか?もしそうなら、どのように 測定 すべきでしょうか?それぞれの知能タイプは独自のテストを必要とするのでしょうか?例えば、批判的思考テストは受験者の識字度の違いを考慮しつつも、すべての受験者が方位を数え知っていると仮定することが多いです。LLMの場合は逆で、設計上高いリテラシーを持っていますが、 基本的なスキルが不足している可能性があります。そのような違いを考慮しない限り、LLMのテスト結果は誤解されやすいままです。
最後に、AIテストとより確立された心理測定学の分野との間に興味深い相互影響があるかもしれません。例えば 、年齢、性別、文化、教育などの要因に加え、 神経障害も個人の認知過程に影響を与えることが示されています。この文脈で、AIは神経多様性知能の極端な例と見なすことができます。この極端なケースをよりよく理解することで、より個別化され、公正で客観的な評価が可能となり、独自の認知特性を持つ学習者が自分の能力の全スペクトルを発揮できるようになります。
結論として、LLMの評価は大きな課題ですが、ETSの同僚研究者と私は、現代の心理測定学の技術を限界に押し広げ、改善する機会に大きな期待を感じています。
マイケル・ファウス はETS研究所の研究科学者です。彼の研究は倫理的なAIに焦点を当てています。