筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2020年度  英語教育学Ⅶ

 

Chapter 4 Validity

T.H

n  2章では、テストが意図されたものを正確に測定していれば、そのテストが妥当であるとされている。この妥当性は言語テストの中心的な概念であり、「構成概念の妥当性」という言葉が妥当性の概念を指すために使われるようになっている。

n  テスト作成者は、スコアが構成要素の貢献度において最大となり、無関係な要素(一般的な知識や母国語の背景など)の貢献度が最小となるようなテストを作成する。

n  テスト作成者がどんなに努力しても、テストが構成概念の妥当性を持っていると主張するだけでは不十分で、「内容妥当性(content validity)」、「基準関連妥当性(criterion-related validity)」を含むいくつかの形式を用いて証拠とする。

 

Content validity:内容的妥当性

n  第一の証拠である「内容的妥当性」は、テストの内容に関するものである。テストの内容が対象としている言語スキルや構造などの代表的なサンプルを構成している場合、そのテストは内容的に妥当であると言える

n  例えば、文法テストは、文法の知識や制御に関する項目で構成されていなければならない。しかし、それだけでは内容的妥当性は確保できない。テストは、関連する構造の適切なサンプルを含んでいる場合にのみ、内容的妥当性を持つ。その関連する構造が何であるかは、テストの目的によって異なる。

n  読解力テストの内容は、受験者が必要とする特定の読解スキル(例:要点を読み取る、情報を読み取る)や文章の種類と難易度を反映したものでなければならない。

n  テストが内容的に妥当かどうかを判断するために、そのテストが含んでいるスキルや構造などの仕様をテスト作成の非常に早い段階で決める必要がある。

n  1つのテストに対して項目数が多すぎないように、仕様書によってテストに含まれる要素を原則的に選択する。(仕様書の作成に関するアドバイスは、第7)

n  テスト仕様とテスト内容の比較は、内容の妥当性を判断するための基礎となる。これらの判断は言語教育とテストに精通していている人であり、テスト作成に直接関与していない人に委ねるのが理想的である。またテストの内容的妥当性が高ければ高いほど、そのテストが本来測るべきものを正確に測っている可能性が高くなる。

n  テストでは仕様書に記載されている主な分野が十分に表現されていない、あるいは全く表現されていないテストはテストが正確であるとは言えない。

n  加えてテストされなかった分野は、教育や学習において無視される分野になりがちだという有害な波及効果をもたらす可能性がある。

n  実際、多くの場合テストの内容に関して、テストをするのが重要ではなく、簡単にテストできるかでよく決定されている。このような事態を防ぐ最善の方法は、テスト仕様書を作成し、テスト内容がそれらを正しく反映したものになるようにすることである。

n  このような理由から、「内容的妥当性」は、テストが開発されている間に行われるべきであり、テストが使用されるまで待つべきではない。

特定の目的のための言語テストが設計されている場合、その分野の専門家に相談することが重要である(例:航空管制官のテストでは航空英語のテストでは航空管制官)。

 

Criterion-related validity:基準関連妥当性

n  第二の証拠である「基準関連妥当性」は、テストの結果が、受験者の能力に関する信頼性の高い評価とどの程度一致するかの度合いに関係する。(この評価は独立しており、テストが検証される際の基準となる)

n  基準関連妥当性には、基本的に「併存的妥当性(concurrent validity)」と「予測的妥当性(predictive validity)」の2 種類があります。

 

Concurrent validity:併存的妥当性

n  併存的妥当性とは、テストとその基準がほぼ同時に検証された場合に確立される

n  例えば、スピーキングにおいて各生徒に45分かかる場合、これは現実的ではなく、生徒一人当たりテストに割ける時間は10分程度と考えられる。そこで問題となるのが、10分間のセッションで、生徒の能力を十分正確に見積もることができるのか。これに関して内容的妥当性の観点では、テストを受けるすべての生徒の中から無作為にサンプルを選び比較する必要がある。生徒にテストを45分間行い、また信頼性の高い採点を行うために、4人の採点者を使う(第5章参照)。このテストと10分間のテストと比較し、一連のスコアを比較する。ここで「相関係数」(妥当性を検討する場合は「妥当性係数」)と呼ばれるものを用いる。2つのスコアが完全に一致すると係数は1となりテストは妥当性を持ち、完全に一致していなければ係数は0になり妥当性はないと判断される。

n  10分しか試験時間を与えられない状況なら、このテストを波及効果としてその学生の全体的な英語能力の達成度の評価に含めることができる。しかし、このテストを「正確なスピーキングの達成度指標」とみなすことはできない。

n  係数の一致をどの程度で満足と見なすかは、テストの目的や重要性によって異なる。例えば係数が0.7の場合、外交の高官における選考手順にスピーキングテストでは低すぎると考えられる。一方で、就職活動の一環としての簡単な面接では全く問題ないかもしれない。

 

なお、この検証の基準は必ずしも実績のある、より長いテストである必要はありません。テストは、例えば、教師による生徒の評価に対して、評価自体が信頼できるものであれば、妥当性があるかもしれない。

 

Predictive validity:予測的妥当性

n  これはテストが受験者の将来の成績をどの程度予測できるかということである

n  例えば、ある能力試験が、英国の大学院で学ぶ学生の能力をどの程度予測できるかを指している。ここでの基準となる尺度は、大学の指導教官が感じた学生への英語力の評価、あるいはコースの結果(合格/不合格など)かもしれない。この基準となる指標の選択については、監督者の主観的で未熟な判断や、英語の能力以外にも多くの要素(教科知識、知能、モチベーションなど)がある。

*この章の最後にある「参考文献」ではBritish CouncilELTSテスト(lELTSの前身)の検証に関する報告書を参照してください。

n  もう一つの例は、プレースメントテストを検証しようとする場合である。(プレイスメントテストは、特定の生徒に最も適したクラスを予測しようとするものである。)

n  この検証にはコースが開始された後に、誤配置と思われる学生の割合を調査する。そして、誤配置の数(および授業や学習への影響)と、より正確に学生を配置できるテストを開発・管理するためのコストを比較することができる。

n  テストの開発では内容的妥当性、併存的妥当性、予測的妥当性の全てが関係している。例えば、語学学校向けの英語のクラス分けテストを開発する際に、Hughes et al.1996)は、生徒のテストでの成績と、語学学校の既存のプレースメントテストの成績を比較して、そのテストが生徒のクラス分けに成功したかどうかを調べた。その際、成功した結果を受けて初めてテストが出版された。

 

Other forms of evidence for construct validity

n  テストの内容的妥当性と基準関連妥当性を調査することで、そのテストの全体的な妥当性、つまり構成的妥当性の証拠となる。しかし、これらが唯一の証拠ではない。

n  例えば、読解力を測定するためのテストで、テストの内容的妥当性の検証によって、様々な読解の下位能力がテストで十分に表現されていることを確認できるかもしれない。また併存的妥当性の検証によって、テストでの生徒の成績と生徒の能力との間に強い関係があることがわかるかもしれない。しかし、これらからテストの項目が“本当に”読解力の下位の構成要素を測定しているかどうかは、まだわからない。

n  Construct(構成概念)という言葉は、言語能力の理論で仮定された根底にある能力(または特性)である。「未知の単語の意味を文脈から推測する能力」はその一例である。このような能力が存在するかどうか、またそのような能力を持つことができるかどうかを確立するのは、経験的な研究の問題である。またそのような能力が存在し、測定可能であり、実際にそのテストで測定されているかどうか実証的な研究が必要である。研究によって証拠が確認できなければ、その能力を測定しようとしたテストの部分が構成的妥当性を持っているとは言えない。

n  妥当性に対する厳しい要求は、実際のテストの状況に適しているのか、という疑問を持つかもしれない。テストを開発する際には、内容的妥当性の関連を理解するのは簡単である。そして、もしテストに基準関連妥当性があれば、併存性や予測性の有無にかかわらず、確かにそのテストはうまくいっていると言える

n  もしテストの一部が、私たちが求めていることを正確に測定しているかを証明できない場合、筆者は「リーディング能力」や「ライティング能力」のような常識的な構成要素においては、問題ないと考えている。例えば「ライティング能力」を直接測定しても、それほど心配する必要はない。たとえ

n  実際に、実用的なライティング能力の“間接的な”テストを計画しようとする。私たちはまず、ライティング能力の理論を参考にして、テストに含まれるべき内容とテクニックについての指針を探す必要がある。この理論でライティング能力にいくつかの下位能力があることを教えてくれる(句読点のコントロール、スタイルへの要求への感度など)。これらの下位能力を測定するための項目を作成し、パイロットテストを実施する。このテストが本当に作文能力を測定しているかどうかを検証するために、作文能力に関する広範なサンプルを入手する。

n  このテストが最初に実施されたときに、信頼性のあるスコアが得られているかを検証するために、パイロットテストのスコアを比較する。係数が高いレベルで一致していれば、テストでライティング能力を測定しているという証拠になる。

n  これまで満足のいくライティングの間接テストを開発したとしても、下位の構成要素を検証していない場合がある。検証のために、いくつかの異なるテスト方法でそれぞれの構成要素を測定する。テストでの作文を、仮説に基づいて個別に採点し、下位の構成要素に関する一連のスコアを得る。係数を算出し、同じ構成要素の得点間の係数が、異なる構成要素の得点間の係数よりも一貫して高ければ、テストは個別に下位の構成要素を測定しているという証拠になる。これは特にテストを診断目的で使用したい場合に価値がある。

n  テストの構成概念の妥当性についての証拠を得るもう一つの方法は、テスト受験者が項目に回答するときに実際に何をするかを調査することである。このような情報を収集するために、2つの主要な方法が使用される。それはThink aloudと②retrospectionである。

受験者が項目を回答する際に、自分の考えを声に出す

受験者は回答したときの自分を振り返り、考えていたことを記録する

どちらの場合も、自分の考えを記録するのが一般的だが、後者の場合は、質問票を使うこともある。問題点は、まず①では考えを声に出すことで、その項目に対する自然な反応を妨げてしまうことである。②の問題点は、考えが誤って記憶されたり、忘れられたりする可能性があることである。このような問題点はあるが、このような研究は、項目がどのように機能するかについての貴重な洞察を与えてくれる。

 

すべてのテスト検証は研究活動であり、言語テストをより健全で科学的な基盤に乗せることができる。それは一夜にして実現するものではなく、まだまだ長い道のりである。

 

Validity in scoring

n  テストが有効であるためには、項目だけでなく、回答の採点方法も妥当でなければならない

n  リーディングテストでは、短い文章での回答が求められることがある。これらのテストで読解力だけを測るものだとしたら、回答の採点にスペルや文法が考慮されている場合は妥当ではない。複数の能力を測定することで、問題とする1つの能力の測定がより正確でなくなる。場合によっては誤字脱字や文法の不備によって、受験者が何を意図しているのかわからない場合がある。

n  このような場合、問題は採点ではなく項目の問題になる。同様に、スピーキングやライティング能力を測定したいのであれば、妥当な方法でそれらを引き出すだけでは不十分であり、それらの能力の評価も妥当でなければならない。

 

Face validity

n  テストが、測定するものがわかるようになっている場合、そのテストは「表面的妥当性」を持つと言われている。

i.e., 発音能力を測定するように見せかけて、受験者が話すことを必要としないテスト

⇒表面的妥当性に欠けるテストである。表面的妥当性は、構成概念の妥当性の証拠とは見なされないが、非常に重要な意味を持っている。

n  表面的妥当性を持たないテストは、受験者、教師、教育機関、雇用者に受け入れられない可能性がある。単に使用されないだけかもしれないが、使用されたとしても、それに対する受験者の反応によっては、本当の意味でのパフォーマンスが得られない可能性がある。

 

新しい技術、特に間接的な尺度を提供する技術は、ゆっくりと、慎重に、説得力を持って導入しなければならない。

 

How to make tests more valid

n  受験者の人生に大きな影響を与える可能性のあるHigh-stakes testの開発では、テストが実施される前に、完全な検証を行う義務がある。教師が作成したテストの場合、完全な検証が可能であるとは言えない。このような状況では、次のようなことを勧める。

(1)テストの明確な仕様書(第7章参照)を作成する。

この仕様書は測定されるべき構成要素について知っている全てのことを考慮している。またテストには、これらの内容の代表的なサンプルを含めるようにする。

(2)可能な限り、直接テストを行う。

間接的なテストを行う場合⇒研究文献を参照し、採用するテスト技法を用いて関連する基礎的な構成要素の測定が実証されていることを確認する。

(3)回答の採点がテスト対象と直接関係していることを確認する。

(4)テストの信頼性を高めるためにできるだけのことをする。

テストの信頼性が低ければ、そのテストは妥当ではない。

 

Validity and fairness

n  言語テストが公平であることを望まれる。

n  その公平性を保つための第一の条件は、テストが妥当だということである。テストが目的とするものを正確に測定してこそ、公平であると言えることは明らかである。また公平性のための第二の条件として、テストは公正に使用されなければならない

n  テストの公正な使用には3つの要素がある。

(1)全ての受験者に、テストで自分の能力を発揮する機会を平等に与えること

これはテストの構造とそこで使われる技術を事前に熟知しておくことを意味する。また、テストのモデル版を受験する機会を与え、可能であればフィードバックを与えるべきである。テストのハンドブック(項目のサンプルや採点基準などが記載されている)は、オンラインまたはハードコピーで入手できるようにする(第7章参照)。

受験者が不利にならないような配慮が必要で、特に障害を持つ受験者には不利益を与えないように配慮する必要がある。

 

(2)テストおよびテストの採点は、質の高い機器を用いて、適切な環境で行われること

テストの実施に関するアドバイスは、第18章を参照してください。

 

(3)テストが意図された目的のためだけに使用されること

意図された目的のためにのみ使用され、設計されていない目的のために使用されてはならない。例えば、大学での学業を目的とした言語能力テストを使用する場合、移民の言語能力を測るテストとして使用してはならない。これは明らかに不公平なことだが、これが書かれていた当時のイギリスではこのようなことが起こっていた。

 

最後に、テストの内容は、全ての潜在的な受験者の社会文化的規範に対して敏感でなければならない。そうでなければ、受験者のパフォーマンスに悪影響を与え、能力を過小評価することになりかねない。

 

Extended notion of validity

■この本では、テストの妥当性についてほとんど網羅できている。 しかし、妥当性の概念は、本章で説明したものを超えている言語テストの理論家がいることは受け入れられなければならない。

■少なくとも研究者の中には,妥当性はテスト自体に存在しているわけではなく、それが実際に置かれる用途として、“妥当性がある”(もしくは妥当性がない)と言っているにすぎず、時には「結果的妥当性」と呼ぶこともある

■読み手は、この拡張された妥当性の概念が、実際に上記で公平性として特定したものであることを認識する可能性がある。測定対象を正確に測定し、実際の使用方法に関係なく防御可能な方法で使用されるテストの必要性については誰もが同意することができるが、テスト自体の妥当性について議論する可能性を排除することは役に立たないと考えている。

 

Last word

■テスト開発者は、テストを可能な限り妥当なものにするためにあらゆる努力を払う必要がある。 それを検証するには、さまざまな種類のデータの収集が必要である。

■公開されたテストは、妥当性検証の詳細を与える必要がある。これがないと、潜在的なテストの購入者がその妥当性(および適合性)を判断することはほとんどできない。妥当性情報が利用できないテストは、注意して扱う必要がある。

 

Reader Activities

Consider any tests with which you are familiar. Assess each of them in terms of the various kinds of validity that have been presented in this chapter. What empirical evidence is there that the test is valid? If evidence is lacking, how would you set about gathering it?

     テストの種類

⇒英検のリーディング(読解)問題に関して

     妥当性に関する経験的証拠

採点における妥当性⇒回答において、英文法やスペルエラーも考慮して採点するべきなのか?

 

     証拠の不足がある場合,何を集める必要があるか?

・あらかじめ採点項目を出す(読む力に特化した/スペルチェックを含むと明記する)

・採点者間で、採点基準を明確化し共有する。

 

Discussion Point

1. Have you ever taken a test that lacked validity? Discuss the problem and how do you think it to make up?

(妥当性の担保されていないテスト(i.e., low stake test)を受けた経験はありますか。そのテストの問題点と解決策を話し合ってください。)

 

2Regarding predictive validity, for example, what are the cautions for using TOEIC as a placement test for English classes at universities?

(予測的妥当性について、例えば大学の英語の授業のクラス分けのPlacement TestTOEICを用いることへの注意点は何か。)