筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2020年度  英語教育学Ⅶ

 

Chapter 19

The statistical analysis of test data

H.K & K.T

 

■本章の目的は、テストデータの分析がどのように評価とテストの向上に役立つかについて示すことである。

■テストに関する統計情報は主に以下の2つがある。

 1.テスト全体にかかわるもの

 2.テストを構成する個々に項目に関するもの

 

Analysis of the test

Frequency tables

■テストの分析にはまず、受験者個人の得点リストが必要である。

(ここでは、186名が受験した100問プレースメントテストをもとに進めます)

11人の得点表ではなく、データを作成するために、度数分布表を作成。

 

Histograms

■度数分布表からはわからない全体像の把握のために、ヒストグラムに凝縮することができる。

■ヒストグラムによって、得点範囲内にいる受験者の数など全体の特徴が一目瞭然である。

 

Measures of central tendency: the mean, the mode and the median

■全体像が把握できたら、平均値・最頻値・中央値を求められる。

 

Measures of dispersion: the standard deviation and the range

■平均値だけでは度数分布がかなり異なることがあるので、点数がどのように分散しているのかを示す必要がある。標準偏差

■標準偏差によって、平均値からの距離を見ることができる。

■標準偏差以外にもレンジと呼ばれるものもある。

 

Reliability

※信頼性に関して意味などは5章を参照してください。

■信頼性に算出は計算方法が複数あり、それぞれの方法で数値の結果が異なるが、過大評価を免れるために、最も低い数値 (係数) のものを選択するのが望ましい。

■信頼性係数が高すぎると思った場合は、より実用的なテストにするために、項目を削除することも考えられる。

■今回例として使用している100項目のテストでは、low-stakesのプレースメントテストを目的として実施しており、信頼性係数が高かったため、2回目のテストでは100項目のうち40項目を削除したものを作成した。

■一方で信頼性係数が低すぎると思われる場合、1つの対処法としては項目を追加することが挙げられる。

※どうすれば信頼性が高いものになるかは5章で述べた通りである。

 

 

Discussion questions

1.      What do you think is the most important thing in creating a test? Please think about something other than numbers.

教員になったとして、あなたが考える「テストを作るうえで重要なこと」は何ですか。平均点などの数値以外にも触れて考えてみてください。

 

Ch 19 後半(p247~)                                                                        

The Standard Error of Measurement

n  標準誤差(SEM)は、その人がテストで実際に得た得点と関連して、その人の本当の得点について言及できる。

n  他の条件が同じであれば、信頼性が高いほど、SEMは小さくなる。信頼性の最低推定値(0.94)をとると、OURTESTSEM2.90となる。

n  SEM2.90と分かると、次のような記述ができる。

n  もし誰かがテストで40点を取ったとしたら、その人の本当の点数は37.1点から42.9点の間(つまり、40点プラスマイナスSEM)であると68%確信できる」

n  そして、その人の本当の点数は34.2点から45.8点の間(つまり、40プラスマイナス2×SEM)であると95%確信できる

n  SEMは、テストの成績に基づいて個人を決定しなければならないときに役立つ情報を提供する。また、OURTESTが十分に信頼できるかどうかを決定するのにも役立つ。

 

Item analysis

n  項目分析の目的は、各項目がテストにどのような貢献をしているかを調べること。

n  不具合や非効果的と判断された項目は、修正したり、却下したりすることができる。

 

Classical item analysis(古典的テスト理論)

これは通常、facility valuediscrimination indexの算出、多肢選択式の場合はdistractorの分析などを含む。

Facility values(正答率)

n  0点か1点しか取れない項目のfacility valueは、その項目で1点を取った受験者の割合のことである。したがって、100人がある項目に回答し、37人が正しい回答をした場合、facility value0.37 となる。

n  80人がテストを受けて、そのうち56人が1つの項目を正解した場合、facility value0.7056÷80)になる。

n  facility valueはどのように利用できるかは目的によって異なる。

n  特別語学コースを受講する上位10パーセントの生徒を特定するための能力テストを開発するのであれば、簡単な項目、つまり、高いfacility valueを持つ項目はあまり必要ないそのような項目は、上位10パーセントとそれ以外のほとんどの人を区別することができない。そのためには、facility value0.10に遠く及ばない項目の比率を高くすることが理想的となる。

n  一方、幅広い能力をカバーし、多くのレベルのクラスに人々を配置することを意図したプレイスメントテストを開発する場合、項目間の大きなギャップがなく、幅広いfacility valueを持つ項目が必要となる。

n  一般に、テストに関する基本的なテキストでは、10かの二項対立で採点されない、いわゆる「部分得点」項目のfacility valueの問題は議論されていない。しかし、そのような項目の難易度を比較することは有用である。

n  そこで、ある項目の平均点をとり、それをその項目の最大得点数で割ってみることを提案する。 この方法で、0点/1点の項目に対しても、上記の手順と同じ結果が得られる。

Discrimination indices

n  弁別指数とは、ある項目が弱い人と強い人をどの程度識別できるかを示す指標である。弁別指数が高いほど、その項目はよく識別されていることになる。

n  理論的な最大値は1であり、全く弁別できない(弱い人と強い人が同じ)項目は、弁別指数が0となる。弱い人に有利な項目(弱い人の方が強い人より成績が良い)は、弁別指数はマイナスになる。弁別性が高ければ高いほど、テストの信頼性が高まるので、重要となる

n  弁別指数は、通常、相関係数である。弁別指数の通常の計算方法は、項目に対する受験者の成績を、テスト全体に対する成績と比較することである。

n  もし、その項目の得点(0点または1点)がテストの得点とよく相関していれば、結果として得られる相関係数は良い弁別性を示すことになる。

n  厳密には、ある項目で個人が取った得点と、その項目での得点を差し引いたテストでの得点の間で相関を計算する必要がある。

n  そうしないと、その項目の得点がテストの得点に含まれてしまい、相関の強さが誇張されるからである。

n  この方法で弁別指数を計算する場合、集団として、テスト全体(または分析中のテストの一部)で成績のよい人は、その中の特定の項目で成績がよいはずだという前提があることに注意しなければならない

 

 

n  最も大きな指数を持つ項目が、最もよく識別できる項目である。したがって、ここで最も識別力の高い項目は項目5であり、指数は0.734である。

n  最も判別性の低い項目は項目100であり、指数は0.124である。ここで疑問として、「満足のいく弁別指数とはどのようなものであろうか」という疑問が生じるが、これには絶対的数値はない。

n  重要なのは、指標の相対的な大きさである。

n  まず、信頼性係数を見ることである。信頼性に問題がある場合、信頼性に十分に寄与していない項目がないかどうか、弁別指標を見る。マイナスの指数を持つ項目は、まず除外する必要がある。(実際には、信頼性係数が満足できるものであっても、テストから削除する候補となる)

n  その後、正の指数が最も低い項目を探す。項目自体に明らかに欠陥がある場合は、テストから除外するか(より良い項目に置き換える)、改善する必要がある。

n  ただし、弁別指数が低い項目は必ずしも欠陥があるわけではない。OURTESTの項目99がその例です。弁別力が低いのは、非常に難しいからである。facility value0.022しかない(受験者186人中2人しか正答していない)。

n  このように、非常に簡単な項目や非常に難しい項目は、必ずと言っていいほど弁別指数が低くなる。

n  このように、全体として識別力が低い項目であっても、テストに残したいと思うことがある。非常に簡単な項目であれば、試験の開始時に受験者が自信を持てるようにするために、そのままにしておく可能性もある。もし、非常に難しい項目であれば、テストを受けた人全員をよく弁別することはできないが、最も強い受験者を弁別することができるかもしれないため、残しておく可能性もある。

n  OURTEST 100 から 60 に減らしたとき、すべての項目をfacility valueによって分類した。そして、最も低い弁別指数を持つ項目を削除した。これは、このテストの特殊な目的から、すべてのレベルで弁別することが求められたからである。

n  このように、30人という少数の生徒の得点しか分析できない場合、上記のような形式的な弁別指標はあまり意味をなさない。

n  しかし、生徒を上半分と下半分に分け、各項目の成績を比較することは価値がある。もし、グループ間で差がない項目や、低いグループの方が、実際に成績が良い項目があれば、その項目は精査する価値がある。

Analysis of distractors

n  多肢選択式の場合、弁別指数やfacility valueの計算に加えて、distractorの性能を分析する必要がある。うまくいかない(つまり、ごく少数の受験者にしか選ばれない)distractorは、テストの信頼性に寄与しない。

n  しかし、簡単な項目の場合は、(非常に多くの受験生がテストを受けていない限り)異なるdistractor間で共有される不正確な回答があまりない可能性があるので、注意が必要である。

 

Item response theory(項目応答理論)

n  ここ数十年、新しい分析方法が開発され、これらはすべて項目反応理論の下にあり、言語テストでこれまで最も利用されているのはRasch分析と呼ばれる形式である。

n  Rasch分析は、「テストの項目には特定の難易度があり、難易度の高い順に並べることができ、受験者は一定の能力レベルを持っている」という仮定から始まる。

n  この条件下で、複数の受験者がテストを受けた場合の理想的な結果は、表4のようになる。最も能力の高い受験者は8、最も能力の低い受験者1である。最も難しい項目は項目67であり、最も易しい項目は項目1である。

 

n  4はテストで起こることを理想的にモデル化したものだが、たとえこのモデルが正しくても、人の成績が自分の能力を完全に反映しているわけではないことが分かっている。現実の世界では、個人の成績は次のようなものになると予想される。

n                 111101010

n  Rasch分析では、このようなモデルからの逸脱を正常なものとして受け入れている。しかし、モデルが予測するものとは著しく異なる試験結果には注意が必要となる。モデルに当てはまらない受験者を特定し、モデルに当てはまらない項目を特定する。

n  以下は、OURTEST Rasch 分析の例。この分析のすべてを説明することはしないが、この例を使って、テスト上の項目がどのように機能しているかを理解するために、どのような貢献ができるかを示す。

n  最初の列は、その項目を示している。2列目は、その項目の正答数(186件中)を示している。3列目は、その項目がRaschモデルにどれだけ適合しているかを示している。正の値が高いほど、その項目はあまり適合していない。最も適合度の低い項目は項目10である。これは比較的簡単な項目で(186人中160人が正解)もしこれが適合しないなら、より優秀な受験者が間違っているはずである。

n  そこで、Rasch分析で不適合とされた人物を見てみる。その中で、項目10で「unusual」と結果を得た人が2人いた。1人目は、10番である

n  出力から、10番はテストで非常に高いスコア(88)を持ち、特に2つの項目(高い残差を持つ項目310)で予想外のパフォーマンスをしたことがわかる。これらは簡単な項目の、集中できていなかったか(他に異常な結果が出た項目が4つあることに注意する)、知識に非常に驚くべきギャップがあるか、あるいは、どちらかまたは両方の項目に何か問題があると結論付けることができる。

n  2人目は、8項目で異常な結果が出ている。項目10の残差値が比較的小さいのは、この人の能力が中程度(40点)であることを反映しており、この項目が不正解であってもそれほど不思議ではない。

n  ここまでの状況として、不適合と思われる項目があり、その項目で異常な行動をとった人が2人いるということである。この二人を分析から外すと、項目10の結果は違ってくる:

n  ITEM 10    143    -3.7332    -3.7363

n  項目はうまくフィットするようになった。項目を見て、何も問題がない場合、問題は受験者であり、項目ではないという結論に達する。何が問題なのかを見つけるために、その受験者を追跡調査することができる。

n  もし、ある項目がRasch分析で不適合とされ、その不適合を少数の受験者のおかしな成績で説明できない場合、その項目を検査したときに、項目自体に問題があることが予想される。

n  これは、「テストが得意な人は、どの項目でも得意なはずだ」という古典的分析の仮定と類似している。学習・習得されるものには複数の次元があるかもしれないが、このことは古典的分析以上にRasch分析の実用的な価値に影響を与えないように思われる。

n  また、Rasch分析の特徴として、すべての候補者に適用しなければならない測定値の標準誤差を1つにするのではなく、候補者ごとに個別の標準誤差を与えるということが挙げられる。

n  28番は、この3人の候補者の中で最も弱く(能力値のマイナスが大きいほど弱い)、標準誤差が最も大きくなっている。3番は中程度の能力(ゼロに近い)であり、標準誤差が最も小さい。

n  28人の真のスコアが実際のスコアに近いことよりも、3人の真のスコアが実際のスコアに近いことの方が、はるかに信頼できる。

n  もう一つ、Rasch分析の使い方を紹介する。Rasch分析は、異なるグループの人々で項目を試行するときに特に役に立つ。

n  例えば、170の項目を試したいとする。1つのグループに回答してもらうには多すぎるということで、2つのグループを設定する。そこで問題になるのは、2つのグループの能力が同等でない場合、一方のグループが取った項目のfacility valueと、もう一方のグループが取った項目のfacility valueをどうやって比較するかということである。

n  強いグループは、弱いグループとは異なる「易しさ」の尺度に項目を置くことになる。ある項目には、他のグループが取った場合とは異なるfacility valueが与えられることになる。この問題に対する答えは、アンカー項目と呼ばれるものを使用することである。

n  これは、両方のグループが回答する、できれば「良い」ことが知られている項目である。つまり、今回のような場合、30個の項目をアンカーにすることができる。残りの140項目は、2つのセットに分け、各グループが合計100項目を実施することになる

n  項目が実施され、採点されると、Rasch分析には、共通のアンカー項目を使用して、他のすべての項目を同じ尺度に置く機能がある。アイテムバンクの利用が増える中、これは特に価値のある機能である。

n  古典的な分析もRasch分析も、よりよいテストの開発に貢献するものである。どちらか一方を選ぶという対立関係ではなく、補完関係としてとらえるべきである。

 

The analysis of criterion-referenced tests

n  criterion-referenced test(目標基準準拠テスト)の分析は、norm-referenced test(集団基準準拠テスト)の分析とは多少異なる。このチャプターで提示した記述統計量(平均、標準偏差など)は、criterion-referenced testについても計算することができる。

n  項目分析については、norm-referenced testと同様にfacility valueを計算する。しかし、弁別指数の算出方法は異なる。criterion-referenced testでは、ある項目が、テスト全体で基準レベルに達した人(Achievers)とそうでない人(Non-Achievers)をどれだけ弁別できるかに関心がある。

n  1. まず、受験者を達成者(A)と非達成者(N-A)に分けることから始める。通常、この2つのグループのそれぞれの人数は異なる。例えば、112人の受験者のうち78人が基準レベルに達している場合、Aグループは78人、N-Aグループは34人となる。

n  2.各項目について、その項目で合格した人の割合を計算する。たとえば、ある項目の合格者がA 72人、N-A 12人であれば、比率は0.920.35となる。

3. 次に、A群の比率からN-A群の比率を引く。これで弁別指数が求まる。つまり、0.92 - 0.35 = 0.57となる。弁別指数が非常に低い項目は、よく観察し、その理由を確認する必要がある(例えば、N-Aグループで誤答する人が少ないと予想される簡単な項目であるなど)。弁別指数がマイナスの場合、N-Aグループの方がAグループより良い結果を示したことになり、その項目に問題があることを示唆する。