筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2017年度  異文化言語教育評価論

lonsky, L. (2015).  Ch. 14 Bayesian informative hypothesis testing (pp. 329-345)

 

Chapter 14 まとめ>

Hypothesis Testing

■古典的なテスト理論では、全ての平均値が等しいという帰無仮説が検証され、平均値は等しくないということが示されてきた。

One-way ANOVAを用いて、研究者は初めに予めセットした統計的な差の水準を使って帰無仮説を棄却することを求めた。

■このアプローチは伝統的な実験群と統制群の対比という方法が一般的で、ランダム変数に基づく帰無仮説が基準 (benchmark) となって有意 (significant) または無作為 (nonrandom) ではない差が推定される。

■帰無仮説に基づく分析のアプローチの代わりとなるものがmean scoreの配置 (order) についてのtheory-driven hypothesisである。

Ntzouflas (2009) で述べられているベイズのデータ分析の最近のトレンドはKruschke (2011) やLunn, Jackson, Best, Thomas, and Speigelhalter (2012) などが例に挙げられ、帰無仮説の代わりとなるものを提唱している。それらは研究者が根拠のある理論的な主張に基づく仮説を検証するときに最適となる。

■帰無仮説の検証とベイズの概念的な違いは、平均の差についての予測が違いの階層の中の事前確立? (a priori in a hierarchy of differences) であると述べられ、それがtheory-drivenな主張によって理由づけられている点である。

Prior researchは仮説に影響を与える。

■研究者は予測された平均値の差の配列がデータの中で実証されるかということを確かめることが目的であるため、このアプローチには帰無仮説は不要である。

■階層的な配列の平均についての仮説は予測された平均の差の配列が実際に観測された場合にのみ明確に支持される。

■したがって、予測された妥当性のある仮説は、事前のデータ分析によって表され、ANOVAが用いられる。

■不要な帰無仮説の検証を避けるという利点に加え、ベイズのアプローチは多重比較における間違いや平均値の複雑な比較などを避けることができる。

 

Bayesian Model Selection-An Illustration

■ベイズのモデル選択 (Bayesian model selection: BMC) では仮説のセットの中から最も適したものを選択する。

Confirmatory analysisは先の研究や理論に基づく明確な論拠を持つ仮説の検証には理想的である。

Research synthesesやメタ分析の結果とともに使われる中で、これらは演繹的に主張を検証する頑健な手法を提供する。

■リスニングやリーディングのテストの妥当性を検証する際に実際のデータを使ってこれらの手法がどのように使われるのかということを説明するため、本研究は多肢選択式のテストを検証する (2つのリーディングテストと2つのリスニングテスト)

     ■本研究では、外国語の読解と聴解の測定における得点の解釈を支持する根拠を検証する必要性が生じる。

■外国語の読解熟達度テストがこの例の焦点になっている。

■テスト細目ではrating scaleLevel1~5まである項目がデザインされている。

■リサーチクエスチョンは「ある操作されたセッティングの中で測定された、熟達度レベルは、熟達度を測定するために作られた項目の平均の困難度と一致するか」である。

■テストは6段階の読解熟達度 (Level 0: 当て推量〜Level 5: advanced proficiency) を反映するために開発された。

extensive trainingに続いて、テスト開発者はテキストを選択し、リーディングまたはリスニングを5段階で測定する項目を作成した。

Level 0は当て推量のレベルが割り当てられ、このレベルに関して特定の項目は書かれなかった。

■テスト開発者が一貫してproficiency frameworkを操作できるようにする (operationalize) ことは、どんなframe-work based testの妥当性を構築する場合にも必須である。

5段階の枠組みの中で、予測された階層はどの言語テストの平均であっても次のような配列を規定する: μ1 < μ2 < μ3 < μ4 < μ5

■最も低いレベルの項目の平均値は次のレベルの項目よりも明確に低く、項目の困難度の平均は5つの最小限の重複のある分布 (five minimally overlapping distributions) となっていることがこの階層では予測される。

■現在までのところ、熟達度のグラデーションを測定するための評価や妥当な主張を解釈するための基準に関して、応用言語学界ではたくさんの枠組みが提唱されている。

■現在使用されている枠組みとしては、以下のようなものが挙げられる。

the Common European Framework of Reference

the American Council of Teachers of Foreign Languages Proficiency GuideHnes

the Interagency Language Roundtable Skill Level Descriptions

■ほとんどの言語評価の枠組みは社会的あるいは労働に関するcontextにおいていかに言語が使えるかという機能的な記述に基づいている。

■テスト開発者はこれらのcontextから標本を抽出し、それに合った項目やタスクを作成することを目指す。

■テスト作成に使われる標本は、困難度の連続体に沿って正確に配列されていること、そして項目は困難度の連続体に沿って配列されたパッセージやテキストに適合していることが基本的な前提となる。

■言語標本の主観的な分類に基づく枠組みの妥当性おいて重要なことは、分類するシステム自体の正確さにある。

■テスト開発者はテキストとパッセージを選択し、各レベルの項目を作成した。この枠組みを使い、開発者はスケールを操作できるようにする。

     本研究では1889のサンプルサイズから得られたリーディングテストの結果を使用する。

     初めにテストの項目は、各項目の困難度を推定するためにラッシュ分析にかけられた。

     ラッシュ分析の結果はFigure 14.1.の通り。右がテスト形式で左が受験者。

 

     異なる手法の基準はあるが、熟達度を決定する上で広く使用されているのは、item poolに基づくものである。各レベルでのcut scoreは、受験者の正答率が約70%になった場合である。

     テスト受験者があるカテゴリー内で70%正答し、前のレベルで90%正答していた場合、そのレベルが熟達度であると考えられる。

 

Bayesian Hypothesis Testing

本章では、それぞれのテスト結果の間のつながりをBayesian informative hypothesis testing approachを使用して検証する。

その際は、Hoijtink,Klugkist and Boelen (2008) Hoijtink (2012) informed hypothesis testing approachを使用する。

language assessmentに関する先行研究は、language difficultyについての理論を論理的に並べ、その理論に関する仮説を公式化する機会を与えた。

そして結果として、どんな外国語でも適応できるtest development systemを可能にした。

これはorder hypothesisであるH1に示されている。

 

このような場合、我々はそれぞれのサンプルテストの各レベルにおけるmean logit difficultyがレベル1からレベル5になる時に対称的に増加するか、特定することに関心がある。

H1: μ1 < μ2 < μ3 < μ4 < μ5

この困難さの階層は、レベル1の項目のaverage logit difficultyはレベル2におけるproficiencyを測定するために書かれた項目の平均よりも低いことを想定している。

したがってH1に示されている階層は、言語を超えることを想定している。

ここでの予測は、テスト項目のmean difficultiesは困難さの階層と一致するというものである。

この意味では、意図的な分析が確証的である。つまり、観察されたデータからH1が確証されているかいないかどちらかということである。

 

confirmatory modelにおいては、仮説のtheory-driven orderのもっともらしいalternativesは明確に表現される必要がある。

もっともらしいalternative hypothesis (H2) は隣接したカテゴリーはlower-levelのカテゴリーに倒れこむことを予測しており、特定のレベルにおいてsystematicな違いはないということを示している。

例えば、レベル2を示すために選ばれた外国語のパッセージは、レベル1のパッセージの特徴を共有しているが、レベル2は理解がわずかにchallengingになるようにextra linguistic complexityを含んでいる。

同様に、レベル2における項目はレベル1の項目よりもわずかに複雑になっている。

もし、実際レベル2に含まれる項目がレベル1の項目よりも簡単、ということになると、仮説H2は、レベル1とレベル2logits of difficultyは区別不可能な範囲に合成枯れるというempirical factによって支持される。

テスト作成者と項目作成者は、レベル1とレベル2の間、レベル3とレベル4の間に差をつけている項目の言語内容を微調整することの難しさを告げられている。

したがって、5つのレベルのスケールにおいて、レベル2の項目がレベル1に流れ込むだけでなくレベル4の項目もレベル3と合成されるかもしれない。

H2: μ1 = μ2 < μ3 = μ4 < μ5

この結果は項目の発達とwriting processを考えると2番目に起こりやすい結果である、

item reviewerの相当なmoderationの後でさえも、レベル24の項目は隣接するその下のカテゴリーと区別できないかもしれない。

 

2番目のもっともらしいalternative hypothesis (H3) 5つのレベルの階層での隣接するレベルは、次の高次なレベルのthresholdにおける熟達度の範囲に流れ込むことを予測している。

同様に、レベル2readingパッセージにおける項目は、それより下のレベルの熟達度よりも次の高次なレベルの熟達度により近いものであり、レベル4の項目はレベル5の項目と区別することはできない。

階層の両極端はより簡単に作成し、moderateすることができるので、この可能性はH2よりは低い。

H3: μ1 < μ2 = μ3 < μ4 = μ5

 

本研究で使用したBayesian softwareは、平均を比較し、Hoijtink (2010) にしたがって6つの方法を用いてtestingと平均の比較を行っている。

説明と確証には全体で2つのカテゴリーを示しており、それぞれの方法はテスティングとモデルの選択、BMSの仮説を含んでいる。

これらの方法は各言語のテストを検証することと、テスト発達の枠組みにおいて仮説がどのようにして確証された証拠を示すことができるかということを理解することを可能にし、これらはデータに基づいている。

このexpositionの目的から、我々は意図したレベルと実際の結果の間の関係を調査するために、BMSを使用して確証的なアプローチのみを行う。