筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2017年度  異文化言語教育評価論

 

Why Rasch?

■古典的テスト理論では,測定対象のサンプルが変われば,結果の解釈もその都度変える必要がある.一方,ラッシュモデルではこのサンプルの独立性を考慮に加え,項目の難易度と学習者の能力を対応させることで,学習者の基底にある (underlying) 能力を推定する。

■既存のラッシュ分析は2値データ,連続データ,評価尺度,アンケートなど様々なスケールに対応しており,分析の前提や欠損値に対しても頑健である。

 

The Rasch Family of Models

Probability (確率)

ある受験者がある項目に正答する確率 (probability) のこと。ラッシュはこれを扱う。この確率はロジットという指標で表され (正答率を対数変換したもの),項目難易度と受験者の能力の両者によって決まる。

 

Table 1 ラッシュ分析の種類

モデル

特徴

The simple Rasch model

取り扱いデータ: 2値データ (結果が正答/不正解の2つのみ)

The rating scale model

取り扱いデータ: 評価尺度など2値以上のデータの分析が可能。

欠点: 項目や評価者が同じように働くことを前提にしている。

The partial credit model

取り扱いデータ: 評価尺度 (各項目の評価尺度の大きさの違いなどを考慮できる)

欠点: 評価者による違いを考慮することはできない。

The many-facet Rasch model

取り扱いデータ: 評価尺度。三相以上のデータを分析できる。

→ 評価に関わる複数の相 (e.g., 項目評価者,タスク) を考慮できる。

デザイン: crossed, nested, mixedのどのデザインにも対応可能。

メリット: 相間の交互作用を検討することもできる (e.g., 評価者 x 観点; ある評価者は内容面に対してのみ予測よりも厳しい評価をする)

※ モデリングに必要なサンプルサイズについての議論はLinacre (1994) を参照。

(e.g.) 100名のライティングを,10名の評価者により採点したデータ (原稿は,構成,内容,文法,語彙の観点を1から6点までの分析的評価で,2回ずつ採点された)

 

 

How to Conduct a Rasch Analysis

■ラッシュモデルを行えるソフトはいくつかあるが,本章ではWinsteps (有料; Ministepsという無料のものもあるが,機能に制限あり) Facets (有料; Minifacという無料のものもあり[この場合データの上限は2000])に焦点を当てる。

 

 

Table 2 Winsteps/Ministeps違い

Winsteps

 

Ministeps

Windows (Macは使用不可)

動作OS

Windows (Macは使用不可)

有料

 

無料

25

分析項目数

25

75

分析可能協力者数

25

Ministepsの機能に加え,

Wright Map

item separation

信頼性指標

使用可能機能

Calculating Fit Statistics

Convergence Table

 

Creating Input Files for a Rasch Analysis

■ラッシュ分析に際し,まずはcontrol fireを作る必要がある (Table 12.2参照)。複数人からなる場合には,評価者列を設けたcontrol fileを作る (Table 12.3参照)

 

Interpreting the Output from a Rasch Analysis

■ラッシュによって出力される表や図の解釈

Item/Person Map (Wright Map)

■ 結果解釈に最も便利な図とされる。これは受験者の能力と項目難易度とを視覚的に対応付けて示しており,左側にロジット値が提示される)

 

 

■難易度が高い項目や能力の高い受験者が上の方に示され,難易度が低い項目,能力の受験者が下に示される。

■具体的に,受験者は,同じロジット値にある項目に50%の確率で正答でき (e.g., Linda, Sammyと項目5),自分よりも低いロジット値にある項目には50%以上の確率で正答できると想定される (Wright & Linacre, 1991)

■ロジット値は間隔尺度のため,どの項目がどれよりも難しいかだけでなく,難易度 (や受験者の能力) の違いの程度を知ることができる。

■他にもthe wright mapから得られる情報として (a) item converge (受験者の能力をカバーするのに十分な項目があるか)(b) 特定の項目に対する個々の受験者の正答確率,(c) 項目全体の難易度が受験者の能力にマッチしているか (反対に受験者の能力が項目全体の難易度とマッチしているか) などがあげられる。

 

Person Statistics

■ラッシュモデルはある受験者が項目に正答する予測値 (i.e., モデル) と,実際の観測値との比較に基づいている.この予測値と観測値の適合度はthe fit statisticsに示される。受験者に基づくfit statisticsp. 288Table 12.4の通り。

・受験者を能力順でリスト

Total score: 正答した項目数

Total count: 解答した項目数

■一般的にはoutifit値よりも,infit値を解釈するのが望ましいとされる。

fit値から受験者を以下の3つに分類できる。加え,受験者のfitから,同グループ内の受験者同士の能力を比較できるか否かを判断できる (Eches, 2011; Green, 2013; McNamara, 1996)

(a) appropriate: 予測の範囲内, 具体的にはp.288 Table 12.4 Mnsq値が0.8から1.3, その右のz値では−2から+2,

(b) misfit: 予測力が低い (この場合,この指標では適切に能力を測れていない),

(c) overfit: 予測力が高過ぎる。

 

Item Statistics

■ラッシュ分析からは,項目を基準としたfitも得られる。

fit値から項目は以下の3つに分類できる。

(a) misfit: fit値が高過ぎるもの (モデルの予測とは異なる結果をした項目 [e.g., 能力の高い学習者が多く間違えた項目] を表し,修正/除去を検討すべき),

(b) appropriate: fit値がthe middle range,

(c) overfit: fit値が低過ぎるもの (McNamara, 1996)

 

Rating Scale Analysis

■評価尺度では項目は2値を超える値をもつ場合がある (e.g., 5件法のアンケート).例としてTable 12.6に,0から45段階の項目を記載する。

■ここでは,各スコアの受験者の能力 (他の項目も考慮して出された全体の成績) の平均を知ることができる (Average Ability)。実際にこの項目のスコアが高い学習者は,能力も概ね高いことがわかる。平均能力がスコアとともに上がっていない項目は修正を検討すべきである。

■概ね,受験者の能力とともにスコアが上がっていることがわかる。スコア12の山を比べると,1の方がより裾が狭く,カバーしているのがより幅の狭い受験者であることが示唆される。また,ピークも2の方が高く,このスコアの方がprobableだったとわかる。このような比較により,必要な修正点 (e.g., スケールの段階の増減) を特定できる。

 

Questionnaire Analysis

■リッカート尺度などを伴うアンケート調査の分析にラッシュはあまり使われないが,これに対しても強力なツールになる。

Wright mapから項目が構成概念をどの程度よくtapしているか,どの項目が肯定的に回答されやすいかといった情報が得られる。

the fit statisticsからはmisfittingな項目を特定することができ,step difficultiesからはスケール間の距離の違いを知ることができる (e.g., 1そう思わない」と「2あまりそう思わない」の違いは,「2あまりそう思わない」と「3どちらとも言えない」他と比べて小さいか,大きいか)

 

Analyses with More Than Two Facets
■3
つ以上の相を扱うthe many-facet Rasch modelを解説する。第三の相として最もよく考慮されるのは評価者である。評価者による影響の分析結果からは,評価者トレーニングや受験者にとって公平や採点についての示唆が得られる。
例として100名のライティングを,10名の評価者により採点したデータをみる。原稿は,構成,内容,文法,語彙の観点を1から6点までの分析的評価で,2回ずつ採点された。
■Candidates
の列にあるアスタリスクが各受験者を,Raterの列のアスタリスクが評価者を表す。評価者について,厳しい採点をした者ほど上に位置づけられる。
また,採点の観点別にも列が設けられており,ここから,構成で高得点をとることは,文法や内容よりも難しかったことがわかる。
さらに,Scaleの列とCandidatesの列をみると,4から6点に多くの受験者が収まっており,評価者は概してあまり低い点数をつけなかったことが示唆される。
また,the many-faceted Rasch modelは,相間の交互作用を検討することもできる (e.g., 評価者 x 観点; ある評価者は内容面に対してのみ予測よりも厳しい評価をする)

Conclusion
ラッシュモデルは受験者,評価者,項目の特性を詳細に分析できる強力なツールで,L2研究分野に対しても大きなポテンシャルがある。
ラッシュモデルを行うソフトウェアとしては,Winstepsをおすすめする。無料のMinistepsも利用できる (分析の上限が項目25,受験者75)
■the many-facet Rasch
分析を行うには,Facetsをおすすめする。こちらも無料バージョンのMinifacが両できる (データポイントの上限が2000)