ABOUT/CONTACT

SEMINAR

SLAA
（Second Language Acquisition & Assessment Research Group）

FOR STUDENTS

TEASY

LINK

2017年度　　異文化言語教育評価論

Ⅰ.　文献のまとめ

1. Introduction

・複数の指導法を比較するため、別の協力者を対象に実験する研究において、調査者は「指導法」（独立変数）が協力者の「英語熟達度」（従属変数）に与える影響を調べようとする。この「指導法」のように、デザインに組み込まれた要因や、データ収集の過程で比較できる要因による効果を、固定効果 (fixed effect) という。

一方、協力者個人個人の何らかの差によって生じる効果を、ランダム効果 (random effect) という。

・混合効果モデル (mixed effects model) とは、これらの固定効果とランダム効果の両方を考慮に入れる統計手法である。

・本章では例としてlongitudinal study (一定期間の協力者の変化を複数回のテストによって調査する研究) を想定し、混合効果モデルによる分析の方法を示す。特に、混合効果モデルはL2のlongitudinal studyにとって有用な特性が多く、幅広く使われているANOVAやt検定に新しく代わる手法にもなりうる。

2. Mixed Effects Models

2.1 混合効果モデルで考慮される要因同士の関係

・前述したLongitudinal studyなどでは、同じ協力者に同じ測定を繰り返し、指導法とテスト時期の交互作用を調べることで、協力者の熟達度の伸びを比較する。こうした場合、繰り返しのANOVAが用いられる。

・しかし、複数のクラスや学校からデータを集めるような場合、例えばクラスによって実力差があるなどの状況が起こりうる。こうした場合、比較する群どうしが独立した測定とはいえず、正確に統計的分析を行うためには、母集団の関係性を考慮することが求められる。

・混合効果モデルでは、要因同士の関係を表す専門用語として、nested、crossedという語がある。

・ 2つのクラスから生徒が実験に参加するとき、生徒によりクラスが異なるため、クラス要因は個人差要因に組み入れられた、nestedな関係である。このようなnested random effectを含めて分析することにより、協力者の個人差と、グルーピング方法といったランダム要因を同時に考慮することができる。

・一方、2つのクラスから生徒が実験に参加し、両方のクラスにL1が日本語、中国語の生徒がいるとき、クラスによりL1が異なるわけではないため、クラス要因とL1要因はcrossedな関係といえる。

・混合効果モデルでは、このような要因同士の関係 (nested / crossed) を両方含めて、分析することができる。

2.2 混合効果モデルで考慮される項目による差

・協力者が広い母集団のうちの一部のサンプルであるのと同様、測定に用いるマテリアルなどの項目も広い母集団の一部である。よって、結果を他の集団に一般化するには、協力者だけでなく、項目による差もランダム要因として考慮すべきである (Clark, 1973)。

・従来ではこの問題の解決策として、ANOVAにおいてF₁とF₂の2つの分析を行う方法があった。具体的には、F₁分析では各協力者の平均とSD、F₂分析では各項目の平均とSDを取っていた。

・しかし、この方法では、両方のランダム要因を同時に考慮することができない。また、一方の分析では信頼性が高く、他方の分析では低いような場合に、結果の解釈が困難になる。

・このような場合、混合効果モデルは1度の分析で両方のランダム要因を同時に考慮できるため、別々にF₁分析、F₂分析を行うよりも良い方法であるといえる (Baayen, Davidson & Bates, 2008; Locker, Hoffman, & Bovaird, 2007)。

2.3 混合効果モデルの利点

・混合効果モデルの利点は以下の通りである。

① 他の回帰分析と同様、連続的な変数 (e.g., 時間) の影響を調べつつ、連続的な共変量 (e.g., 年齢、他の言語測定におけるパフォーマンス、認知能力) も考慮することができる。

② データにランダムに欠損があることを前提とするため、欠測値に頑健な性質をもつ (Quene & van den Burgh, 2008; Gelman & Hill, 2006, Chapter 25)。

③ 等分散性や球面性の仮定が満たされなくても、頑健である (Quene & van den Burgh, 2008)。

e ANOVA同様、正規分布は満たされている必要があるが、他の種類の分布でも、適したモデルであれば使うことができる。

e 例えば、logit distributionを伴う一般化混合効果モデルであれば、binaryなタスクの回答を従属変数とした分析が可能。

※ 従来のANOVA、t検定では正答率を従属変数とすることが多かったが、0 < 正答率 < 1であるため、正答率は本来、連続変数ではない (Jaeger, 2008)。

④ unbalanced designにおいて使える分析であるため、実験デザインだけでなく、コーパス分析や多様な分野でのlongitudinal dataの分析でも使用できる (e.g., Boyle & Willms, 2001; Collins, 2006; Goldstein, 1995; Raudenbush, 2001; Singer, 1998)。

3. Practical Example

3.1 仮想実験データの紹介

・ Meunier and Littre (2013) による、仮想のlongitudinal studyを基盤として分析した。

・この研究では、156名の協力者を対象に2年間にわたる学習者の時制の学習成果 (5回測定) における、2つの協力者間要因の指導法 (協力者間要因) の効果を検証している。

・応答変数として効果測定による「熟達度」、説明変数として「指導法」「テスト時期」のほか、性別や年齢、L1や英語圏経験年数もデータとして用意している。

・このデータは本書のウェブサイト (http://oak.ucc.nau.edu/ldp3/AQMSLR.html) にある（※しかし、現在はアクセスできない模様)。

・混合効果モデルはSPSSやSASでも分析可能。

3.2 分析手順

・分析対象のデータは決まった形式で並べておかないと、プログラムで読み取ることができず、分析できない。Rの混合効果モデル(lmer関数) を用いる際には、全ての変数・要因を縦に並べる必要がある (Linck & Cunnings, 2015)。

・ nestedな要因同士はラベリングに注意する。例えば、1組と2組の生徒を扱う際、1組の生徒を26番目まで数えた後には、2組の生徒を1番目から数えるのではなく、27番目から継続してラベリングする必要がある。

(1) データの変換

・大抵は交互作用項も回帰式に入るため、連続変数は中心化する (各観測値? 平均)。これにより要因同士の多重共線性を防ぐ効果がある (Jaeger, 2010)。

・ 2水準から成るカテゴリ変数は、水準名ではなく数字の0.5と?0.5で示す。これによりRの計算方式が自動的に変わる(contrast coding system)。これも要因同士の多重共線性を防ぐ効果がある(Chen, Ender, Mitchell, & Wells, 2003, Chapter 5)。

[Rコマンド]

・連続変数の中心化：

ファイル名$新変数名= ファイル名$変数名? mean(ファイル名$変数名, na.ru = TRUE)

・ 2水準カテゴリ変数の変換：

ファイル名$新変数名= ifelse(ファイル名$変数名== “水準名”, ?0.5, 0.5)

(2) パッケージのダウンロード

・混合効果モデルで使うべきはlme4パッケージ (Bates, Maechler, Bolker, & Walker, 2013)。この記事の時点ではversion 1.1?7となっている。

・他にもCarパッケージ (Fox & Weisberg, 2011) とpsychパッケージ(Revelle, 2014) も有用である。

[Rコマンド]

・パッケージ準備：install.packages("パッケージ名", dependencies = TRUE)

(3) 採用する統計モデルの大枠 (リンク関数) の決定

・ヒストグラムやQ-Qプロットを用いてデータの分布を確認する。Q-Qプロットでは、正規分布していればプロットが直線状になる。

・もしも正規分布していなければ変数を変換する。

[Rコマンド]

・ヒストグラム：hist(ファイル名$変数名)

・正規Q-Qプロット：qqnorm(ファイル名$変数名)

・変数変換(ロジット) ：ファイル名$新変数名= logit(ファイル名$変数名)

・今回はQ-Qプロットによるチェックの結果、あまり正規分布らしくない形であった。このように値が一定範囲 (0点～100点) に限られるテストスコアを扱う場合は、同じように有限範囲内の分布を扱うロジット関数による変換が出来る。

(4) モデルの作成

・ lmer関数を用いてモデルを作る。

・ summary関数を用いると、作ったモデルに関する統計量をいくつか示せる。

・ “REML criterion at convergence”と書かれている値は「逸脱度」を示す。これは実際の観測値が作ったモデルによる予測値からどれだけ違っているかという値で、小さい方が良い。

・ “Scaled residuals”と書かれている値は、「観測値と予測値の差」の最大値、最小値、中央値などを与えている。これも小さく、正負の値が対称的な方が良い。

[Rコマンド]

・モデル作成：

モデル名= lmer(応答変数名~ 説明変数+ (ランダム要因), data = ファイル名)

※ 説明変数の部分は、固定要因の主効果と交互作用を考慮に入れるか否かの指定。

「要因A+要因B」・・・要因AとBの主効果

「要因A:要因B」・・・要因AとBの交互作用

「要因A*要因B*要因C」・・・要因AとBとCによる主効果と交互作用全部

※ ランダム要因の部分も、どの主効果と交互作用を考慮するかだが、書き方が違う。

「(1|要因X)」・・・ランダム要因Xによる主効果

「(1+要因A|要因X)」・・・ランダム要因Xによる主効果と、要因Aとの交互作用

※ 要因同士がnestedかcrossedかは自動判定してくれるので、コマンドは変わらない。

例：model.1 = lmer(prof ~ course*time + (1|student) + (1|class), data = scores)

・作ったモデルによる統計量をざっと確認：

summary(モデル名)

(5) モデルの比較

・各要因の主効果、交互作用をモデルに入れるか否かによって、考えられるモデルは複数出る。それらの比較時に用いられる基準の1つに「尤度比検定」がある。モデル同士の逸脱度の差を計算し、その差が有意かを算出する。

[Rコマンド]

・モデル比較：anova(モデル名, モデル名, refit = FALSE)

※ モデルは3つ以上比較することも可能。

※ 比較するモデルの相違点がランダム要因である場合はREML (制限付き最尤法) による比較が良く、相違点が固定要因である場合はそうでなく通常の最尤推定が良い(Pinheiro & Bates, 2000)。後者の場合は上記の”refit=FALSE”を外す。

・ランダム要因との交互作用を入れるか否かは、いまだ議論されている。

・モデルが改善 (e.g., 尤度が有意に向上) した場合には入れるべしという立場もあるが、仮説検証の場合、分析に使う固定要因との交互作用は、協力者間要因以外全て入れるのが一般的である。

・統制したい要因 (年齢など) とランダム要因の交互作用は、考慮に入れて複雑さが明らかに増すようであれば無理して考慮しなくても良い。

(6) 各固定要因の効果が有意かどうかを産出する

・ Summary関数によりt値は出るが、固定要因の自由度は定まらないため、p値の算出についてはいまだ結論が出ていない(Baayen et al., 2008; Bates, 2006)。