筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2017年度  異文化言語教育評価論

 

Chapter 7 まとめ>

What Is Multiple Regression and Why Do We Use?
重回帰分析 (MRA) とは、相関ベースの統計的手法で、1つの基準変数 (CV, 従属変数) と複数の予測変数 (PV, 独立変数) の関係を検証するものである。

■MRAの目的は、 データに合致する線形または非線形方程式を作ることである。k個の独立変数を使用し、以下のようにあらわすことができる。

Y'= A + B1X1 + B2X2 + … + BkXk

■Y'CVの予測変数となるとき、Aは切片であり、Bは推定のパラメーター(回帰係数)で、XPVkPVの数となる。この方程式は予測されるY’を表すため、予測方程式とよばれる (Tabachinik & Fidell, 2012, p.123)

■Y'は観測されたYとの相関を取り、多変量相関のRを得る。R2PVで説明されるCVの分散の量を示している。

■MRAは、PVの関数であるCVの分散を説明する方法である。上手く合致した回帰モデルが生成されれば、研究者がPVからCVにかなり近い値を予測することができる。

■MRAは共分散分析(ANCOVA)に例えられ、異なったPVからなる異なったモデルによって説明されるCVの分散を比較することができる。

■MRAには種類があり、研究の目的やリサーチクエスチョンのタイプによる。MRAの種類を決める主要な要因の一つとして調査下の変数の本質がある。例えば、CVはカテゴリーか、連続的かといったことである。前者であれば、最適なのはロジスティック回帰分析である。

■PVに二水準以上のカテゴリー変数が含まれている場合は、重回帰分析が使える。しかし、MRAは二分できるカテゴリー変数のみ扱うことができるので、ダミー変数の符号化が必要となる。

全てのPVがカテゴリー変数であれば、MRAの数学的な方程式はANOVAANCOVAと等しくなり、その効果量も等しくなる (ただし、MRAの効果量はR2ANOVAではη2である)

異なった本質の変数のために異なった分析の利用可能性を仮定すると、研究者が調査の変数に最も適した分析を確実に選ぶことが重要である。例えば、連続変数をカテゴリー変数に変換することやMRAの代わりに ANOVAを使用することは、連続したPVの分散を保つようにするために避けるべきである。

本章では、L2研究で最もよく使用されるMRA、連続変数のPVCVを含むMRAに焦点を当てる。また、他のMRAを使用する必要がある場合の追加のステップについても言及する。本章の説明は、Cohen, West, and Aiken (2003) に基づく。

 

How to Conduct MRA
Considerations in the Pre-Data Collection Stage: Precision and Power

■MRAを使用する際はできるだけ(a)正確で(b)事実に近い観測データを使用することが推奨されている。

データ収集前に精度や検出力を計算する利点としては、必要に応じて予測変数の数を減らしたり、サンプルサイズを大きくしたりできることがある。

 

Precision
■MRA
R2の精度は標準誤差と信頼区間(CI)によって決定する。

(例)L1のリテラシーとL2の言語知識によって読解力を説明する

公式を用いR2の標準誤差を計算することができ (公式省略)、その値で研究の目的に合わせたCIを導き出すことができる。

■95%が最も使用される境界であるが、98%80%など、研究の目的に応じて計算を行い、CIを設定すべきである (詳細はp.134ad参照)

■CI0を含まない場合には、サンプルサイズやPVの数が適切であると言える。

また、CIが広すぎると観測値の精度を保証できないことを考慮するべきである。たとえば、R295%CI.10-.90であった場合、そこから有益な情報を手に入れることはできない (→サンプルを増やすかPVを減らす必要有)

 

Power
検出力は、専門的な定義は「間違った帰無仮説を正確に棄却できる確率」であるが、要するに、データの関連性が実際にある場合に、観測データの統計的な有意差が見いだせる可能性である。

■MRAでは、R2が実際に0とは異なっていた場合に有意に0とは異なっているとできる確率が検出力である。先験的な検出力が低いことに問題があることは明白で、なんとか統計的に有意な発見ができたとしても、検出力が低ければ、あるはずのない統計的有意差について主張するリスクを背負う。

先述した精度の検証を含む手続きと同様に、MRAで演繹的な検出力を計算する場合には、先行研究/理論に基づきR2を予測することから始める。

■R2の値で効果量fを計算することができる (公式省略)f値より、検出力を同定するために必要なL値を算出することができる (公式省略)

■L値とdf (kと同値) L Table を作成することができる (Figure 7.1参照)

演繹的な確認とデータの収集をし、統計的な分析を始める前に、 データがMRAのような多変量分析の想定と合致しているか確認しなければならない。想定と合わない場合はデータを変換し、適切なMRAでデータを正確に分析にかけなければならない。

 

Data Screening for MRA (or for Any Type of Multivariate Statistical Analysis)

@サンプルサイズを設定する…50+8k以上 (kPVの数)が必要。あるいは、一つのPVにつき最低でも15人の協力者が必要。

A一変量のデータスクリーニングをする一変量の外れ値を除外し正規性を確認する。

B多変量のデータスクリーニングをする多変量外れ値を除外し正規性を確認する。±3.29の所定の尺度を使用する一変量の場合と異なり、変数の数と確率レベルに基づいた尺度を使用する。この値は、カイ二乗表 (Tanachnik & Fidell, 2012) で求めることができる (自由度と有意確率の値が必要となる)

C多重共線性の確認

・調査の全ての変数を使い二変量相関分析を実施する。2つのPVに高い相関がみられた場合、それらを1つの変数にするかそれらのうちの1つを削除する必要がある。これは多重共線性を確認する古い方法であるが、例え多重共線性が存在してもPVで高い相関が出ることがあるため、信頼出来る方法ではない。

・このようなミスを避けるため、公差統計や分散拡大要因 (VIF) を参照することが推奨されている。公差が.40より低い場合、多重共線性があるとしている (Allison, 1999)

・多重共線性が見られた場合、もっとも相関の高い変数を削除するか、2つの変数を統合する必要があるが、このような操作により、理論的な根拠がおろそかにならないよう留意する必要がある。

D線形関係を確認する…CVPVが対または合計で線形関係を持っているかPearsonrを使い確かめる。線形性は散布図や残差プロットで確認することができる。外れ値を除外し変数を変換しても直線的でない関係があるならば、さらなる変数の変換を行う必要があるかもしれない。

E等分散性の確認二変量の散布図で確認できる。

 

Choosing the Right MRA (p. 142, Figure 7.5のモデルの選択ガイドを参照)
@標準重回帰 (standard multiple regression)

・この分析では、全てのPVが同時に回帰にかけられ、それぞれのPVの寄与が計算される。

・したがってR2はそれぞれのPVの寄与の合計となる (寄与の重複は調整されていない)

・この意味で、標準重回帰はPVの予測される検出力の控え目な度合いを産出する。というのも、全てのPVCVの値を予測する厳密なテストにかけられているからである。

・しかし、標準重回帰の厳密さは諸刃の剣である。例えPVCVと高い相関関係にあっても、他のPVと相関関係にあれば、その寄与は実際のものよりも重要でないとみなされる可能性がある。同様に、あるPVが他のPVと重複していない場合、CVと高い相関がなくても、重要な貢献をしていると見なされる可能性もある。

Tabachinik and Fidell (2012) は、標準重回帰は相関分析と合わせて考察することを推奨している。

A階層的回帰分析
・この分析の目的は最適なモデルを模索し、どの多重モデルが最も当てはまりが良いかを評価することである。

・そのため、方程式に入れるPVの順番を考慮せねばならない。その順番は、先行研究や理論によって決定される。

Bステップワイズ回帰分析

・ステップワイズ回帰のモデルの基準は、統計的な基準、つまりCVPVの相関のサイズなどに厳密に左右される。

・最初のPVCVと最も相関の高いものを選び、二番目のPVにはその次に相関の高いものを選ぶ。

・研究者がステップワイズ回帰分析を選ぶのであれば、PVの重要度は先行研究からの知見、理論、サンプルサイズから慎重に考えられければならない。

 

How to Run MRAs Using SPSS

SPSSの操作説明および結果の解釈のため省略。