研究会トップに戻る

11/30  1/11  1/25  2/8  2/29  3/14  4/7  4/18  6/6  6/20  7/11  7/25  9/5
9/26  10/10  10/31  11/14

狩野裕・三浦麻子 (2002). 『グラフィカル多変量解析』(増補版). 現代数学社.


2007/11/30

第1章 回帰分析

1.1 中古価格の要因分析:データ
■「トヨタマークII2000」の中古車価格(従属変数)の決定要因を、価格(万円)、走行距離(10000KM)、乗車年数(年式の古さ)、車検の残り期間(月数)という独立変数から探る。

1.2 単回帰分析
■単回帰分析:2次元データにうまく当てはまる直線によって分析をする方法
■図1.1の回帰直線:価格=142.25−13.23×年数;1年で約13万円の下落
■乗車年数に0を代入しても新車価格は予測できない。年数の値には2〜10までが含まれているからである。
⇒このような「外挿」はしない方が良い。
■ また、乗車年数のみで新車価格が正確に決定されない
価格=α+β×年数+e1
⇒e1; 年数以外の諸要因(データから回帰直線までの縦軸の長さ)- 誤差
⇒β; (偏)回帰係数
■ これをパス図で表すと図1.2のようになる。

■ 決定係数(重相関係数の2乗;squad multiple correlation(SMC))
   R^2=0.83
⇒1に近くなるほど独立変数による予測が正確になる。
■ 単回帰係数の場合、決定係数は相関係数の2乗と等しい。
   r=−√0.830=−0.911

1.3 重回帰分析
■走行距離と車検という独立変数を含めて重回帰分析を行う場合、次のような式になる。
   価格=α+β1×走行距離+β2×乗車年数+β3×車検+e1 (図1.3)

■重回帰分析では独立変数間に相関(共分散)が認められる ⇒双方向の矢印
■ 乗車年数の偏回帰係数β2=−12.67は図1.2の回帰係数よりも小さい。
⇒他の要因(距離・車検)が一定である場合、1年に12.67だけ値落ちするという意味
■ 各要因の偏回帰係数(絶対値)の大きさを単純比較することはできない。
⇒全ての変数の分散を1に固定し、標準化する必要がある。偏回帰係数は単位に依存するため、単位が異なる独立変数間のβを直接比較ができないためである。(図1.4)

■ 標準化を行うと、共分散は相関係数となる。
⇒独立変数間の相関が大きいと適切な分析が行われない可能性が高いため(多重共線性)、パス図には相関係数の推定値を含める必要がある。
■ 誤差の推定値e1 (0.32)から次のような計算によって最終的な決定係数が求められる。
   R^2=1−0.32^2=0.90

1.4 共分散構造分析へ
■本節での着眼点:
(i)乗車年数から価格への影響の大きさが単回帰分析と重回帰分析で異なる。
(ii)車検は2年ごとに行われるため、乗車年数・走行距離とは無関係である。
−走行距離と車検の残りが一定であれば値落ちが12.67万円だが、一般的に1年古くなるごとに走行距離が増えるため、13.23万円値落ちすると考えることができる。

仮説1:長期間乗ると走行距離が長くなり、その結果中古価格が下落する。
仮説2:車検の残りは、走行距離・乗車年数と無相関なので、独立して価格に影響する。
■ 重回帰モデルは(1)従属変数が1つ、(2)独立変数間には自動的に相関が設定されるため、図1.5のような共分散構造分析によるパス解析モデルが必要となる。
■ 走行距離が一定ならば乗車年数は価格に影響しないという想定は重回帰モデルと矛盾するため、このモデルは棄却される可能性がある。⇒次章で検証

1.5 共分散と相関係数
■ n人の被験者から項目X, Yについてのデータを採ったと仮定し、Xの分散sxx, Yの分散syy, XとYの共分散sxyを計算する。
■ 相関係数: 共分散をXとYの標準偏差で割ったもの
   rxy = sxy/√sxxsyy ⇒ rxy = 0 ←→ sxy = 0

■ つまり、データの分散がsxx=syy=1と標準化されているとき、共分散と相関関係は一致するといえる。→標準化された時、共分散が相関係数になる理由
■ 分散共分散行列(表1.2)の右上は省略される。
■ 本書では母集団と標本の区別は行わない。
                                                                             (今野)


・ 相関係数は、データの分散が1で標準化されているものだということをはじめて知った。従って、標準回帰係数に対応するものが相関係数ということになるのであろう。
・ 分散共分散行列は、対角線の部分が分散でそれ以外の部分が共分散を示している。APAでの相関行列は右上を残すようになっているが、SEMでは左下の行列を残すようになっているのだろうか。
                                                                      (森本)

ページトップに戻る


2008/01/11

第2章 AMOS, EQS, CALIS初体験:パス解析と多重指標分析

2.1 変数とパス図
■回帰分析では独立変数(原因系変数)と従属変数(結果系変数)の区別は明確であるが、共分散構造分析においては異なる。
⇒1方向の矢印を1つも受けていない変数が独立変数で、1つでも受けていれば従属変数
■ また、変数は以下のように区別される。
潜在変数:「知能」「やりがい」「有能感」等の直接観測できない変数を指す。丸や円錐で囲まれる。
観測変数:「走行距離」「価格」等の直接観測可能な変数。通常四角で囲まれる。
⇒誤差変数は潜在変数の一部であるが、丸で囲むかどうかについては意見が分かれる。

2.2 パス解析:中古車価格
■ パス解析の分析は相関行列の検討から始まる(表2.1、p.14)。
・ 「価格」と「乗車年数」の間に強い負の相関(r = -.911)。
・ 「車検」と「価格」に負の相関(r = -.085)…?
■ これらを基にしたパス解析モデル(図2.1、p. 15)は、以下の理由で棄却される。
1.「走行距離」と「車検」から「価格」を予測する重回帰式の決定係数(R^2 = .26)は、単回帰分析(R^2 = .83)や重回帰分析(R^2 = .90)と比べて大幅に低い。
2.代表的な適合度指標であるカイ二乗値(カイ二乗値=23.03、df = 3、p = .000)に問題あり。
⇒データとモデルの距離とカイ二乗分布の比較であり、有意水準5%より大きいとモデルが棄却
■ 「走行距離」が一定であっても古くなれば「価格」が下がるという重回帰分析の結果を考慮し、「乗車年数」から「価格」へのパスを引いたモデルを再度検討する(図2.2, p.16)。
■ 決定係数(R^2 = .90)、適合度指標(カイ二乗値= 1.03, df = 2, p = .5972 )から、モデルの当てはまりは良いことが分かる。
■ パス解析は重回帰分析の繰り返しで、従属変数ごとに次のような回帰分析を行っている。
価格= β0+β1走行距離+β2乗車年数+β3車検+誤差
走行距離= β'0+β'1乗車年数+誤差'
■ 単回帰分析の結果と比較してみると…
−13.23 =(nearly equal) −12.67+.26×(−3.61)=13.61
■ 「乗車年数」が1増えると、価格が12.67万円下がる。更に、走行距離が.26増え、.26×(−3.61)だけ価格を下げる。

「乗車年数」⇒「価格」…直接効果
「乗車年数」⇒「走行距離」⇒「価格」…間接効果
直接効果+間接効果=総合効果 ⇒ 単回帰分析ではこの総合効果が求められている。

2.2.1 AMOS
AMOS Basic
■ テキスト形式のモデルファイルを作成して分析を行う。パス図はなし。しかし、変数やパスの数が多い時や、観測変数間の分散・共分散、相関係数を計算する場合には便利(図2.5, p21)
■ テキストファイルやExcel, SPSSのファイルを読み取り可能。入力の際には1行目には変数名、テキストファイルの場合はカンマで区切る必要がある(図2.4, p20)。Excelの場合はそれに加えてバージョン情報も必要となる。計算結果は図2.5.

AMOS Graphic
@準備
■ まずは最初の画面で、データファイルを指定する。FileData FilesFile Nameを選択し、保存してあるファイルを選択する。ツールバーからは以下のアイコンをクリックする。

Aパス図を描く
View/SetInterface PropertiesPage LayoutRotationLandscapeの順に選択していくと、描画領域が横方向に変わる。
■ 4つの変数(i.e.,乗車年数、価格、車検、走行距離)を書くために以下のアイコンをクリックする。

■ ドラッグ&ドロップ(以下、D&D)で長方形を描く。大きさが気に入らない場合は長方形を右クリック→ Shape of Objectを選択し、D&Dで大きさを変更する。
■ 更に右クリック→Copyを選択し、オブジェクトを移動させるとコピーが完了。4つ長方形を用意する(図2.10、p25を参照)。以下のアイコンをクリックでも可。

■ 以下の誤差変数のアイコンをクリックし、右2つの長方形上でもう一度クリック。クリック毎に長方形上での誤差変数の位置が変化していく。

■ このとき、誤差変数のサイズが大きくなるので、 を選択し、誤差変数の○と矢印を1つずつクリックし、選択する。そして をクリックして、○のみをドラッグ&ドロップで移動させると矢印が短くなる。
■ 因果を表すパスを入れるため、以下のアイコンをクリックし、D&Dで長方形の縁から縁へパスを描く。失敗したらEraseで消す。もしくは上記の手順でmove.

Bデータの入力
■ まずは変数名を入力する。View/SetVariables in Data Setを選択すると、図2.9(p.24)のようなウィンドウが表示される。各変数名をD&Dで各長方形に移す。また、以下のアイコンをクリックしても可。

■ 誤差変数名は、誤差変数をダブルクリック→Object PropertiesVariable Nameに"e1"と入力。誤差変数が多い場合は、ToolMacroName Unobserved Variablesを選択すると、全ての誤差変数に順に入力される。
■ 変数の表示はView/SetVariables in Model(図2.9)、もしくは
* ここまでで一度保存をしましょう。

C計算
■ まず、View/SetAnalysis PropertiesOutput、もしくは で出力の書式を設定する。図2.11(p.26)のようなウィンドウが出てくるので、"Minimization history," "Standardized estimates," "Squared multiple correlation," "Indirect, direct & total effects"にチェックマークを入れる。
■ そして をクリックしてモデルの計算を行う。
■ 以下のような警告が出る。これは独立変数間には相関を入れるのが普通なために警告が出るが、今回は意図的に入れていないので"Proceed"

をクリックすると、非標準化係数がそれぞれ表示される。更にパス図の隣にある"Standardized estimates"をクリックすると、標準化されたパス係数の推定値に切り替わる。「Mileage」と「Price」の右上の数値が重相関係数の2乗、つまり決定係数となる。
■ 推定結果の出力は、View/SetText Output、もしくは をクリックし、Notes for Modelを選択。
■ p = .000のため、このモデルは棄却される。

Dモデルの修正
をクリックして、「Mileage」から「Price」へパスを引く(図2.4, p.29)。そして別名で保存。これまでと同様の手順で分析を進める。

をクリックしてテキスト出力を確認。今度は採択が可能となる。

ディスカッション&コメント
・従来の相関や回帰分析とはスケールや考え方を大きく切り替える必要ある。だた、練習には学生評価版があり、使いやすさを体験するのがよい。ただし、使えるパスと変量の数が限られている(それぞれ50、8(未確認))ので注意。

・モデルのあてはまりを検定するカイ自乗検定の帰無仮説は、「モデルとデータは、適合している」といったところか。有意確立が規定値(5%/1%)を下回ると、モデルがデータの予測に役立たないことがいえる。

ページトップに戻る


2008/01/25

2.3 多重指標分析:自然食品の購買行動のデータ(pp. 50-56)
2.3.1 はじめに
■ 『食物意識の高い人は自然食品店での購買意欲が高い』という抽象的な表現において、「食物意識」とは何を指すのだろうか。
■ 有機無農薬野菜を買う人も、決まった食事の時間や腹八分目を守る人も「食物意識」が高いと言える。
■ 「食物意識」という表現に到達するまでに、多くの側面が単純化や次元縮小されるというプロセスを経るが、このプロセスこそ多変量解析の柱である。
■ 本章では多くの側面を持つある概念を単純化や次元縮小して分析をするための、「共通変動の背後に潜在変数を想定する」という方法を取り扱う。

2.3.2 データ
■ ここでは「食品添加物を気にしたり栄養のバランスを気にする人は自然食品店でよく買い物をする」という仮説を検証し、「よく」とはどの程度なのかを検証する。
■ データは表2.9(p51)の相関行列表に示してある。
■ 栄養のバランス(X1)を考える人は食品添加物(X2)にも気を使っていると考えられるため、両者には正の相関が考えられる(r = .30)。
■ この相関に影響する要因として食物意識(F1)という潜在変数を仮定する(図2.27左, p51)。
⇒ 食物意識が高ければバランスにも添加物にも気を使う
■ 自然食品への購買意欲(F2)が高ければ購買額(X3)と回数(X4)とも高くなると考えられる。

2.3.3 潜在変数間の関係
■ 食物意識が高ければ自然食品(F1)の購買意欲(F2)も高いと考えるのは自然であるため、図2.28(p52)のようなモデルを仮定し、F1がF2をどの程度説明するのかを調べる。
■ d2(Disturbance; 撹乱変数)はF2を規定するF1以外の影響要因の集合体である。
■ モデルの標準解(図2.29, p52)の結果はχ2乗値=.43、df=1, p=.51となり、適合度は良好である。

2.3.4 標準解の解釈
■ 図2.29では食物意識(F1)と購買意欲(F2)の両潜在変数の分散が1に標準化されている。
■ F1からF2へのパス係数(相関係数).56は大きいと言えるだろうか。
■ 大まかに、添加物(X1)とバランス(X2)が購買額(X3)と購買回数(X4)を説明していると言えるが、X1, X2とX3, X4の相関係数(表2.11, p53)を見ると、.56には遠く及ばない。
■ これらは、例えばX1からX3を結ぶパス上の全ての係数の積によって算出される。
■ 小さくなるのは、.56に2つの相関係数をかけているからである。つまり相関係数が1ならば、.56となる。
■ X(観測)とF(潜在)の間には、X=F+eという関係が成り立つため、もしXとFの相関係数が1ならば誤差(e)は0である。
■ 観測変数間の相関が.56よりも低くなるのは、誤差の影響である。つまり、観測変数間の相関係数は誤差を含めて計算されているため、本来の相関係数が薄められて(希薄化;attenuation)いるといえる。
注意点:
■ 潜在変数の平均や分散は任意に設定できるため、値として−1から+1や0〜100という範囲でも問題がない。しかし推定の際に問題が起きるため、分散を固定する必要がある。
■ 独立潜在変数(F1)の分散は1に固定されるが、従属潜在変数(F2)を固定するのは厄介である。
■ F2から観測変数までのパス係数のうち1つを1に固定することになるが、この制約の下では推定値は図2.30(p54)のようになる。
■ そのため、F2の分散が1になるように固定されたものが図2.29である。

2.3.4 「思考を単純化する」
■ 「単純化」とは、物事の多くの側面の細かい差異にとらわれず、大局的に見ること。
■ 抽象的な概念(e.g., 食物意識)には様々な要素が関連しており、それぞれがその概念に関する共通項を持っている。その共通項で物事を見ることが「大局的」なのである。
e.g., 添加物、バランス ⇒ 食物意識という共通項
■ この2つの観測変数を食物意識の指標(indicator)という。目的に応じた指標の選択が必要。

2.3.5 潜在変数の意義
■ 潜在変数を用いず、通常の回帰式を用いたらどうなるか。図2.31(p55)のモデルの推定値から、当てはまりは悪いといえる。χ2乗値=233.32, df=1, p=.000
■ さらにX3, X4の誤差分散を比較すると(表2.12)、その値は、多重指標モデルよりも大きいことがわかる(説明力が悪い)。
■ 常に潜在変数を用いた分析が良いとは限らないことに留意する必要がある。観測変数の相関が潜在変数によって説明されるときのみ有効となる。

ページトップに戻る


2008/02/08

pp. 56-61: 潜在変数の描き方
1. 使用データ
■ 本文に基づきエクセルにて相関行列表を作成したのでそれをデータとして使用する。(ファイル名: AMOS 20080208)
からデータをセットする。

2. パス図を描く
■ まず図2.29の左半分を描く。 で観測変数を2つ、 で誤差変数を2つ、 で潜在変数を描き、 でパスを入れる。
■ また、 を使うと、一気に観測変数+潜在変数+誤差変数を描くことができる。図の上をクリックした回数に応じて観測変数+誤差変数の数が増える。
を使用し潜在変数の上をクリックすると、観測変数の位置を変えることができる。
■ これと合わせて、 (選択)、 (全体選択)、 (選択解除)、 (移動)、 (コピー)、 (大きさの変更)を適時使用して、形を整える。
■ 形を整えたら、全体をコピーし、もう1セットを作成する。更に形を整え、潜在変数間にパスを引き、二つ目の潜在変数上に誤差変数を追加する。

3. 変数に名前をつける
から対応する観測変数にドラッグ&ドロップでデータを当てはめていく。
■ Tool ⇒ Macro ⇒ Name unobserved variables を実行し、残りの変数に名前をつける。
■ F1から"balance"へのパス上に1が表示されている場合、パスを右クリック ⇒ Object parameters ⇒ parameters で、regression weightに表示されている1を削除。
■ 潜在変数F1・F2をダブルクリックし、Text からVariable namesに「食物意識」と入力。F2には「購買意欲」。さらにe5 ⇒ d2に変更。
■ 「食物意識」上で右クリック⇒ Object parameters ⇒ parametersで、Varianceに「1」と入力。これで分散が1に固定された。

4. 図にタイトルをつける。
をクリックし、図2.35(p.59)のようにタイトルを入力。「モデル特定化」の部分には\formatと入力。

5. 計算
から分析のプロパティを開いて、"Minimization history," "Standardized estimates," "Squared multiple correlation," "Indirect, direct & total effects"にチェックマークを入れる。
■ そして を押して計算を開始する。
を押して分析結果を図上に表示させる。更に、そのすぐ下にある"Standardized estimation"をクリックし、標準化係数を表示させる。
■ 図2.36(p. 60)のようになれば成功。

ページトップに戻る


2008/02/29

第3章 因子分析
因子分析の種類
探索的因子分析:データから構造を探る
検証的因子分析:何らかの仮説を基にデータと照らし合わせて構造を探る

■ 共分散構造分析では検証的因子分析が最も良く使われる。
■ 探索的因子分析は検証的因子分析を行うための事前分析として位置付けされている。
■ 探索的・検証的に関わらず因子分析における共通した仮説は以下の2点である。
(1) 潜在変数の影響により観測変数間の相関関係が生じる。観測変数間には因果関係は仮定されない。
(2) 潜在変数は全て独立変数である。それぞれの間には因果関係が想定されないが、相関関係は許容されることがある。

潜在変数:共通因子、または因子
誤差変数:誤差因子(error factor)と各観測変数の変動を表す特殊因子(specific factor)の総和
因子負荷(量):因子から観測変数へのパス係数

3.1 検証的因子分析と探索的因子分析:考え方
■ Lawley-Maxwell (1963)の6科目のテスト結果(n=220)をデータとして使用する(p.74表3.1 )。 
■ 全て正の相関となっているが、「ある科目で良い点が取れる生徒は他の科目でもそれなりに良い点を取る傾向にある」ということを示す。
■ これらの相関は「一般知能」という構成概念によって説明される。残りの変動は相関が仮定されない各科目独自の変数+誤差によって説明される。→「スピアマンの二因子説」
■ 「一般知能」は直接観測できないため潜在変数(F1)⇒図3.1のモデルが仮定される(p.75)。

■ このモデルでは、X1とX2の相関はλ1×λ2となり、数学的に上記の仮説(1)を説明する。
■ また、このモデルを方程式であらわすとp.76のようになる。
■ 一般知能(F1)が高ければXiは全て大きな値を取る傾向にあると言える。
■ しかし、観測変数に固有のランダムなeiの影響があるので、必ずXiの値が大きくなるとは限らないことに留意する必要がある。

複数の潜在変数の可能性:検証的因子分析
■ テスト科目が文系(X1, 2, 3)と理系(X4, 5, 6)に分類可能であるため、前者は文科的能力、後者は理科的能力によってそれぞれの相関が生じていると考えることが可能である(p.76, 図3.2)。
■ 潜在変数間に相関が想定されるが、因果を想定すると因子分析ではなくなる。
■ 文科的能力は理系科目に、理科的能力は文系科目に影響しないという強い仮説に基づいているため、これは検証的因子分析といえる。⇒ 事前に何らかの仮説が必要。

探索的因子分析
■ 全ての因子が全ての観測変数に影響を与えるというモデル(p.77, 図3.3)は探索的因子分析を表す。
■ このモデルの当てはまりを検証し、そして各因子からの影響の度合い(大小)を探索した上で初めて上記の検証的因子分析で用いた仮説が成り立つ。また、一般には因子の数も探索する。

■ つまり、仮説を検証するのが検証的因子分析、仮説を構築するのが探索的因子分析と言える。(それぞれの流れはp.78, 図3.4、3.5)

ページトップに戻る


2008/03/14

AMOSによる因子分析の行い方

1図3.9(p. 80)の図を描く
* AMOSの図を保存すると、数多くのファイルが出来てしまうので、あらかじめ保存用のフォルダを作成しておくと便利です。
■ AMOS graphicsを立ち上げ、 をクリックしてExcelのファイル(AMOS 2008-3-14)のSheet 1を取り込む。
■ 図3.9のように観測変数 、潜在変数 、誤差変数 、パス を描く。
■ 描き終えたら をクリックして、図3.9のようにそれぞれの変数をドラッグ&ドロップで各観測変数に入力していく。次に描かれた潜在変数をダブルクリック後、TEXTのタブを選択し、variable namesに「一般知能」と入力する。また、このときにParameterのタブをクリックし、Varianceに1と入力する。
■ 最後にToolMacroName unobserved variablesを選択し、誤差変数に名前をつける。
をクリックして、p. 81のように入力する。

カイ2乗値 (自由度) = \cmin (\df) p値 = \p
GFI = \gfi CFI = .854 RMSEA = \rmsea

■ 最後に から分析のプロパティを開いて、"Minimization history," "Standardized estimates," "Squared multiple correlation," "Indirect, direct & total effects"にチェックマークを入れる。
■ 計算 を行う。
を押して分析結果を図上に表示させる。更に、そのすぐ下にある"Standardized estimation"をクリックし、標準化係数を表示させる。
■ 図3.9のようになれば成功。しかし、モデルの適合度が悪いため、修正を行う。

2.モデルの修正(図3.11, p. 83)
をクリックしてパス図を描くモードに戻る。
■ 「一般知能」から伸びているパスを消し、 で「一般知能」を右に移動させる(p. 82, 図3.1参照)。
■ 「一般知能」を左側にコピーし、変数名を左からそれぞれ「文科的能力」と「数学的能力」に変更する。
■ 「文科的能力」から「ゲール語」、「英語」、「歴史」に、「数学的能力」から「計算」、「代数」、「幾何」にそれぞれパスを描く。また、両潜在変数間に因子間相関 を入れる。
■ データに適合したモデルとなる。

ページトップに戻る


2008/04/07

ページトップに戻る


2004/04/18

第4章 共分散構造分析の基礎

0. 共分散構造分析の理解に必要な概念の整理
*重回帰モデル(図4.1, p. 112)と多重指標モデル(図4.2) ⇒共分散構造モデル
重回帰モデル(図4.1)
・ 2つの変数(X1: 原稿頁数; X2: 図・表の数)を用いてある変数(X3: 刷り上り頁数)を予測。
・ 4.1の式によって表される。
多重指標モデル(図4.2)
・ 潜在変数間の因果を調べる(潜在変数間の回帰モデル)。
・ 3種類の誤差が用いられた(e1, e2; e3, e4; d2)⇒回帰モデルでは結果系変数のみの誤差が設定される。

4.1 変数いろいろ
■観測変数をX、潜在変数をFとして本書では表される。
・ 従属変数: 矢印を受けている変数(e.g., F2はF1とd2によって決定されるため)。
・ 独立変数: 矢印を受けない変数(モデル内にはこれらを規定する変数が含まれないため)。
■ 観測変数に付随する誤差変数をe, 潜在変数に付随する誤差変数をdとして表す。
⇒eやdも潜在変数と考えられるので、区別のため潜在変数Fを構造変数と呼ぶこともある。

4.2 方程式と分散・共分散
重回帰モデル
■分散・共分散を加えたパス図を表す方程式は式4.2(p. 114)のようになる。
■ 回帰分析において分散、共分散は自由パラメータである。
■ 独立変数間の共分散は基本的には自動的に0に設定されるので、推定すべきパラメータはパス係数(γ)と分散、共分散(φ)である。
■ X3の分散は式4.3(p. 115)のように表されるが、独立変数の分散・共分散とパス係数との関数となっているため、自由パラメータではない。

多重指標モデル
■ 図4.2のモデルを式で表すと表4.2(式4.4〜4.9; p. 115)のようになる。
■ 独立・従属変数の区別は重要であり、独立変数には分散・共分散、従属変数には方程式を作成する必要がある。
■ 観測変数、潜在変数共に従属変数となりうる。観測変数である従属変数の方程式を測定方程式(式4.4〜4.7)、潜在変数である従属変数の方程式を構造方程式(式4.8)と呼ばれる。
■ 独立変数は以下のルールに基づき「誤差変数」と「独立観測変数・構造変数」に区別される。

1. 両者の間に共分散は想定されない。
2. 誤差変数間には共分散が想定されない。
3. 独立観測変数・構造変数の間には共分散が設定される(モデリングのデフォルト)。
* ただし、従属変数間に偏相関が残る場合のみ共分散が設定されるが、この判定は難しい。

4.3 共分散構造とは
重回帰モデル
■ 従属変数X3の共分散は式4.10、4.11のように表され、共分散構造モデルにおける推定すべきパラメータはパス係数と独立変数の分散・共分散であることを示す。
共分散構造: 観測変数間の分散・共分散をパラメータの関数で表したもの(より狭義では分散共分散行列(式4.12)をパラメータで表したものを指す) =Σ(θ)
■ 観測変数の分散・共分散の数とパラメータの個数(p)の差dがモデルの自由度である。
    d = (1/2)p(p + 1) - q
■ このモデルの自由度は0となるが、重回帰モデルの自由度は一般的に0である。

多重指標モデル
■ 潜在変数F1, F2の分散共分散行列は式4.13(p. 119)のようになる。
■ 標準解においては潜在変数の分散を1に標準化するため、それを式4.13に代入すると、観測変数の分散共分散行列は式4.14(p. 119)のようになる。
■ 分散を1に標準化すると変数間の共分散は、変数間のパス上のパス係数をかけたものとなる。パスが複数あるときは全ての和を取ることになる。
■ 標準解においては観測変数の分散も1に標準化されるため、共分散は相関となる。

■ パス図、方程式+分散・共分散、共分散構造の3通りで共分散構造分析は表される。
■ 最も分かりやすい表記はパス図である。
■ 最近のソフトウェアの多くはパス図か方程式+分散・共分散を入力するようになっている。
                                                                         (今野)

ディスカッション&コメント
・自由パラメータとは、データから推定されるパラメータのこと。
・共分散構造分析は構造方程式モデリングとも呼ばれるが、「構造方程式」という単語が潜在変数である従属変数の方程式のことを指すとなると、構造方程式モデリングの方がより狭義で用いられるのだろうか?
                                                                  (森本)


ページトップに戻る


2008/06/06

4.4 識別性について
■ 共分散構造分析においては識別性(identification)という重要な問題が存在する。
■ 観測変数の分散共分散行列Var(χ)(=Σ(θ))を表すパラメータθが多数存在する場合、「共分散構造分析は識別可能ではない」と考えられる。
■ 識別可能な場合は、以下のような式が成立する場合である。
Σ(θ1) = Var(χ) =Σ(θ2) =θ1 =θ2
■ これを方程式+分散・共分散で考えると、式(4.15)のように表される。
■ ここで不定性が生じるが、これを解消するために以下のような制約を置く。
Var(F1) = φ1 = 1
■ F2についても同様のことが言えるが、計算プログラム上扱いにくいため、F2から伸びるパスのうち1つのパス係数を1に固定する(4.17)。
■ つまり、潜在変数が独立変数の場合にはその分散を1に固定し、従属変数である場合には、1つのパス係数を1に固定する必要がある。
■ これらを考慮すると、多重指標モデル(図4.2)は(4.18)のように表される。

■ タイプが異なる識別性の場合はどうか(図4.3, p. 123)。
■ モデル(1)は識別可能なモデルではないが、識別可能にするためには以下の2つの方法がある。
1) θ1 = 0とする。
2) λ211 /(λ211 +θ1 )を既知とする。
■ また、モデル(2)も同様に識別可能なモデルではない。
■ 識別可能なモデルにするためには、1)λ11 = λ21、もしくはθ1 =θ2の条件を課す、2)F1と相関のある他の変数を導入すること、が考えられる。
■ このように識別性の確認は複雑であり、簡単な一般論はまだ存在しない。

4.5 モデルの入力形式と推定値の出力形式
■ 共分散構造モデルは「方程式+分散・共分散」で表され、それに基づきモデルファイルが作成されるが、ここでは各ソフトの工夫を見ていく。

EQS (表4.3, p. 125)
■ 「方程式+分散・共分散」に最も忠実である。
■ 観測、潜在、観測変数の誤差、潜在変数の誤差の各変数はそれぞれ、V, F, E, Dとして表される。
■ λやφが現れず、全て*で置き換えられている。
■ 1.0は「1」に固定されていることを示す。
■ 推定値については以下の順番で表される(表4.4)。
(i) 推定値
(ii) 推定値の標準誤差
(iii) H:θ = 0の検定統計量(一変量ワルド検定; z > 1.96で帰無仮説が棄却)
■ 有意なパスには@が付く。

AMOS Basic (表4.5, 4.6, 4.7, p. 128)
■ 独立変数の分散・共分散の記述がほとんど無い。
■ 以下のような前提がある。
・ 全ての誤差変数は互いに、そして他の独立変数から独立しており、それらの分散は自由パラメータとして推定される。
・ 誤差以外の独立変数間の分散・共分散は自由パラメータとして推定される。
■ これに当てはまらない場合のみSem. Structureで宣言される。
■ Sem. Structure "食物意識s----a食物意識(1)"は分散が1に固定されていることを示す。
■ (1)となっていない全ての係数が推定される。

補足
標準解
 多変量データでは、各変数の測定単位が異なり、それぞれ1の意味が異なるため、分散を1に標準化すること。または、潜在変数の尺度を定めるために分散を1に固定すること。
■ EQSは全ての変数の分散を1に標準化するため、誤差変数からのパス上にある係数は、誤差変数の標準偏差を意味する。
                                                                    (今野)

ディスカッション&コメント
・識別するために、パスの1つの分散などを1に固定する。全ての変数が動いてしまっては値がきめられないため。できれば、一番安定しているところを1に固定するとよい。
・潜在変数の分散同士が全く同じになってしまうと、識別できなくなってしまう。
                                                              (森本)

ページトップに戻る

2008/06/20

4.6 パラメータの推定方法とその考え方
■ AMOS, EQS, CALISにおいては最尤法(Maximum Likelihood)がデフォルトの推定法である。
■ 統計学においては、モデルが最もデータに近づくパラメータの値を選択することで、パラメータの推定が行われる。
■ 共分散構造分析においても同様で、共分散構造Cov(Xi,Xj)(=σij(θ))(モデル)が標本共分散sij(データ)に近づくようθが求められる。
■ つまり、標本分散共分散行列Sを共分散構造モデルΣ(θ)で近似する、と考えられる(図4.4, p. 131)。
■ 曲線がΣ(θ)を表しており、曲線状のSに最も近い推定値がθの値として選ばれる。
■ また、このときに距離が問題となる。
■ SとΣ(θ)の距離はF(S, Z(θ))として表され、θの推定値は最小化問題の解となる(4.19)。
■ Fの取り方により推定方法が異なるため、推定方法には多数のオプションがある。

■ より具体的に、食品の購買行動についての多重指標モデル(図・表 4.2, p. 51)を用いて話を進める。
■ 共分散構造分析では相関行列Rを標本分散共分散行列とみなすため、両者は置き換え可能である。
■ つまり、Z(θ)がRに最も接近するパラメータの値を推定値とする(具体的にはp. 132参照)。
■ ソフトウェアでは反復法を用いてθの値が求められる。
■ AMOSには、初期値からRやSに最も近い推定値を探すプロセスを示す、モデリングラボというオプションがある(モデルの適合度モデリングラボ)。
Amosステップをクリックすると反復を繰り返し、反復ごとの推定値がパス図で表示される(表4.9, 図4.5, pp. 134-135)。(以降に参考までに距離関数の詳細が載せられている)
■ 最小2乗法は、データとモデルの差の2乗を小さくするための推定値を求める方法である。
■ 推定においては最小2乗法が西の横綱、最尤法が東の横綱と言える。
■ 表4.10(p. 136)にソフトウェアごとの代表的な推定法とその略称が載せられている。
■ EQSにはROBUSTというコマンドがあり、正規性が保たれていないときに、検定統計量がカイ二乗分布と同じ期待値を持つように調整される。

■ 数ある推定法の中でも、最尤法の適用が最も推奨される。多変量正規性が仮定されなければ最尤法の使用を控えるべきという主張もあるが、それが仮定されていてもいなくても、Σ(θ)とSの近似は成立し、一致性と漸近正規性が成り立つ。
■ これらは推定にだけ成立するため、注意が必要であるが、基本的には母集団分布にあわせた推定方法の選択が望まれる。

ページトップに戻る


2008/09/05

4.8 統計的推測の注意点 (pp. 149-162)
4.8.1  5件法や7件法(順序カテゴリカルデータ)をどう分析するか(pp. 150-154)
■ 共分散構造分析の理論やソフトウェアは多変量正規性を仮定して構築されてきたが、それが崩れた場合でも分析が不可能というわけではない。

■ 5件法(7件法)、2値変数(e.g. 男女) → 順序尺度(離散型)
・例えば、2値変数を連続変数とみなし、独立変数として用いることは問題視されない。
・しかし、これらを連続変数とみなして従属変数として用いる場合は問題となる。
→これらに対しては以下の3つの取り扱い方が考えられる。

(1) 連続変数とみなす
(2) 多分相関係数(2つの観測変数が順序尺度)、多分系列相関係数を使う(一方は順序、他方が連続)
(3) 多項分布に基づく方法
荻生田・繁桝(1996) → 5件法(7件法)は連続変数とみなして良い

■ (2)、(3)の方法は、「実際は連続変数(心理学的連続体)であっても、表に現れるもの(観測変数)は順序尺度になってしまう」という状況を扱う(元データは無いが、度数分布表はある状況と類似)。
■ 例えば5件法の場合、潜在的な連続変数として標準正規分布を仮定すれば、度数分布表とクロス集計表から相関係数とクラスの境界値が求められる(図4.8 p. 152)。
■ (2)は多分相関係数や多分系列相関係数によって観測変数間の相関を求め共分散構造を決定する。
■ (3)が理論的には一番優れているといえる。
→しかしどちらの方法も明確に区別はできない。

■ (2)、(3)の方法は優れているが、「実際は連続変数でも観測変数は順序尺度」という仮定を検証する術が無く、また、ヒストグラムがきれいな釣鐘型をしていれば方法間に違いは無い(尺度が等間隔)。
■ 順序尺度の共分散構造分析は難しく、ベストな方法が無い。
2値変数 → (2)、(3)の方法
3、4件法 → グレーゾーン
5件法以上 → 連続変数とみなす
* 順序尺度を連続変数とみなすには、正規性が保たれるように質問項目を工夫すべき

4.8.2 正規性の検討と円錐分布 (pp. 154-158)
■ 多変量分析は多変量正規分布を想定しているが、データが明らかに逸脱している場合、楕円分布を用いる。
■ 分布の検討には歪度(skewness)と尖度(kurtosis)を参照する。
→共分散構造分析では、尖度が特に重要となる。

尖度・多変量尖度 > 1.96 が目安

スケールを調整した尖度と多変量尖度が等しく、ゼロから離れている → 楕円分布
* AMOS: 分析のプロパティの出力タブ ⇒ 「正規性と異常性の検定」にチェック

⇒ 一般分布理論に基づく推測を行う。

4.8.3 どの推定方法を選ぶか (pp. 158-162)
■ 例えばEQSには以下のような推定方法がある。

LS, GLS, ML, ELS, EGLS, ERLS, HKRLS, AGLS

■ 理論的にはどの方法でも推定値に違いが無い(違う場合はモデル・データに問題あり)。
■ したがって、ML(最尤法)が最も無難である。
■ 適合度指標にはカイ2乗検定が用いられるが、以下のような問題がある。
(1) 帰無仮説が棄却されない時モデルを採択するというアクションをとる。このアクションが間違いであるという可能性は第2種の過誤βで、定量的に測ることができない。
(2) 多変量正規性の仮定はしばしば正しくない。この仮定が崩れた時の統計的推測の頑健性が明らかでない。
(3) 標本サイズnが小さい時カイ2乗近似は十分でなく、大標本ではほとんど必ずモデルは棄却される。
■ (1)、(2)は最近では解決済み。
■ (3)については、代わりの指標が提案されてきたが、どれも理論的背景が脆弱である。
そのため…
nが数百程度 ⇒ カイ2乗検定
nが500前後以上 ⇒ GFI, CFI, RMSEA

コメント
本章後半ではnが数百程度でればカイ2乗検定を適合度の指標とすることが薦められているが、どの論文を読んでもGFI, AGFI, CFI, RMSEA程度は提示されていることが多いため、カイ2乗検定の結果だけで判断することには慎重になるべきであるように思える。
共分散構造分析に限ったことではないが、頑健な統計手法が多数存在しているものの、やはり正規性に対しては細心の注意を払うべきで
あると改めて思った。
                                                              (今野・平井)

ページトップに戻る


2008/09/26


第5章 モデルの修正(p. 163-)
■ 回帰分析において、独立変数の設定(変数選択)が重要な課題である。
■ 共分散構造分析でも同様であるが、当初から想定していたモデルが何もせずデータに適合することは非常に稀であるため、解析をやり直す必要があることが多々ある。
■ モデルが適合しない理由として、以下の点が挙げられる。
(1) データが不適切(異常値や分布の偏りにより共分散や相関係数が適切に推定されない)
(2) モデルが不適切
(3) 母集団分布に適した検定法が使用されていない(多変量正規分布が想定されない:4.8.3節参照)
■ モデルが適切でない場合には、各ソフトの統計的修正指標を用いることで解決される可能性がある(EQS, CALIS→ LM検定&ワルド検定; AMOS→修正指標(modification index)&ワルド検定)
■ しかしこれらを参照する場合、以下の点において特に注意する必要がある。
(1) 最初に立てたモデルが十分理論に基づいており、データからかけ離れていないこと
(2) 修正指標により導入された新しいパスや相関に十分な意味があり、解釈可能であること
(3) これらの修正はデータから見た「後知恵」であるため、改めてモデルの検証が必要であること
■ 以降ではHolzinger-Swineford (1936)による心理テストから9項目を選択したモデルで解析を行う(表5.1, p. 165; 図5.1, p. 166参照)。

5.2 AMOSによるモデル修正(pp. 176-181)
■ AMOSではLM検定の変わりに修正指標(modification index)が用いられるが、これは古いタイプのものであるため推奨はされないものの、参考にはなる(表5.8, p. 177)。
■ メニューから表示→分析のプロパティ→出力タブ→修正指標にチェック
■ 閾値の設定が可能(4以上で有意味な修正となるようである)。

スマートなモデルを探すために
(1) 修正にはまずワルド検定の結果から有意でないパラメータを探す(検定統計量の欄)。
(2) 標準正規分布の上側2.5%である1.96を超えていれば有意であり、そのパスには引く価値があったと判断される(表5.9, p. 178)。
■ AMOSには多変量ワルド検定(i.e., 同時に複数のパスを入れるならば、どこに入れればよいのかを示す検定)が無いものの、同時に複数個のモデルで推定し、比較が可能なオプションがある。
■ まず、0とする可能性がある係数にラベル付けを行う。ここでは潜在変数「スピード」からV5への係数の検定量が最小であるため、このパス(path5)を0に設定することとする(図5.4, p. 179)。
パスを右クリック→オブジェクトのプロパティ→パラメータのタブ→係数に0を入力
■ 残り2つのパス(Speed→V7: path6; verbal←→speed: cov23)を0にするかどうかで合計4つのモデルが考えられる(表5.10, p. 180)。可能な5つのモデルの同時推定には次の手順で行う。
(i) メニュー→モデル適合度→モデルを管理
(ii) 新規作成をクリック→パラメータ制約の欄に「path5=0」を入力(モデル番号2)(図5.5, p. 179)
(iii) 同様の手順で0となる可能性があるパスの組み合わせを入力し、比較対象のモデルを入力(表5.10)
■ 最終的な5つのモデルの比較の結果は表5.11(p. 180)に示されている。
■ cov23を外したモデル4,5のカイ2乗値が他よりも大きいため、H: cov23 = 0を検定する。
モデル2 vs. 4: 25.357-20.277 = 5.080 > 3.84 (= X21(.05))
モデル3 vs. 5: 25.357-20.596 = 4.761 > 3.84 (= X21(.05))
■ 両方とも有意であるため、cov23は外すべきではないと判断される(cov23 ≠ 0)。
■ path6についても同様の検定を行う。path6は外すべきと判断される(path6 = 0)。
モデル2 vs. 3: 20.596-20.277 = 0.319 < 3.84 (= X21(.05))
■ つまり可能性のあるモデルを比較した結果、モデル番号3が選択される。
■ この結果は、AICの結果に対応している(モデル番号3が最小値)。

コメント
修正指標に従い修正していくことで確かにモデルの適合度は向上するが、繰り返し指摘されているように修正を加える場合は(特に検証的因子分析等)前提となる理論から外れすぎないように特に留意する必要があることを再認識した。
本ハンドアウトp. 1以降で解説されている有意で無いパスを削除するための検定方法を今回はじめて知った。今後はこの方法を用いて慎重に修正を行いたい。

                                                              (今野・平井)

ページトップに戻る

ご意見やコメントがあればこちらまでお寄せください。