2007年度 研究会トップに戻る

11/30  1/11  1/25  2/8  2/29  3/14  2008年度の発表資料資料はこちら

狩野裕・三浦麻子 (2002). 『グラフィカル多変量解析』(増補版). 現代数学社.


2007/11/30

第1章 回帰分析

1.1 中古価格の要因分析:データ
■「トヨタマークII2000」の中古車価格(従属変数)の決定要因を、価格(万円)、走行距離(10000KM)、乗車年数(年式の古さ)、車検の残り期間(月数)という独立変数から探る。

1.2 単回帰分析
■単回帰分析:2次元データにうまく当てはまる直線によって分析をする方法
■図1.1の回帰直線:価格=142.25−13.23×年数;1年で約13万円の下落
■乗車年数に0を代入しても新車価格は予測できない。年数の値には2〜10までが含まれているからである。
⇒このような「外挿」はしない方が良い。
■ また、乗車年数のみで新車価格が正確に決定されない
価格=α+β×年数+e1
⇒e1; 年数以外の諸要因(データから回帰直線までの縦軸の長さ)- 誤差
⇒β; (偏)回帰係数
■ これをパス図で表すと図1.2のようになる。

■ 決定係数(重相関係数の2乗;squad multiple correlation(SMC))
   R^2=0.83
⇒1に近くなるほど独立変数による予測が正確になる。
■ 単回帰係数の場合、決定係数は相関係数の2乗と等しい。
   r=−√0.830=−0.911

1.3 重回帰分析
■走行距離と車検という独立変数を含めて重回帰分析を行う場合、次のような式になる。
   価格=α+β1×走行距離+β2×乗車年数+β3×車検+e1 (図1.3)

■重回帰分析では独立変数間に相関(共分散)が認められる ⇒双方向の矢印
■ 乗車年数の偏回帰係数β2=−12.67は図1.2の回帰係数よりも小さい。
⇒他の要因(距離・車検)が一定である場合、1年に12.67だけ値落ちするという意味
■ 各要因の偏回帰係数(絶対値)の大きさを単純比較することはできない。
⇒全ての変数の分散を1に固定し、標準化する必要がある。偏回帰係数は単位に依存するため、単位が異なる独立変数間のβを直接比較ができないためである。(図1.4)

■ 標準化を行うと、共分散は相関係数となる。
⇒独立変数間の相関が大きいと適切な分析が行われない可能性が高いため(多重共線性)、パス図には相関係数の推定値を含める必要がある。
■ 誤差の推定値e1 (0.32)から次のような計算によって最終的な決定係数が求められる。
   R^2=1−0.32^2=0.90

1.4 共分散構造分析へ
■本節での着眼点:
(i)乗車年数から価格への影響の大きさが単回帰分析と重回帰分析で異なる。
(ii)車検は2年ごとに行われるため、乗車年数・走行距離とは無関係である。
−走行距離と車検の残りが一定であれば値落ちが12.67万円だが、一般的に1年古くなるごとに走行距離が増えるため、13.23万円値落ちすると考えることができる。

仮説1:長期間乗ると走行距離が長くなり、その結果中古価格が下落する。
仮説2:車検の残りは、走行距離・乗車年数と無相関なので、独立して価格に影響する。
■ 重回帰モデルは(1)従属変数が1つ、(2)独立変数間には自動的に相関が設定されるため、図1.5のような共分散構造分析によるパス解析モデルが必要となる。
■ 走行距離が一定ならば乗車年数は価格に影響しないという想定は重回帰モデルと矛盾するため、このモデルは棄却される可能性がある。⇒次章で検証

1.5 共分散と相関係数
■ n人の被験者から項目X, Yについてのデータを採ったと仮定し、Xの分散sxx, Yの分散syy, XとYの共分散sxyを計算する。
■ 相関係数: 共分散をXとYの標準偏差で割ったもの
   rxy = sxy/√sxxsyy ⇒ rxy = 0 ←→ sxy = 0

■ つまり、データの分散がsxx=syy=1と標準化されているとき、共分散と相関関係は一致するといえる。→標準化された時、共分散が相関係数になる理由
■ 分散共分散行列(表1.2)の右上は省略される。
■ 本書では母集団と標本の区別は行わない。
                                                                             (今野)


・ 相関係数は、データの分散が1で標準化されているものだということをはじめて知った。従って、標準回帰係数に対応するものが相関係数ということになるのであろう。
・ 分散共分散行列は、対角線の部分が分散でそれ以外の部分が共分散を示している。APAでの相関行列は右上を残すようになっているが、SEMでは左下の行列を残すようになっているのだろうか。
                                                                      (森本)

ページトップに戻る


2008/01/11

第2章 AMOS, EQS, CALIS初体験:パス解析と多重指標分析

2.1 変数とパス図
■回帰分析では独立変数(原因系変数)と従属変数(結果系変数)の区別は明確であるが、共分散構造分析においては異なる。
⇒1方向の矢印を1つも受けていない変数が独立変数で、1つでも受けていれば従属変数
■ また、変数は以下のように区別される。
潜在変数:「知能」「やりがい」「有能感」等の直接観測できない変数を指す。丸や円錐で囲まれる。
観測変数:「走行距離」「価格」等の直接観測可能な変数。通常四角で囲まれる。
⇒誤差変数は潜在変数の一部であるが、丸で囲むかどうかについては意見が分かれる。

2.2 パス解析:中古車価格
■ パス解析の分析は相関行列の検討から始まる(表2.1、p.14)。
・ 「価格」と「乗車年数」の間に強い負の相関(r = -.911)。
・ 「車検」と「価格」に負の相関(r = -.085)…?
■ これらを基にしたパス解析モデル(図2.1、p. 15)は、以下の理由で棄却される。
1.「走行距離」と「車検」から「価格」を予測する重回帰式の決定係数(R^2 = .26)は、単回帰分析(R^2 = .83)や重回帰分析(R^2 = .90)と比べて大幅に低い。
2.代表的な適合度指標であるカイ二乗値(カイ二乗値=23.03、df = 3、p = .000)に問題あり。
⇒データとモデルの距離とカイ二乗分布の比較であり、有意水準5%より大きいとモデルが棄却
■ 「走行距離」が一定であっても古くなれば「価格」が下がるという重回帰分析の結果を考慮し、「乗車年数」から「価格」へのパスを引いたモデルを再度検討する(図2.2, p.16)。
■ 決定係数(R^2 = .90)、適合度指標(カイ二乗値= 1.03, df = 2, p = .5972 )から、モデルの当てはまりは良いことが分かる。
■ パス解析は重回帰分析の繰り返しで、従属変数ごとに次のような回帰分析を行っている。
価格= β0+β1走行距離+β2乗車年数+β3車検+誤差
走行距離= β'0+β'1乗車年数+誤差'
■ 単回帰分析の結果と比較してみると…
−13.23 =(nearly equal) −12.67+.26×(−3.61)=13.61
■ 「乗車年数」が1増えると、価格が12.67万円下がる。更に、走行距離が.26増え、.26×(−3.61)だけ価格を下げる。

「乗車年数」⇒「価格」…直接効果
「乗車年数」⇒「走行距離」⇒「価格」…間接効果
直接効果+間接効果=総合効果 ⇒ 単回帰分析ではこの総合効果が求められている。

2.2.1 AMOS
AMOS Basic
■ テキスト形式のモデルファイルを作成して分析を行う。パス図はなし。しかし、変数やパスの数が多い時や、観測変数間の分散・共分散、相関係数を計算する場合には便利(図2.5, p21)
■ テキストファイルやExcel, SPSSのファイルを読み取り可能。入力の際には1行目には変数名、テキストファイルの場合はカンマで区切る必要がある(図2.4, p20)。Excelの場合はそれに加えてバージョン情報も必要となる。計算結果は図2.5.

AMOS Graphic
@準備
■ まずは最初の画面で、データファイルを指定する。FileData FilesFile Nameを選択し、保存してあるファイルを選択する。ツールバーからは以下のアイコンをクリックする。

Aパス図を描く
View/SetInterface PropertiesPage LayoutRotationLandscapeの順に選択していくと、描画領域が横方向に変わる。
■ 4つの変数(i.e.,乗車年数、価格、車検、走行距離)を書くために以下のアイコンをクリックする。

■ ドラッグ&ドロップ(以下、D&D)で長方形を描く。大きさが気に入らない場合は長方形を右クリック→ Shape of Objectを選択し、D&Dで大きさを変更する。
■ 更に右クリック→Copyを選択し、オブジェクトを移動させるとコピーが完了。4つ長方形を用意する(図2.10、p25を参照)。以下のアイコンをクリックでも可。

■ 以下の誤差変数のアイコンをクリックし、右2つの長方形上でもう一度クリック。クリック毎に長方形上での誤差変数の位置が変化していく。

■ このとき、誤差変数のサイズが大きくなるので、 を選択し、誤差変数の○と矢印を1つずつクリックし、選択する。そして をクリックして、○のみをドラッグ&ドロップで移動させると矢印が短くなる。
■ 因果を表すパスを入れるため、以下のアイコンをクリックし、D&Dで長方形の縁から縁へパスを描く。失敗したらEraseで消す。もしくは上記の手順でmove.

Bデータの入力
■ まずは変数名を入力する。View/SetVariables in Data Setを選択すると、図2.9(p.24)のようなウィンドウが表示される。各変数名をD&Dで各長方形に移す。また、以下のアイコンをクリックしても可。

■ 誤差変数名は、誤差変数をダブルクリック→Object PropertiesVariable Nameに"e1"と入力。誤差変数が多い場合は、ToolMacroName Unobserved Variablesを選択すると、全ての誤差変数に順に入力される。
■ 変数の表示はView/SetVariables in Model(図2.9)、もしくは
* ここまでで一度保存をしましょう。

C計算
■ まず、View/SetAnalysis PropertiesOutput、もしくは で出力の書式を設定する。図2.11(p.26)のようなウィンドウが出てくるので、"Minimization history," "Standardized estimates," "Squared multiple correlation," "Indirect, direct & total effects"にチェックマークを入れる。
■ そして をクリックしてモデルの計算を行う。
■ 以下のような警告が出る。これは独立変数間には相関を入れるのが普通なために警告が出るが、今回は意図的に入れていないので"Proceed"

をクリックすると、非標準化係数がそれぞれ表示される。更にパス図の隣にある"Standardized estimates"をクリックすると、標準化されたパス係数の推定値に切り替わる。「Mileage」と「Price」の右上の数値が重相関係数の2乗、つまり決定係数となる。
■ 推定結果の出力は、View/SetText Output、もしくは をクリックし、Notes for Modelを選択。
■ p = .000のため、このモデルは棄却される。

Dモデルの修正
をクリックして、「Mileage」から「Price」へパスを引く(図2.4, p.29)。そして別名で保存。これまでと同様の手順で分析を進める。

をクリックしてテキスト出力を確認。今度は採択が可能となる。

ディスカッション&コメント
・従来の相関や回帰分析とはスケールや考え方を大きく切り替える必要ある。だた、練習には学生評価版があり、使いやすさを体験するのがよい。ただし、使えるパスと変量の数が限られている(それぞれ50、8(未確認))ので注意。

・モデルのあてはまりを検定するカイ自乗検定の帰無仮説は、「モデルとデータは、適合している」といったところか。有意確立が規定値(5%/1%)を下回ると、モデルがデータの予測に役立たないことがいえる。

ページトップに戻る


2008/01/25

2.3 多重指標分析:自然食品の購買行動のデータ(pp. 50-56)
2.3.1 はじめに
■ 『食物意識の高い人は自然食品店での購買意欲が高い』という抽象的な表現において、「食物意識」とは何を指すのだろうか。
■ 有機無農薬野菜を買う人も、決まった食事の時間や腹八分目を守る人も「食物意識」が高いと言える。
■ 「食物意識」という表現に到達するまでに、多くの側面が単純化や次元縮小されるというプロセスを経るが、このプロセスこそ多変量解析の柱である。
■ 本章では多くの側面を持つある概念を単純化や次元縮小して分析をするための、「共通変動の背後に潜在変数を想定する」という方法を取り扱う。

2.3.2 データ
■ ここでは「食品添加物を気にしたり栄養のバランスを気にする人は自然食品店でよく買い物をする」という仮説を検証し、「よく」とはどの程度なのかを検証する。
■ データは表2.9(p51)の相関行列表に示してある。
■ 栄養のバランス(X1)を考える人は食品添加物(X2)にも気を使っていると考えられるため、両者には正の相関が考えられる(r = .30)。
■ この相関に影響する要因として食物意識(F1)という潜在変数を仮定する(図2.27左, p51)。
⇒ 食物意識が高ければバランスにも添加物にも気を使う
■ 自然食品への購買意欲(F2)が高ければ購買額(X3)と回数(X4)とも高くなると考えられる。

2.3.3 潜在変数間の関係
■ 食物意識が高ければ自然食品(F1)の購買意欲(F2)も高いと考えるのは自然であるため、図2.28(p52)のようなモデルを仮定し、F1がF2をどの程度説明するのかを調べる。
■ d2(Disturbance; 撹乱変数)はF2を規定するF1以外の影響要因の集合体である。
■ モデルの標準解(図2.29, p52)の結果はχ2乗値=.43、df=1, p=.51となり、適合度は良好である。

2.3.4 標準解の解釈
■ 図2.29では食物意識(F1)と購買意欲(F2)の両潜在変数の分散が1に標準化されている。
■ F1からF2へのパス係数(相関係数).56は大きいと言えるだろうか。
■ 大まかに、添加物(X1)とバランス(X2)が購買額(X3)と購買回数(X4)を説明していると言えるが、X1, X2とX3, X4の相関係数(表2.11, p53)を見ると、.56には遠く及ばない。
■ これらは、例えばX1からX3を結ぶパス上の全ての係数の積によって算出される。
■ 小さくなるのは、.56に2つの相関係数をかけているからである。つまり相関係数が1ならば、.56となる。
■ X(観測)とF(潜在)の間には、X=F+eという関係が成り立つため、もしXとFの相関係数が1ならば誤差(e)は0である。
■ 観測変数間の相関が.56よりも低くなるのは、誤差の影響である。つまり、観測変数間の相関係数は誤差を含めて計算されているため、本来の相関係数が薄められて(希薄化;attenuation)いるといえる。
注意点:
■ 潜在変数の平均や分散は任意に設定できるため、値として−1から+1や0〜100という範囲でも問題がない。しかし推定の際に問題が起きるため、分散を固定する必要がある。
■ 独立潜在変数(F1)の分散は1に固定されるが、従属潜在変数(F2)を固定するのは厄介である。
■ F2から観測変数までのパス係数のうち1つを1に固定することになるが、この制約の下では推定値は図2.30(p54)のようになる。
■ そのため、F2の分散が1になるように固定されたものが図2.29である。

2.3.4 「思考を単純化する」
■ 「単純化」とは、物事の多くの側面の細かい差異にとらわれず、大局的に見ること。
■ 抽象的な概念(e.g., 食物意識)には様々な要素が関連しており、それぞれがその概念に関する共通項を持っている。その共通項で物事を見ることが「大局的」なのである。
e.g., 添加物、バランス ⇒ 食物意識という共通項
■ この2つの観測変数を食物意識の指標(indicator)という。目的に応じた指標の選択が必要。

2.3.5 潜在変数の意義
■ 潜在変数を用いず、通常の回帰式を用いたらどうなるか。図2.31(p55)のモデルの推定値から、当てはまりは悪いといえる。χ2乗値=233.32, df=1, p=.000
■ さらにX3, X4の誤差分散を比較すると(表2.12)、その値は、多重指標モデルよりも大きいことがわかる(説明力が悪い)。
■ 常に潜在変数を用いた分析が良いとは限らないことに留意する必要がある。観測変数の相関が潜在変数によって説明されるときのみ有効となる。

ページトップに戻る


2008/02/08

pp. 56-61: 潜在変数の描き方
1. 使用データ
■ 本文に基づきエクセルにて相関行列表を作成したのでそれをデータとして使用する。(ファイル名: AMOS 20080208)
からデータをセットする。

2. パス図を描く
■ まず図2.29の左半分を描く。 で観測変数を2つ、 で誤差変数を2つ、 で潜在変数を描き、 でパスを入れる。
■ また、 を使うと、一気に観測変数+潜在変数+誤差変数を描くことができる。図の上をクリックした回数に応じて観測変数+誤差変数の数が増える。
を使用し潜在変数の上をクリックすると、観測変数の位置を変えることができる。
■ これと合わせて、 (選択)、 (全体選択)、 (選択解除)、 (移動)、 (コピー)、 (大きさの変更)を適時使用して、形を整える。
■ 形を整えたら、全体をコピーし、もう1セットを作成する。更に形を整え、潜在変数間にパスを引き、二つ目の潜在変数上に誤差変数を追加する。

3. 変数に名前をつける
から対応する観測変数にドラッグ&ドロップでデータを当てはめていく。
■ Tool ⇒ Macro ⇒ Name unobserved variables を実行し、残りの変数に名前をつける。
■ F1から"balance"へのパス上に1が表示されている場合、パスを右クリック ⇒ Object parameters ⇒ parameters で、regression weightに表示されている1を削除。
■ 潜在変数F1・F2をダブルクリックし、Text からVariable namesに「食物意識」と入力。F2には「購買意欲」。さらにe5 ⇒ d2に変更。
■ 「食物意識」上で右クリック⇒ Object parameters ⇒ parametersで、Varianceに「1」と入力。これで分散が1に固定された。

4. 図にタイトルをつける。
をクリックし、図2.35(p.59)のようにタイトルを入力。「モデル特定化」の部分には\formatと入力。

5. 計算
から分析のプロパティを開いて、"Minimization history," "Standardized estimates," "Squared multiple correlation," "Indirect, direct & total effects"にチェックマークを入れる。
■ そして を押して計算を開始する。
を押して分析結果を図上に表示させる。更に、そのすぐ下にある"Standardized estimation"をクリックし、標準化係数を表示させる。
■ 図2.36(p. 60)のようになれば成功。

ページトップに戻る


2008/02/29

第3章 因子分析
因子分析の種類
探索的因子分析:データから構造を探る
検証的因子分析:何らかの仮説を基にデータと照らし合わせて構造を探る

■ 共分散構造分析では検証的因子分析が最も良く使われる。
■ 探索的因子分析は検証的因子分析を行うための事前分析として位置付けされている。
■ 探索的・検証的に関わらず因子分析における共通した仮説は以下の2点である。
(1) 潜在変数の影響により観測変数間の相関関係が生じる。観測変数間には因果関係は仮定されない。
(2) 潜在変数は全て独立変数である。それぞれの間には因果関係が想定されないが、相関関係は許容されることがある。

潜在変数:共通因子、または因子
誤差変数:誤差因子(error factor)と各観測変数の変動を表す特殊因子(specific factor)の総和
因子負荷(量):因子から観測変数へのパス係数

3.1 検証的因子分析と探索的因子分析:考え方
■ Lawley-Maxwell (1963)の6科目のテスト結果(n=220)をデータとして使用する(p.74表3.1 )。 
■ 全て正の相関となっているが、「ある科目で良い点が取れる生徒は他の科目でもそれなりに良い点を取る傾向にある」ということを示す。
■ これらの相関は「一般知能」という構成概念によって説明される。残りの変動は相関が仮定されない各科目独自の変数+誤差によって説明される。→「スピアマンの二因子説」
■ 「一般知能」は直接観測できないため潜在変数(F1)⇒図3.1のモデルが仮定される(p.75)。

■ このモデルでは、X1とX2の相関はλ1×λ2となり、数学的に上記の仮説(1)を説明する。
■ また、このモデルを方程式であらわすとp.76のようになる。
■ 一般知能(F1)が高ければXiは全て大きな値を取る傾向にあると言える。
■ しかし、観測変数に固有のランダムなeiの影響があるので、必ずXiの値が大きくなるとは限らないことに留意する必要がある。

複数の潜在変数の可能性:検証的因子分析
■ テスト科目が文系(X1, 2, 3)と理系(X4, 5, 6)に分類可能であるため、前者は文科的能力、後者は理科的能力によってそれぞれの相関が生じていると考えることが可能である(p.76, 図3.2)。
■ 潜在変数間に相関が想定されるが、因果を想定すると因子分析ではなくなる。
■ 文科的能力は理系科目に、理科的能力は文系科目に影響しないという強い仮説に基づいているため、これは検証的因子分析といえる。⇒ 事前に何らかの仮説が必要。

探索的因子分析
■ 全ての因子が全ての観測変数に影響を与えるというモデル(p.77, 図3.3)は探索的因子分析を表す。
■ このモデルの当てはまりを検証し、そして各因子からの影響の度合い(大小)を探索した上で初めて上記の検証的因子分析で用いた仮説が成り立つ。また、一般には因子の数も探索する。

■ つまり、仮説を検証するのが検証的因子分析、仮説を構築するのが探索的因子分析と言える。(それぞれの流れはp.78, 図3.4、3.5)

ページトップに戻る


2008/03/14

AMOSによる因子分析の行い方

1図3.9(p. 80)の図を描く
* AMOSの図を保存すると、数多くのファイルが出来てしまうので、あらかじめ保存用のフォルダを作成しておくと便利です。
■ AMOS graphicsを立ち上げ、 をクリックしてExcelのファイル(AMOS 2008-3-14)のSheet 1を取り込む。
■ 図3.9のように観測変数 、潜在変数 、誤差変数 、パス を描く。
■ 描き終えたら をクリックして、図3.9のようにそれぞれの変数をドラッグ&ドロップで各観測変数に入力していく。次に描かれた潜在変数をダブルクリック後、TEXTのタブを選択し、variable namesに「一般知能」と入力する。また、このときにParameterのタブをクリックし、Varianceに1と入力する。
■ 最後にToolMacroName unobserved variablesを選択し、誤差変数に名前をつける。
をクリックして、p. 81のように入力する。

カイ2乗値 (自由度) = \cmin (\df) p値 = \p
GFI = \gfi CFI = .854 RMSEA = \rmsea

■ 最後に から分析のプロパティを開いて、"Minimization history," "Standardized estimates," "Squared multiple correlation," "Indirect, direct & total effects"にチェックマークを入れる。
■ 計算 を行う。
を押して分析結果を図上に表示させる。更に、そのすぐ下にある"Standardized estimation"をクリックし、標準化係数を表示させる。
■ 図3.9のようになれば成功。しかし、モデルの適合度が悪いため、修正を行う。

2.モデルの修正(図3.11, p. 83)
をクリックしてパス図を描くモードに戻る。
■ 「一般知能」から伸びているパスを消し、 で「一般知能」を右に移動させる(p. 82, 図3.1参照)。
■ 「一般知能」を左側にコピーし、変数名を左からそれぞれ「文科的能力」と「数学的能力」に変更する。
■ 「文科的能力」から「ゲール語」、「英語」、「歴史」に、「数学的能力」から「計算」、「代数」、「幾何」にそれぞれパスを描く。また、両潜在変数間に因子間相関 を入れる。
■ データに適合したモデルとなる。

ページトップに戻る

ご意見やコメントがあればこちらまでお寄せください。