研究会トップに戻る

4/20  5/11  5/18  6/1  6/22  7/13  7/26  8/24  9/14  9/28  10/13  11/30 
 12/21  1/11  1/25  2/8  2/29  3/14  4/7  4/18  5/9  5/23  6/6  6/20  7/25  8/21

Glass, G. V., & Hopkins, K. D., (1996). Statistical methods in education and
   psychology
. Boston, MA: Allyn & Bacon.

2007/04/20 (Ch. 1-3, pp. 1-48)
                                   
1. Introduction (p. 1)
1.1 The "Image" of Statistics (p. 1-2)
■ 統計的な概念や方法を研究することで、数字についてすぐ信じ込む性質を減らし、量的な情報を賢く使えるようになる。統計方法の発達は2つの全く異なる影響を及ぼす。1つは記述統計に関わることであり、もう1つは確率的な推測統計に関わることである。2章から8章までが記述統計、そして9章以降で推測統計について触れる。

1.2 Descriptive Statistics (p. 2)
■ 記述統計には、表にして表すこと、描写すること、データの記述を含む。これらは身長やテスト得点などの量的なものも、性差や大学の専攻などカテゴリカルデータのような質的なものも扱うことができる。

1.3 Inferential Statistics (p. 2-3)
■ 小さなサンプルデータから全体を推測することを含む。つまり、サンプルから母集団の情報をつかむことが推測統計の目的である。サンプルの記述的特徴が、誤差を知ることや推測統計の技術によって母集団全体に一般化することができる。
■ 推測統計においては、実験のデザインと分析が重要である。これらによって、変数間の因果関係を評価するからである。

1.4 Statistics and Mathematics (p. 3-4)
■ 統計の原理は応用数学の一部であるが、通常考えられているほどは、数学の知識を必要としない。
■ この本を使うにあたって、一度だけではなく何度も読み、且つ各章を完全に学んでいく必要があるだろう(1つの章に書いてあることが、次の章では前提になっているため)。各章の最後にMastery Testがあるため、これを活用すると良い。また、先にMastery Testを見ることで、その章における心の準備ができるかもしれない。

1.5 Case Method (p. 4-5)
■ この本では、CHAPMAN (10年間、200名の大人がいくつかの変数について調べられたコレステロールについての研究)、HSB (600名の高校生についてのデータ)、EXERCISE (40人に対する運動と喫煙のデータ)の3種類のデータを用いることによって、理想的な実習が可能である。

1.6 Our Targets (p. 5)
■ この本では、量的に表現される情報についての一般的なliteracy、統計の「消費者の知識」、統計のコマンド、より高度な研究に十分な統計方法の知識を得ることができるであろう。

2. Variables, Measurement, Scales (p. 6)
2.1 Variables and Their Measurement (p. 6)
■ 記述統計・推測統計は「変数」を用いる。変数とは、観測対象における1つ以上の特徴である(人の年齢など)。統計は、観測対象を描写するのに用いられる。

2.2 Measurement: The Observation of Variables (p. 6-7)
■ 変数が統計的に扱われる前に、観測されなければならない。つまり、測られたり、量で表されたり、分類されたりしなければならない。測定とは、数で表される観測である。測定とは、ルールに基づいて数を割り当てることである。測定は、できるだけ正確で妥当でなければならない。

2.3 Measurement Scales: Nominal Measurement (p.7)
■ 伝統的に、4つの測定(変数)があり、それぞれをここで定義し、統計的な示唆と共に扱うことにする。
■ 名義変数は最も初歩的な形式である。ある分類に属するものが、その特定からは同じであるように分けることである。例えば、0を女性、1を男性とするようなことである。もし名義変数のみを用いるのであれば、その数の特性しか用いることができない。つまり、1は2や4とは違う、ということである。
■ これ以後の変数では、サイズで順番が付けられること、加減できること、乗除できること、という特性が加えられていく。

2.4 Ordinal Measurement (p. 7-8)
■ 順序変数は、ある変数の程度や量を区別できるときにのみ用いられる。例えば、ランク付けをするときである。パーセンタイル順位も、順序変数の1つである。

2.5 Interval Measurement (p. 8)
■ 間隔変数では、観測対象の差を数で表すことができる。例えば、90度と100度の差は50度と60度の差と同じである。しかし、100度は50度の倍ではない。間隔尺度は、0とは恣意的なものであり、その特性が全く無いことを示すわけではない。
■ 間隔変数は順序変数に変換できるが、その逆は通常はできない。

2.6 Ratio Measurement (p. 8-9)
■ 比率変数と間隔変数が異なる点は、ゼロがその特性が無いことを意味する点である。比率変数は間隔変数でもある。従って、AがBの2倍、などと述べることができる。数の比率に意味があるため、比率変数と名づけられている。

2.7 Interrelationships Among Measurement Scales (p. 9-10)
■ 変数のレベルを特定することは常に簡単であるわけではない。例えば、IQが130の人はIQが100の人の30%分頭が良いわけではないし、IQが70と100の人の差と、100と130の人の差が同じではないだろうが(つまり、間隔尺度には当てはまらない)、IQは順序尺度ではない。なぜなら、もし順序尺度であるならば、順序のみが報告されるだろうからである。
■ また、テストで100%の点を取った人は50%しか取れなかった人の倍、能力があるのだろうか。100%取った人のほうが50%とった人よりも能力がある、ということしかいえないであろう。
■ 以前は、測定尺度の重要性が誇張されすぎていた。しかし、尺度はどのように結果を解釈すればよいかということについての結論をもたらしてはくれない。

2.8 Continuous and Discrete Variables (p. 10-11)
■ 体重や年齢などのいくつかの変数は連続変数であり、教室にいる子供の数などは離散変数である(小数点を使えない)。連続変数を正確に示すことは不可能である(小数点の関係などのため)。

2.9 Chapter Summary (p. 11)
■ 変数とは観測対象が持つ特性である。測定とは観測対象に数を当てはめることである。これらには、名義変数、順序変数、間隔変数、比率変数が含まれる。これらの尺度は測定方法によってのみ決まるものではなく、与えられた数の解釈によっても決まる。

2.10 Case Study (p. 11-12)
■ CHAPMANのデータで、年齢、心臓圧縮の血圧、心臓拡張の血圧、コレステロールレベル、身長、体重、動脈血栓(0 = No, 1 = Yes)、ID numberを変数とした。それぞれがどの尺度であろうか。年齢、身長、体重、血圧、コレステロールレベルは比率変数、case numberは名義変数である。動脈血栓は、名義変数もしくはカテゴリカルな変数である。
■ どれが離散変数であろうか。ID numberと動脈血栓のみが離散変数で、その他は連続変数である。

3. Frequency Distributions and Visual Displays of Data (p. 15)
3.1 Tabulating Data (p. 15)
■ 数字を順番に並べることは助けにはなるが、分布の最も重要な特性を描写することはできない。分布の特性は、観測対象を等質に分けることによって明らかになる。その分ける数は恣意的ではあるが、10以上が使われることが多い。このようにグループ化して並べることを、grouped frequency distributionと呼ぶ。

3.2 Grouped Frequency Distributions (p. 16-18)
■ 頻度分布を分けるには、次の5つの手順を踏む。
(a) 範囲を知る
・最も大きな観測数値と小さい観測数値の差が範囲である。
(b) グループの数を決める
・これは恣意的である。但し、間隔が20や30にならないようなときには、観測数がグループ数の10倍以上になるようにした方がよい。但し、グループ数が多すぎると値が逸脱し、グループ数が少なすぎると分布が粗くなりすぎる。
(c) 間隔の制限を決める
・範囲を理想のグループ数で割ると、大まかな間隔を決めることができる。全ての数値が、どれか1つにあてはまるようにしなければならない(120-140, 140-160、とするのではなく、120-139, 140-159とする、など)
(d) 観測数をグループ単位に合わせる
・それぞれの間隔について、各観測を合計するような伝統的な "picket fence" の方法でも良いし、観測数が多い場合にはTukey (1977) の方法も有効である。最初の4つは四角になるように点で表し、次の4つはそれらの点が辺になるようにつなぎ、次の2つを対角線にするようにつなぐことで、10を表すことができる。
(e) それぞれの合計を数える

3.3 Grouping and Loss of Information (p. 19)
■ statistical summaryは、全てを描写しない。グループ化することによって情報が失われる。グラフについては、使いやすさや分かりやすさと、情報の損失のトレードオフが起こる。

3.4 Graphing a Frequency Distribution: The Histogram (p. 19-20)
■ 分布をグラフ化するときに最も良く使われる3つの方法は、ヒストグラム、頻度多角形(折れ線グラフ)、度数分布曲線である。
■ ヒストグラムは棒によって表され、棒の長さがその範囲に含まれる頻度を表す (Figure 3.1)。これは、頻度だけではなく割合を表現するのにも用いられる。観測数全体で割れば、割合が算出される。割合のヒストグラムの方が大抵好まれる。なぜなら、200人中6名、というよりも3%と言ったほうが意味があるからである。

3.5 Frequency and Percentage Polygons (p. 20-22)
■ 頻度多角形はヒストグラムと似ているが、観測値の始点と終点のゼロの部分を付け加える。頻度多角形では、それぞれの間隔の中心が点で表され、それぞれが結ばれる (Figure 3.3)。ヒストグラムと同様に、左側が小さい値で右側が大きい値である。もし名義変数やカテゴリカルな変数を用いるのであれば、それぞれの数が連続していることを仮定する頻度多角形はmisleadingであるため、ヒストグラムの方が望ましい。

3.6 Types of Distributions (p. 23-24)
■ 分布の形を表す特別用語がある。p. 23の分布Aは正規分布であり、左右対称のつりがね型の曲線である。多くの変数はほぼ正規分布する。正規分布については6章で扱う。
■ カーブBは左右対称であるが、2つに分かれている (bimodal) であるため正規分布ではない。例えば、人間の身長をグラフにすると、女性の平均身長と男性の平均身長という、2点で山ができるであろう。もし2つの山の大きさが異なっていた場合、大きい方の山をmajor mode、小さい方の山をminor modeと呼ぶ。2つしかないものの分布は、特別な形のbimodal分布である。
■ カーブCは長方形であり、左右対称であり、値が全て一定である。もし1つのさいころが1万回投げられたら、1から6までが出る頻度はほぼ長方形の形になるだろう。
■ カーブDとEは、非対称な分布である。これは歪度によって表される。Dはpositively skewedであり、Eはnegatively skewedである。
■ 但し、これらの分布が全て相互排他的であるわけではないので、注意すべきである。

3.7 Cumulative Distributions and the Ogive Curve (p. 24-25)
■ 度数分布曲線は、パーセンタイルを表すのに有効である。累積的、というのが度数分布曲線の原理である (Figure 3.6)。

3.8 Percentiles (p. 25-26)
■ パーセンタイルとは、その観測値が何パーセント目にいるか、ということである。では、コレステロールレベルの中央値はいくつだろうか?中央値とは、パーセンタイル順位が50番目ということである。
■ もしパーセンタイル順位を正確に出したい場合もあるだろう。もし40人いてTomが37人よりも上にいるのであれば、Tomのパーセンタイル順位は (37 + 0.5)/40×100で表される。0.5とは、Tomの得点の半分を表している。
■ パーセンタイルは個人のパフォーマンスを解釈するのにはとても有効であるが、推測統計で用いるときには重大な問題がある。例えば、2グループの平均的なパフォーマンスに有意差があるかどうかを調べるときには、パーセンタイル順位ではなく、そのままの得点や標準化された得点を用いる。

3.9 Box-and-Whisker Plots (p. 26-28)
■ これは略してbox plotと呼ばれる。このboxはパーセンタイル順位の25から75位を表し、boxの中の線は中央値を表す。2本の線は、外れ値が無い限りは観測値の上限と下限までを表す。この線は、boxの長さの1.5倍が限度であり、それ以上離れたものは外れ値として点で表す。
■ box plotは2つ以上の分布を比較するときに有効である (Figure 3.8)。これによって、私立の方が公立よりも得点が高い、公立のほうが得点のばらつきがある、公立学校の生徒でも私立の生徒と同じくらい高い得点の学生がいる、公立の方が低い得点の生徒がずっとたくさんいる、ということが分かる。

3.10 Stem-and-Leaf Displays (p. 28-30)
■ stem-and-leaf displayという方法もある。合計ではなく、観測値の最後の値を用いる (Figure 3.10)。縦の線が「幹」であり、最後の数値が「葉」である。

3.11 Time-Series Graphs (p. 31)
■ time-series graphを用いると、潮流や変化を、他の表現方法ではできない方法で描写することができる (Figure 3.11)。

3.12 Misleading Graphs: How to Lie with Statistics (p. 31-37)
■ グラフや表は、真実を伝えるというより、宣伝として使われうるため、misleadingになりうる。

(a) Distorted Representation
・ピクトグラフを用いて、頻度を1つの絵だけで用いることで、本来は長さのみが頻度を表しているのにも関わらず、見ている人は面積が頻度だと思ってしまう。
(b) Misleading Scaling and Calibration
・Figure 3.12Cのような場合には、始点が恣意的である。比率尺度の場合には、始点は0であるべきであるが、誇張されてしまっている。
(c) Combination Graphs
・もっとも道を外れた方法である。変数を不適切な方法で測定しているために起こる (Figure 14)。

■ また、グラフに情報を入れすぎると混乱のもとである (Figure 3.15)。

3.13 Chapter Summary (p. 37)
■ 多くの変数は正規分布するが、他の分布の仕方もよくあることである。また、頻度は様々な方法で表される。

                                                                 (森本)

ディスカッション&コメント
2.7において
★ここは特に重要
アンケートのような尺度データについて、SPSSにかけて分析することは妥当なのかどうか、という質問が出た。これについては、Likert Scaleを用いている論文を読んでみよう、という提案がなされた。

―>順序尺度変数なのでノンパラメトリック法による分析をしている場合と、順序尺度であっても、そのデータが正規分布をなし、連続変数とみなしているからであろうか、パラメトリック法を使用して分析している例も多い。その場合、5段階程度のスケールでは正規性を満たしているかは疑わしいが、釣鐘状でなくとも山形に分布していれば頑健性のあるt検定や分散分析を使用できるようにも思われる。いずれにしろ、リッカートスケールの記述統計に、単に回答の頻度だけでなく、平均、標準偏差等の情報がある方が、データを読み取りやすくなるのではないだろうか。

2.10において
テキスト中 (p. 12) にnominal or categorical variableという表現があったが、nominal、categoricalを同義と捉えて良いかどうかについて確認を行った。nominalの定義にはnumbers distinguish among the categoriesとあること、その他でcategoricalが使用されていないことから、この部分では同義として使用されていると結論付けた。

3.2において
Tukey (1977) の観測値の合計方法について、日本人には正の字で5まで数える方法があるので、特にTukey に倣う必要はないとした。

3.4において
polygons (頻度多角形) と折れ線グラフの違いについて話し合った。頻度多角形では、観測値0の幅を設けることによって、線をX軸と交わるようにしているため、最終的に多角形が出来上がるが、折れ線グラフでは観測値があるところから始まるため、多角形にはならないのではないか、と議論した。

3.5において
★ここは特に重要
名義変数を用いるのであれば、それぞれの数が連続していることを仮定する頻度多角形はmisleadingであるため、ヒストグラム (bar chart) の方が望ましい。と述べられている。これまで、pretestの得点とposttestの得点というように、連続性のない得点同士でも線で結んでいたが、線で結ぶ必要がない、もしくは棒グラフの方が適する場合があるのではという議論になった。

3.8において
パーセンタイル順位を正確に出す場合には (n +0.5) / N * 100 という計算式を用いるが、0.5を足すのは目標とする人がちょうど中央に来るように、という意味があることを確認した。

【今後に向けて】
・和書や和文の論文でも統計手法について学ぶ機会を設けても良い
・エクセルを用いてBOXを用いたグラフや、複数の種類のグラフを1つに含める (e.g., 棒グラフとセングラフを合わせる) 方法を実習したいという希望があった。

                                                              (中川、平井)

ページトップに戻る

2007/05/11                       

Chapter 4 (pp. 49-65).
Measure of Central Tendency

4.1 Introduction
■分散の中央 (central tendency) を表現する3つの主要な方法: (a) mean (平均値), (b) median (中央値), (c) mode (最頻値).
■これらの方法は異なる概念を示し、異なる計算方法を使用する。

4.2 最頻値
■最も頻度の高いデータ (得点や観測値) の値。nominal scaleを持つデータ (質的な分類に使用する値やカテゴリー変数) にも使用する事が可能。(e.g., 195名の身長を示した図4.1によれば、34名を含む68"が最頻値となる。これをcrude modeと呼ぶ。また、分類が260-279のような幅を持つ場合、crude modeは270と考えられる。)
■最頻値はnominal variablesを扱うときに役立つ。ただし、得点の幅の二倍以上のnがない場合には役立たない。nが少ない場合、最頻値は明確に現れない場合もある (e.g., 268, 273の両方が最頻値となることも考えられるが、もっとデータを増やすことで、最頻値は270となるかもしれない。)
■最頻値が異なる離れた二点にある場合、bimodal distributionと呼ぶ。この場合、major modeとminor modeに分かれる。

4.3 中央値
■分散の50パーセンタイル (そのポイントより下に観測値の半数が含まれる) を示す。よって、中央値の上下には同数のデータが含まれることになる。データが奇数個であり順位変数の場合、中央値は真ん中の値を指す。一方、データが偶数個の場合、中央に近い値2つの真ん中を指す (e.g., (9+11)/2 =10)。
■raw dataが得られないが、図4.1に示されるように分類されている場合には、全体のデータ数 (N = 192) から真ん中の人 (n = 192/2 = 96) が含まれる区分を選ぶことができる。更に、その区分の中にも複数の人 (n = 34) が含まれている場合には、ちょうど96となる値を計算することができる (計算式4.1)。
■中央値は連続する数値をもち、順位で示せる場合に用いることができる (ordinal, interval, ratio scale of measurements)。

4.4 Summation Notation
■sigma (Σ) で示される。
Σin = 1Xi = X1 + X2 +・・・+ Xn (計算式 4.2, p. 53)

4.5 平均値
■averageはmedianを示すこともあるため、混乱を防ぐためにもmeanを使用したほうが良い。nominal variableに使用しない。
■Xバーで示す。
Xバー = ΣiXi / n (計算式 4.3, p. 53)
4.6 More Summation Notation
■各データを何倍か (C倍) にした時の合計 (計算式4.4, p. 54)
各データにある値 (C) を足した後の合計 (計算式 4.5, p. 54)

4.7 Adding or Subtracting a Constant
■定数 (c) を各データに加えた場合、平均値はXバー + c, 定数 (c) を各データから引いた場合、平均値は Xバー - c

4.8 Multiplying or Diving by a Constant
■各データに定数 (c) がかけられている場合、平均値もc倍される (cXバー)。逆にデータがcで割られている場合、平均値もcで割られた値となる (Xバー/ c)。

4.9 Sum of Deviations
■観測値から平均値を引いた値 (Xi - Xバー) を偏差または偏差値と呼ぶ。n個の観測値がある場合、全ての偏差の合計はゼロになる。(※偏差と偏差値は違うような気がしますが?)

4.10 Sum of Squared Deviations
■平均値からの分散を二乗した値の合計は、他の値からの分散を二乗した値の合計よりも少ない。(least squares criterionとなる)
(※最小二乗法: 重回帰式を求める際、実測値と予測値との差の二乗和が最小になる予測値を求める方法を呼ぶ。)
■絶対値を使用した場合には、偏差の二乗和は平均値からではなく、中央値からの場合に最小となる。

4.11 The Mean of the Sum of Two or More Scores
■一人の受験者がk個のテスト (例えば中間テストと期末テスト) に解答している場合、n人の受験者一人ひとりに対しk個の合計点が出されている場合の平均点は ΣkXバーk (計算式4.7, p. 56) である。
■それぞれのテストの平均点が別に出されている場合 (40点、45点、65点) には、平均点の合計がテスト全体の合計と考えられる (40+45+65 = 150点)。

4.12 The Means of a Difference
■プリテスト、ポストテストの得点の伸びを比較したい場合、単純にプリテストの平均値 (97点) をポストテストの平均値 (104点) から引く。104 - 97 = 7点
4.13 Mean, Median, and Mode of Two or More Groups Combines
■複数 (j個) のグループの平均値はそれぞれのテストの合計点を算出 (Xバー * n) し、合計し、n. (= n1+n2+n3…nj) で割るという単純な計算式 (計算式4.9, p. 57)
■一方、中央値や最頻値の計算にはraw dataが必要である。

4.14 Interpretation of Mode, Median, and Mean
■modeは最も多くのデータがある値なので代表的な値といえる。
■medianは観測値を二分する値であり、観測値と中央値の距離の合計は、観測値と他のどの値との距離の合計よりも小さくなる。
■meanは分散の重心となる値である。観測値と平均値の距離の二乗和は、観測値と他のどの値との距離の二乗和よりも小さくなる。
4.15 Central Tendency and Skewness
■正規分布のようにunimodalであり、左右対称の分散の場合、平均、中央値、最頻値は一致する。
■positively skewed distributionの場合、平均値は中央値や最頻値よりも大きくなり、negatively skewed distributionの場合は逆になる。skewed distributionの場合、中央値は平均と最頻値の間に位置する。
■unimodalでやや左右非対称となる場合、中央値と最頻値の距離は、中央値と平均値の距離の2倍となる。 Mode ≒ 3(Median) - 2 (Mean)

4.16 Measures of Central Tendency as Inferential Statistics
■母集団から抽出したサンプルの結果から母集団の傾向を予測するのをinferential statisticsと呼ぶ。母平均μ (ミュー) や母分散のような母集団の未知数のことを母数という。母数のことをパラメータともいう。
■サンプルの結果 (Xバー) とパラメータ (μ) との差をsampling errorという。
■inferential statisticsでは、sampling errorが最も小さくなる平均値が使用される。
(もしmedianを使用して、meanと同等のsampling errorに抑えたい場合には、50%以上多くのデータを取る必要がある。)

4.17 Which Measure is Best?
■答えは1つではない
nominal scaleにはmode
既にある値から更なる統計処理が可能なのはmean
skewed distributionの場合にはmedian

4.18 Chapter Summary
4.19 Case Study
4.20 Suggested Computer Exercise
省略


Chapter 5 (pp. 66-79)
Measure of Variability

5.1 Introduction
■統計的において大切なのは中央の値 (central tendency) と分散 (variabilityもしくは均質性) である。本章ではvariabilityを示す値として使用されるrange, semi-interquartile range, variance, standard deviationについて説明する。

5.2 The Range
■最大値と最小値の差。ただし、数個のoutlierによって極端に幅が広くなってしまうので注意が必要。

5.3 H-Spread and the Interquartile Range
■全体を100%としたとき最初の25%に達する値をfirst quartile, 50%になる値をsecond, 75%になる値をthirdとして、third quartileからfirst quartileの値を引いた値 (range) をinterquartile range (またはH-spread) という。この値を二分割したのがsemi-interquartile rangeと呼ばれる (計算式5.1, p. 67)。
■Md±Q にデータの中央半数が含まれる。Mdの代わりにmidhinge (Q1 + Q3) / 2を使用すると、midhinge±Qにもデータの中央半数が含まれる。

5.4 Deviation Scores
■H-spreadやsemi-interquartile rangeは全ての得点を含むわけではないので、個々のデータに左右されにくい。

5.5 Sum of Squares
■それぞれの値の偏差を二乗し、それを合計した値をsum of squaresと呼び、ΣiXi2で示す。(計算式5.2, p. 68)

5.6 More About the Summation Operator, Σ
■より複雑な計算式 (例えば、観測値に定数を足し、それを二乗した値の和を計算する場合) を示している (計算式5.3, p. 68)。

5.7 The Variance of a Population
■分散に母集団のデータN個全てが含まれている場合、その分散をσ2で示す (計算式5.4, p. 69)。
■ただし、この計算式は、母集団から抽出したサンプルである場合 (データがn個の場合) には使用できない。

5.8 The Variance Estimate from a Sample
■母集団の分散はμを用いた計算式にて算出するのが理想的だが、μは未知数であるため使用する事が出来ない。
■Xバーからμを推定することにより、sum of squaresが実際よりも小さくなってしまう。そこで、sum of squares, Σi(Xi - Xバー)2 をnよりも小さい値、n - 1 (自由度) (ν, ニュー) で割るという手法がとられる (計算式5.5, p. 70)。

5.9 The Standard Deviation
■標準偏差はパラメータをσで示し、サンプルからの予測をsで表す。これは分散 (σ2、s2) の平方根である。

5.10 The Effect of Adding or Subtracting a Constant on Measures of Variability
■平均値Xバーとなるデータ群に対し定数cを加えた場合の平均値はXバー+ c である。その場合の偏差は (Xi+ c) - (Xバー + c) = Xi - Xバー となるため、元々の偏差と変わらない。そのため定数を加えたり引いたりしても、分散 (range, Q, sum of squares) にも影響を与えない。

5.11 The Effect of Multiplying or Dividing by a Constant on Measures of Variability
■定数cがかけられていた場合にはデータの平均はcXバーとなる。したがって、sum of squaresはΣi (cXi - cXバー)2 となる。これを計算すると、c2Σixi2 (p. 71) となる。つまり、元々の分散定数s2 に、定数の二乗c2をかけた結果c2 s2 が、定数をかけた場合の分散となる (計算式5.6, p. 72)。
■標準偏差は分散の平方根であるため、√c2 s2 = |c| sとなる (計算式5.7, p. 72)。
※分散は正であり、標準偏差は負にできないので、絶対値とする。
■もしc = 1/s であれば、√c2 s2 = √(1/s)2 s2、= 1 となる。
■定数cで割った場合には、1/cをかけたのと同様の結果となる。

5.12 Variance of a Combined Distribution
■ことなるデータ群を例えば元のデータが 3, 3, 3, 3と5, 5, 5, 5の場合、それぞれの分散はゼロだが、合わせた場合の分散はゼロにならない。異なるデータ群を合わせたJ個のサンプルの分散を計算する場合には、計算式 5.8 (p. 73) を使用する。

5.13 Inferential Properties of the Range, s2, and s
■sampling errorはサンプル数が増すほど減少する。このような性質はconsistencyとして知られる。全てのsample statisticsはこの性質を持っている。

Expected Values and Unbiasedness
■サンプルの分散s2はunbiasednessを持つことが望ましい。つまり、偏りのないサンプリングが重要。理想的なのはs2がパラメータσ2のunbiased estimatorとなることであり、その場合にはsampling errorはゼロとなる。そのため、サンプルからの予測値 E (s2) がパラメータσ2と一致する計算式5.9 (p. 74) が成り立つ。
■サンプルがunbiasedになるための数は重要となる。sはσを低く見積もる傾向にあるものの、そのbiasは少ない。例えばn = 6で5%であるし、n = 20となると1%となる。
■rangeはデータ数に影響を受けやすいが、分散s2はデータ数に依存しない。※ただし、少ないデータ数でもデータ数が多い場合と同じように算出されるというわけではない。
■表5.1にサンプルサイズによって、期待値がどのように変化するかが示されている。
■Rangeはs2やsの代替としてではなく、補足的なものとして使用されることが望ましい。

5.14 Chapter Summary
5.15 Case Study
5.16 Suggested Computer Exercise
省略
                                                              
(中川)

・ 最頻値を出すためには、分類数×2以上の人数が必要(図4.1の場合、分類の数が13あるため、26名以上が必要となる。
・ 4.9での偏差(値) (deviation, or deviation score) とは、日本で言う偏差値とは異なる。日本の模擬試験等でよく使っている偏差値は、数学・統計上のT-score(T=50+10z)に相当する。
・ 5.8
   は、サンプル数nではなくn-1(自由度)を用いる理由は、母集団の分散に近くなるようにするため。特にサンプル数nが小さいと n で偏差の2乗の和を割るのと n-1で割ると分散がかなり異なることになる。つまりnで割ってしまうと母集団の値のばらつきを小さく見積もってしまうためにn-1で割る。それゆえに、この分散の出し方を不偏分散(unbiased variance;the variance of a population estimated from a sample)としている。しかし、人数が大きくなればなるほど、nとn-1の違いは微々たるものになるのでどちらを使ってもあまり変わらない。母分散を推定するために、通常の統計ソフトはn-1を使用している。
・ 5.12で、異なるデータ群をあわせるときというのは、raw dataが使えない場合に、結果を合わせたい場合に使用する。おそらく、raw dataを用いた場合と、ほぼ同じ結果なるのだろう。
                                                              (森本、平井)

ページトップに戻る


2007/05/18

6.1 The importance of the normal distribution
■ 正規分布はガウス分布やnormal probability curveとしても知られ、統計において最も基本的で重要な分布である。本章では、標準化された得点を用いて、個々やグループのパフォーマンスを描写するのに使われ、またこの後の章でも用いられる。尖度や歪度についても扱う。

Historical Background
■ 正規分布についての研究は、少なくても17世紀から始まった。ある1つのものの重さが測られるときに、観測される重さは同一ではないが、十分な回数を経ると観測の分布が一定のパターン(今で言う正規分布)になることがわかっていた。この分布は、
■ 最初は "normal curve of errors" と呼ばれていた。

6.2 God loves the normal curve
■ 測定誤差以外の観測変数も正規分布(もしくはほぼ正規分布)になることが分かった(コインを10回投げて、表が出る確率など)。正規分布では平均値と最頻値は同一である。Figure 6.1のグラフは左右対称でほとんど正規分布であるが、これは測定誤差によるものではなく、偶然の法則によるものである。
■ どんな実証的な観測変数も完全な正規分布にはならない。なぜなら、観測変数には間があり、連続しているわけではないからである(4と5の間には4.5などが無い)。
■ 19世紀後半に、様々な観測変数は正規分布に大変近くなることが示された(例:Figure 6.2)。ほとんどの変数は正規分布に類似するが、完全な正規分布にはならない。変数自体は正規分布になっても、観測変数は完全な正規分布にはならない。どんなものにでも測定誤差が生じるからである。この誤差は大抵はとても小さいため、実際には無視することができる。推測統計において正規分布が重要視されているのは、その数学的特性のためである。他のどんな分布も、このような特性は持たない。
■ しかし、良いデータは正規分布でなければならないわけではなく、正規分布をなさない変数もたくさんある(例:年収、政治への信念)。
■ 正規分布は全て、山が1つで、左右対称で、μ±σのところにpoints of inflection(カーブが切り替わるところ)があり、端の部分は0に限りなく近づくが0にはならない。

6.3 The standard normal distribution as a standard reference distribution: z-scores
■ テストで42点だということよりも、平均で1.5標準偏差分上であるということのほうが、分布の他の得点とより関わる。標準偏差で表される得点のことをz-scoreという。例えば、IQの平均が100で標準偏差が15の場合、IQ130とはz-scoreが2ということである(数式6.2)。
■ つまり、z-scoreは平均からどれくらいの標準偏差分、上か下に離れているかを示している。正規分布ではほとんどの場合、平均からどれくらいの標準偏差離れているかを知りたい場合が多い。これを知ることができれば、ある得点間については、standard normal curve (AppendixのTable A)を見ることによって分かる。このカーブは、定数が加減乗除されても変わらない。
■ どんな得点でも、平均が0、標準偏差が1の得点に変換することができる。数式6.3やFigure 6.3は、標準得点の式やグラフである。

6.4 Ordinates of the normal distribution
■ カーブの縦座標を知りたいときには、Appendix AのTable Aに載っている。z = 0のときが、最も高い。

6.5 Areas under the normal curve
■ 分布の割合、つまりあるz得点より下にいる割合(=パーセンタイル順位)を知る必要があることが多い。その場合、得点を標準化してTable Aから読み取る。

6.6 Other standard scores
■ そのままの得点よりも、標準化されているほうが解釈がしやすい。標準化されている得点では、平均と標準偏差が一定だからである。これを標準得点という。

6.7 T-score
■ T-scoreは標準得点だが、平均が50で標準偏差が10である。T-scoreが30だったらパーセンタイル順位は2位で、70だったら98位である。Figure 6.5に、z-score, T-scoreや他の標準化された得点の関係が掲載されている。
■ では、なぜパーセンタイルではなく標準得点を用いるのだろうか。なぜなら、パーセンタイルは平均や相関には使えないためである。パーセンタイル順位で90位と95位を比べた場合と50位と55位を比べた場合では、違いが3倍以上にもなる。標準得点では、このようなことが起こらなくなる。

6.8 Areas under the normal curve in samples
■ 平均や標準偏差がサンプルから推定されたものだった場合、Table Aの値は正確ではなく「約」である。この「約」の程度は、どのくらい平均や標準偏差が正確に推定されているかによる。サンプルが100以上あれば、真のz-scoreとは0.1以下しか違わないと考えられ、ほとんどの場合はこれで十分である。

6.9 Skewness
■ 完全に分布を描写するには、中央化傾向やvaraiabilityだけではなく、非対称性の度合いや歪度も必要である。歪度を測定するには2つの方法がある。もしpositively skewedであった場合、平均が最も大きい値で、最頻値は最も小さい値である。Negatively skewedの場合は逆の傾向になる。
■ Figure 6.6は様々な歪度を示している(標準得点)。歪度が変わると、平均値、中央値、最頻値の違いは大きくなる。Karl Pearsonによって、歪度を解釈する6.6の式が示された。この場合、Ωは標準偏差で表した、平均と最頻値の距離である。もしΩ= .5だったら、平均値は最頻値よりも0.5標準偏差分上にある。
■ 推測統計で用いられる際には、この式が修正され、最頻値ではなく中央値が使われる(sampling errorが中央値のほうが少ないため。平均値と最頻値の違いは平均値と中央値の違いの約3倍になる)。これは、6.7式で示されている。
■ γ1はもう1つの歪度を測定する方法であり、推測統計ではこちらが好まれる。
■ あまり普及してはいないが、分布の形を示すために、研究者は歪度の度合いを示すべきである。

6.10 Kurtosis
■ ここまで、中央化傾向、variability、対称性を見てきたが、4つ目の特性は尖度である。正規分布で予測されるよりも、極端な得点が多いのか少ないのかを知りたいときには、尖度が用いられる(6.9式)。
■ Figure 6.7には平均とSDが同じである3つの左側の分布があるが、これらは負の尖度である。これらを尖度が緩い (platykurtic)、という。このような場合には、正規分布よりも、極端な得点が少ない。
■ 一方、右側の分布では尖度が高く、leptokurticと呼ばれる(正規分布では尖度は0である:mesokurtic)。歪度が高い分布は尖度も高くなる傾向がある。
■ 尖度は中央化傾向、variability、尖度よりも注目されないが、尖度はある統計的テストの正確さを評価するときに重要となる(13章にて:信頼区間)。

6.11 Transformations
■ 素点を正規分布に近づける分布になるように変換する場合がある。ルートや逆数にしたり、Logを取ったりすることで、尖度が少なくなることがある。このような変換は、2つの変数間の線形で無い関係を線形にする時もある(8章にて)。Figure 6.6では変換することによる分布の変化を示している。
■ 逆数にすると正規分布が再生され、二乗すると正規分布になる。ルートやLogにすると、Figure 6.6の上の正規分布になる。従って、負の歪度が減る。このように変換することによって、正規分布が必要となる統計を行うことが出来る。

6.12 Normalized Scores
■ もしある変数が正規分布することを仮定されているにもかかわらず、観測したものが正規分布していない場合には、観測された分布を正規化することもある。この変換は単調(順番は維持される)が、線形ではない。
■ 正規化された得点はt-scoreのscaleで表される。元の得点をパーセンタイルに直し、そのパーセンタイルをt-scoreに直すことによって行われる。

6.13 Chapter summary
■ 多くの社会的・行動科学的な変数は正規分布、もしくは正規分布に近くなる。推測統計でも同じである。正規分布は左右対称、山が1つ、そして釣鐘型である。z-scoreが良く知られており、これはTable Aで値を参照できる。t-scoreもある。また、歪度や尖度は、正規分布とは違うことを示すものである。
                                                              (森本)

<ディスカッション&コメント>
・ 正規分布が"normal curve of errors"と呼ばれていたのは、同じものを何度も測ったときの誤差を含んだ値による正規分布だったからであろうか。異なるものを測った正規分布では"error"という語が消えている。
・ 6.4に関して、式の中の 'u'(ユー)は縦座標(ordinate)で、X軸からの高さを指している。
・ 実験のサンプル数が100以上であれば、母集団の平均と分散からの真のz-valueと、サンプルからのz-valueのずれが小さくなることから、サンプル数100以上が一つの目安になることがわかった。
・ 6.9のΩ(オーム)が0(ゼロ)のとき正規分布する。
・ 6.9の6.7式に関して、「平均値と最頻値の違いは平均値と中央値の違いのだいたい3倍」なので式で「3」を掛けているが、荒い式だと思ったが、平均と中央値と標準偏差があれば簡単に歪度を算出できる良さがある。
・ 6.10でのγ1は歪度、γ2は尖度をあらわしている。尖度が緩い場合は、γ2は負の値になる。
・ 4th rootに関しての例)16の4th rootは2である。(2*2*2*2=16)
・ 尖度や歪度の値がどのくらいになると正規性が問題となり、データの変換(Transformation)が必要になるのであろうか? 実際は、外れ値と欠測値を除き、ある程度のサンプル数があれば、問題になることは少ないが、かなり歪んでいた場合や、2つの集団の分布の1方が高い正の歪度、もう一方高い負の歪度の場合は問題となるかもしれない。SPSSで様々な場合のデータ変換が可能で便利だった。
 どれだけ対称から歪んでいるか、正規分布から逸脱しているかをz-distributionで見る方法があるが、これもサンプル数が多いときは実際のデータの分布を見て判断した方が分かりやすい。(Tabachnic & Fidell, 2001, p. 73- 90が参考になる)
z = Skewness / Std. Error of Skewness 
z = Kurtosis / Std. Error of Kurtosis
                                                              (平井、鳴海)

ページトップに戻る

2007/06/01

Chapter 7.
Correlation: Measures of relationship between two variables

7.1 Introduction
・ 「相関」は2つの変数の関係を示すことに用いられる。
・ もし変数Xの得点が低くなると変数Yの得点も低くなるという場合には「相関がある」という。この相関の強さはstrong, low, positive, moderateなどの用語で示される。
・ 2変数の関係や結びつきはcoefficient of correlationによって、その度合いや方向性が表される。

7.2 The concept of correlation
・ coefficient of correlationはKarl Pearsonによって考案された、相関の度合いを示す数値で、rやρ (rho, 母集団に使用される)で示される

7.3 Scatterplots
・ 散布図を用いることにより、2変数の関連の性質が分かる。
・ また、算出されたrが本当に2変数の関係を集約しているかどうかを確認することができる。
・ 図7.1は完全な正の相関を示している (r = 1.00)。また、図7.2は完全な負の相関を示している (r = -1.00)。ただし、これらの値を示すのは非常に稀。
・ 図7.3は変数間に相関がない (r = 0.00) 状態を示している。

7.4 The measurement of correlation
・ Pearsonの相関係数は2変数の線形的な相関の度合い (magnitude) と方向 (direction) を量的に示している。また、名義変数以外の変数に使用できる。
・ rは -1.00から、0を通り、+1.00までの値で変化する。
・ この値を用いることにより、変数間の関連の強さや方向性を比較することが可能となる。

7.5 The use of correlation coefficients
・ 性別、GREの得点、コース成績とT-scoreの関連など、相関係数を例に挙げている。

7.6 Interpreting r as a percent
・ 相関係数は直接パーセント (percentage) として扱うことは出来ない。しかし、標準偏差 (standard deviation) やstandard-score units に対し相関係数を用いる場合にはパーセントとして解釈する事が可能である。
・ 標準偏差で示される場合、相関係数には、Y (the predicted variable) の平均値と個人の値との距離と、X (the predictor) の平均値と個人の値との距離の比率である。つまり、r = .60である場合、個々のデータはXの平均値のから距離に比べYの平均値からの距離はその60%となることを示す (e.g., Xとの距離を100とするとYからの距離は60となる) 。
・ 一方、1 - r は変数Xから変数Yが予測される場合の平均値までの距離である。

7.7 Linear and curvilinear relationships
・ rの値は変数XとYとの線形の関連を示している。
・ しかし、散布図を見ると2変数間の関連が曲線形 (curvilinear) の場合がある。この場合、rは変数間の関連を低く推定してしまう (図7.4や図7.5Bのような場合)。
・ 散布図を見て、線形かそうではないかを確認することが重要である (曲線の場合には8.27にある測定方法を用いる)。ただし、標本数が少ないと判断が出来ない。
・ ほとんどの場合、関連は線形を成す。しかし、天井効果や床面効果がある場合には線形にならない (図7.5A)。
7.8 Calculating the Pearson product moment correlation coefficients, r
・ 2つの変数の標準偏差sxとsy、と共分散 (covariance) sxyが分かれば、ピアソンの相関係数が算出できる。共分散は7.1の計算式で算出可能 (p. 112)。
・ ピアソンの相関係数は7.2の計算式を用いる (p. 112)。

7.9 A computational illustration of r
・ 手計算でいくつか試してみることを薦めます。
・ XとY間の共分散の計算式はよりシンプルにすると7.3 (p. 113) である。

7.10 Scatterplots
・ outliersがないかどうかを確認する上でも散布図をみることが重要である。rの値は数個のoutliersによって大きく歪んでしまう。
・ ただし、outliersは全体的な傾向と異なるからという理由だけで取り除くべきではない。図7.5Bのように曲線形になっている場合、それ自体がデータの性質なので、そのような場合に無理に線形にするべきではない。

7.11 Correlation expressed in terms of z-scores
・ z-scoreで示される分散をもつデータの標準偏差は1となることから、XとYがz-scoreで示される場合には7.4の式 (p. 116) が成り立つ。また、この場合、r (相関) と共分散の値は1つとなる (計算式7.5, p. 117)。X, Yの二つのz-scoreがN人全てのデータで同じ場合、ρ = 1となる。

7.12 Linear transformations and correlation
・ XやYの値の変換 (加算、減算) はz-scoreを変化させないため、相関係数に影響を及ぼさない。例えば、線形変換 (linear transformation) と呼ばれるケース (X' = aX + b, aが正) においてz-scoreには影響がないことから相関係数も変わらない。
・ したがって、XとYの相関係数は素点、z-score、T-score、その他の線形変換後の値で算出しても同じ結果となる。

7.13 The bivariate normal distribution
・ 相関の解釈は正規分布や二変数 (bivariate) の正規分布と強い関連を持つ。変数Xの値が変数Yの値とどのような関連を持つかという二変数の関連を示すのが相関である。
・ Bivariate frequency distributionはX、Y、頻度 (同じXとYの値を持つデータ数) の3つの側面を持っている。
・ 図7.8のように、頻度は高さで示される。
・ bivariate normal distributionは三次元を成し、XとYの相関が高くなるほど、釣鐘型は尖度を増す (※increasingly elongatedと述べられているが高さが増し尖度が高くなるということでしょうか?) (図7.9)
・ bivariate normal distributionには以下の特徴がある。 (1) Xのそれぞれの値に対し、Yの値の分散は正規分布を成す (逆もいえる)。(2) Yの平均値 (Y-means) と様々な値のXが重なる値は直線となる (つまり、線形関係にある)。また逆のことがXの平均についても言える (※これは図7.11のようなことを述べているのでしょうか?)。(3) 散布図が等分散性を持つ。つまり、Yの値の分散はXの値に対して均等であり、逆にXの値の分散は全てのYの値に対し一定である。
・ 標本数が多くなることによって、図7.9のようなスムーズな3次元の曲線が描かれる。

7.14 Effects of variability on correlation
・ 標本の不均一性はrに大きな影響を与える。
・ 測定したい側面以外が均質である場合、観測値が多様であるほどrの値が大きくなる。例えば、あるテストの受験者全体の結果から標本を抽出した場合 (range restrictionを行った場合)、全体の値に比べて低い値が算出される。
・ 図7.11の全体から一部を取り出した場合 (ρ1) には全体 (ρI) に比べ値が小さい。

7.15 Correcting for restricted variability
・ ある集団の相関 (ρI) とXの標準偏差 (σI) と、新しい集団の標準偏差 (σ1) が分かっていれば、新しい集団の相関 (ρ1) も算出することができる (計算式7.6, p. 122)。
・ ただし、計算式7.6の目的はrの値がrestrictedやexaggerated variabilityの結果算出されたものかどうかを明らかにすることである。このことにより、結果の解釈が適切になる。
・ データの不均一性やrXYの低下は標本の抽出によって起こるとは限らない。サンプルに偏りがある場合にも起こる (例えば、高校卒業の成人のIQと読解力の関連は、一般的な成人の結果にあてはまらない)。

7.16 Effects of measurement error on r and the correction for attenuation
・ measurement errorによってrの値は大きく影響を受ける。(それがあることによって値が低くなる)。これはreliability of coefficientsによって測定できる。
・ この信頼性係数はある変数のtwo parallel measures (例えば、同じ項目を二度評価した結果同士の相関など) の相関で示される。
・ もし、変数Xの信頼性が .90であれば、10%の分散がmeasurement errorによるものであると解釈できる。変数Xのparallel measuresの結果はrXXで示される。もし、ある変数Yの信頼性 rYYが .00のように低い場合、その変数を他の変数から予測することは不可能である。
・ 変数XやYのmeasurement errorが大きくなるほど、相関も低くなる。言い換えると、変数が正確に測定されていれば、相関も高くなる。また、テスト項目が多くなるほど、信頼性が高くなる。
・ 以上のようなことから、相関の解釈においてそれぞれのテストの信頼性を知ることが望ましい。

・ 変数にmeasurement errorが含まれない場合の相関係数を推定する方法をcorrection for attenuation (希薄化の修正) と呼ぶ。希薄化の修正にはそれぞれの変数XとYの信頼性係数と相関係数が必要である (計算式7.7, p. 126)。rX∞Y∞は未知の変数を既存の値に基づいて推定する値である。テストの信頼性 (計算式の分母) が実際よりも低く推定されている場合、このrX∞Y∞は実際よりも高く推定されてしまうことに注意する。
・ 例えばMC形式とessay形式で同じ内容を行ったところ、それぞれのテスト項目が少なかったためMCの信頼性 (.50) も、essayの信頼性 (.39) も低かった。二つのテストの相関も.38と低かった。これを計算式に入れると、結果として.86と高い相関になる。

7.17 The Pearson r and magical distributions
・ 変数Xのmarginal distributionとはXの値の頻度の分散を示し、変数Yのmarginal distributionはYの値の頻度の分散を示している。Xが正規分布を成しており、一方Yが歪度の高い分布をしていた場合には、変数間の相関は低くなるように、分布の形が異なるほど、相関 (r) は低くなる。
・ 加算するなどの数値変換をした場合もrにはほとんど影響を及ぼさないことから、変数Xと、それを変換した値X'との相関は非常に高い (ほぼ等しい) といえる。

7.18 The effects of the unit of analysis on correlation: Ecological correlations
・ 複数の分類単位 (school, cities, states, etc.) の集合である観測単位間の相関はecological correlationと呼ばれることがある。それぞれの単位の分析によって、変数間の相関係数が劇的に変化することがある。
・ 例えば同じ値 (データ) に対し、cityやschool districtのように異なる分類単位が用いられた場合、それぞれによって変数間の相関が異なる。そのため、結果の解釈はどの単位が用いられたかによって限定されるべき (用いた単位内についての解釈に留めるべき)。

7.19 The variance of a sum
・ 二つ以上のデータの統合をした場合 (X + Y)、その分散や標準偏差はどのようになるかを計算式7.8 (p. 128) に示している。
※合計の分散 = (Xの分散) + (Yの分散) + 2(XとYの共分散)
・ もしXとYが完全に独立している変数同士であれば、単純に
※合計の分散 = (Xの分散) + (Yの分散) となる
・ 3つの変数の合計を用いる場合には
       ※合計の分散 = (Xの分散) + (Yの分散) + (Zの分散) + 2(XとYの共分散) + 2(XとZの共分散) + 2(YとZの共分散)
・ 4つ以上になった場合にも上記の計算式に足していけばよい。

7.20 The variance of a difference
・ XとYの値の差を用いる場合、分散は計算式7.11で算出される (p. 129)。
・ 2変数 (X、Y) の相関は二つの値の差が小さくなるほど高くなる。

7.21 Additional measures of relationship: The Spearman rank correlation, rranks
・ 順位変数 (rank) を用いる場合、順位の数に関係なく、同じ数のサンプルが含まれればrranksとして算出できる。
・ 順位変数を用いることでoutlierの影響がrのときに比べて小さくなる。
・ XとYの2変数がどちらも順位変数で同順位 (タイ) が含まれていなければ平均も分散も同じであるため、あとはペアの数nによって値が決定する。Diはi番目のケースにおける順位の違いを示している。計算式7.12 (p. 130)。
・ 同順位が含まれない場合rranksはrと等しく、同順位が含まれる場合rranksはrと異なるものの、ほとんど同じである。

7.22 The phi coefficient: Both X and Y are dichotomies
・ イチゼロのような二進法のデータで算出するPearson product-moment coefficientはphi coefficientと呼ばれ、rφはφで示される。
・ pxをXにおいて1であった人の割合とすると、qxはXにおいて0であった人の割合であり、1 - pxである。また、pYをYにおいて1であった人の割合とすると、qYはYにおいて0であった人の割合であり、1 - pYである。これらを念頭におくと、相関の計算式は7.13 (p. 132) のように代数を用いた式で示される。
・ 割合に焦点を当てない場合にはcontingency table (表7.7) を使用する事ができる。表に示されるように、それぞれのセルがa, b, c, dで示されている。この際、px = (b + d) / n, pY = (a + b) / n, pXY = b / nとする。これを用いた計算式が7.14 (p. 133) となる。
・ rφの正の値は、Xにおいて1であった人はYにおいても1の傾向が高いということを示している。この値は絶対値1を最も高い数値 (pxとpYが同じであった場合) とする。

<ディスカッション&コメント>
・ 7.6でのstandard-score unitsは、標準化した得点のこと。
・ 7.6では、なぜYの平均値からの距離はXの60%になるのだろうか。r = .60であれば、Xの値の±40%の値をとると考えられそう(つまり、YはXの値の60%もしくは140%になるのではないか)。
->相関係数は、YとXが同じ単位(標準偏差の単位)で見ると、Yの平均からの距離とXの平均からの距離の比を表しているので、r=.6なら、Xが1.0平均から離れているとするとYは平均から.60離れている関係にあることを表す。よって、YはXの値の60%の値を表し、140%の関係にはならな。
・ 7.13のelongateは、尖度が増すのではなく、引き伸ばされて尖度が下がる(比較的平らになる)ということ。
・ 7.16の希薄化の修正の部分は、2つのテストが同じ能力を測定していることが前提なわけではない。偏相関と希薄化の修正の区別をしっかりと行おう。                  
  ―>希薄化の修正に関して、信頼性の低いデータは測定誤差(誤差分散)が大きいことを意味する。その誤差が多いデータ同士で相関を取ると、一貫性のない誤差と誤差との相関は通常ゼロであるから、その誤差が多く含まれたデータ同士の相関係数は、当然、実際の相関よりも薄まり低い値が生じる。これを、希薄化という。相関係数をより真の相関に近づけるために、
希薄化の修正公式:  があるが、

実際は修正した相関係数を報告している論文は非常に少なく個人的にもほとんど使わない。以前、希薄化の修正を行うと、修正された相関がもとの相関係数よりはるかに高くなり、解釈に困ったことがある。
 α係数などの信頼性係数は、真の値の下限値を取るため、つまり公式の分母を実際より低い値を代入するので、修正された相関は1以上になることもあると学んだことがある。そこで、希薄化の修正をしなければならないほど低い信頼性係数が出たときは、それ以上の分析をするより、まず信頼性のあるデータを集めることが先決ではないか。もし、この公式で修正した場合、修正前と後の相関係数を報告するだけでなく、2つデータの信頼性係数および、どのような方法でその信頼性係数を得たかなども報告するべきだと思う。
 この希薄化の修正公式は、基準テストを選ぶ一つの目安にするのに有用だと当時使用したテキストにある。(Allen, M. & Yen, W., (1979). Introduction to measurement theory. Waveland Press, Inc.)
                                                                  (平井、森本)


ページトップに戻る

2007/06/22  後半の8章はこちら

7.23 The point-biserial coefficient
■1, 0データのような2値の変数が連続変数と相関を持つ場合、point-biserial correlation coefficient (rpb) を算出できる。Yを連続変数、Xを1, 0の変数とした場合 X = 1の人 (n1) の平均点をY1バー、X = 0の人 (n0) の平均点をY2バーとして、計算式7.15 (p. 134) で算出する。n1= n0の場合、計算式7.16が成り立つ。

7.24 The biserial correlation
■2値の変数X が元々は正規分布が仮定される場合 (例: 合格・不合格という2尺度だが、実際は2値以上にできる場合)、biserial correlation coefficient (rbis) を算出できる。この際、計算式7.17 (p. 135) を使用する事ができる。この計算式に含まれるuは、p = n0 / n. の場合の数値をTable Aから読み取った数値。
■ただし、rbisはrを推定するものであり、rpbのように実際に観測されたデータの関係を示すものではない。この係数は、他の係数と異なり、-1以下や +1以上の値となる場合もある。このような値をとる場合には、Yの値が正規分布を成しているという仮定が誤っている場合やsampling errorがあった場合 (nが少なすぎる場合) がある。※データ数が100以上の場合、より正確な相関がでる。
■また、Xの素点が正規分布でない場合や、変数間の関連が線形ではない場合にも、rbisとrとの間には .2程度の違いがある場合もある。

7.25 Biserial versus point-biserial correlation coefficients
■rpbとrbisは計算式7.18を使って等化することができる。
■この場合、ルートの値が最低1.25ないとならない。つまり、rbis ? 1.25rpbとなることから、rbisはrpbよりも25%以上大きくなる。

7.26 The tetrachoric coefficient
■変数XとYの両方が正規分布をなすデータを2尺度に変換したものの場合、tetrachoric correlation coefficient (rtet) を算出することができる。 (例: 変数X = マリファナの合法化に賛成かどうか、変数Y = 中絶の合法化に賛成かどうかのように、実際には賛成・反対の度合いがいくつもあってグレイゾーンがあるような場合) 。計算式7.19 (p. 137) を用いる。計算式中のa, b, c, dは各セルに含まれる数を示している。ux, uyの値はTable Aを参照する。
■rbisと同様に、それぞれの変数の正規性が成り立ち、変数間に線形の関連があることを仮定しなければならない。※データ数が400以上あればより正確な値がでる。

7.27 Causation and correlation
■2変数間に相関がある場合でも、その変数間に因果関係があるとは必ずしもいえない (例: 一人当たりの本の数と、退学者の数の間の相関)。
・因果関係があるような変数間であったとしても、相関係数だけからはXがYを引き起こしているのか、その逆なのかを述べられない (例: 不安がテスト結果を悪くするのか、悪いテスト結果を取るような成績の生徒の不安が高くなるのか分からない)。
・第3の変数が介在して2変数間に相関関係を生み出していることもある (例: 礼拝へ参加する回数と児童の正直さの間には、家庭における教育が影響している)。
・1つの結果を生じさせる要因が1つに絞られる場合は稀であり、大抵の場合には様々な要因が複雑に影響している。

Zero Correlation and Causation
■正の相関がある場合にも因果関係が証明されないように、相関係数がゼロの場合でも二つの変数間に因果関係がないとは言えない (例: テストの成績と学習した時間の間の相関、頭脳明晰な生徒は時間数が少なくても良いなどの要因がある)。統制された実験を行うことで因果関係を検証できる。

Negative Correlation and Causation
■負の相関があった場合であっても、正の直接的な因果関係の可能性を消すものではない。(1000名の人の体重の測定結果と、最近飲んだジュース10本のうち、ダイエット飲料は何本であったかという問いの結果に負の相関があったとしても、ダイエット飲料を飲むことで体重が増えるとはいえない。)

以上のことを鑑みると、相関係数から因果関係を解釈するのは危険であることが分かる。


7.28 Chapter Summary
■相関の度合いを示す数値で、rやρ (rho, 母集団に使用される)で示される
■rは -1.00から、0を通り、+1.00までの値で変化する。
■2変数間の関連が曲線形 (curvilinear) の場合がある。この場合、rは変数間の関連を低く推定してしまう
■散布図を見て、線形かそうではないかを確認することが重要である
■XやYの値の変換 (加算、減算) はz-scoreを変化させないため、相関係数に影響を及ぼさない。例えば、線形変換 (linear transformation) と呼ばれるケース (X' = aX + b, aが正) においてz-scoreには影響がないことから相関係数も変わらない。
■したがって、XとYの相関係数は素点、z-score、T-score、その他の線形変換後の値で算出しても同じ結果となる。
■相関の解釈は正規分布や二変数 (bivariate) の正規分布と強い関連を持つ。散布図を確認すること。
■順位変数 (rank) を用いる場合、順位の数に関係なく、同じ数のサンプルが含まれればrranksとして算出できる。
■順位変数を用いることでoutlierの影響がrのときに比べて小さくなる。
■イチゼロのように2尺度の変数が連続変数と相関を持つ場合、point-biserial correlation coefficient (rpb) を算出できる
■biserial correlationの算出には、もともとのデータの正規性が重要である。
                                                              (中川、平井)

<ディスカッション&コメント>
・point-biserial correlation (点双列相関)とbiserial correlation(双列相関)は良く似ているが、点双列相関は実際の観測データ同士の相関であるのに対し、双列相関は推定相関である。
・点双列相関係数は、例えばそれぞれの項目の 1,0のような2値 データとそのテスト総得点との相関係数を指す。
・双列相関係数は、連続したデータYと背後に正規分布を仮定した2値データXとのピアソン積率相関の推定値である。例えば、男女のように2値以上にできないデータではなく、合否を2値より細かい尺度にし、さらに広範囲にデータを集めれば正規分布を仮定できる。これを背後に正規分布を仮定するという。このように正規分布を仮定したXと、Yとの相関はどうなるかを推定した係数が双列相関係数である。
 当然、点双列相関や双列相関が高ければ、その項目は、総得点にプラスに寄与していることになるので、弁別力(または識別力ともいう)のある項目といえる。それゆえ、弁別力の一つの指標となる。基準はどの程度の弁別力のある項目を使用したいかによるが、r
pb = .2 から .3をcutoff pointとする場合が多いようだ。これらの相関がネガティブな場合は、その項目が、総得点にマイナスに寄与しているだけではなく、まったく別のものを測定しているかデータの入力ミスの可能性がある。そのために、例えば、項目応答理論(IRT)の分析ソフトであるBILOG-MGでは、点双列相関や双列相関の両方が算出され、双列相関が-0.15よりさらに大きいマイナスの数値であれば、IRT分析からはじき出してしまう。
 このように、2値データの背後に正規性を仮定しているため、もし、連続したデータであれば正規分布になるであろうデータ数が(少なくとも無作為に100以上)あればあるほど、r
pbの値はより正確な推定値になる。そのため、サンプル数が少ない場合のrpbは低い推定相関係数しかはじき出さない
・tetrachoric coefficientは、因子分析の背後にあるものについても使用可能であるらしい(この相関係数もデータの背後に正規分布を仮定している。)
・最後の注意点の部分において、相関係数から因果関係を解釈するのは危険と書いてあるが、しかし、相関からしか因果関係を見られない研究もあるのでは。その場合、どうすればよいのだろう。注意深く解釈を行えば、良いような気もする。また、「相関=因果関係ではない」と言い切ってしまうことに対しても、違和感を覚える。
                                                              (平井、森本)



Chapter 8
(pp.152- )
本章では、基準測定を予測するために相関を使用することを主な焦点とする。回帰は通常予測される変数が順序尺度、間隔尺度、比率尺度である時に使用する統計手法である。

8.1 回帰分析の目的(purposes of regression analysis)
・統計手法により、2つ以上の独立変数から従属変数を正確に予測することが可能になる。
・因果関係は不要かつ仮定しなくてもよい(因果関係は予測とは別問題)。
・相関が低ければ低いほど、誤差の範囲は広くなる。
・一つの独立変数(X)から連続従属変数(Y)を予測する線形回帰から取り扱う。

8.2 予測効果 (The regression effect)
・r = 1.0あるいは r = -1.0でない限り、XからのYの予測はすべて平均値に向けて回帰する。つまり、予測されるYのパーセンタイル値はXのパーセンタイル値よりも50に近くなる。
・図8.1→回帰効果の有名な図解(図参照)
・XとYの周辺分布に使用される計算方法は、Tukeyのものと同じ。
・XとYはそれぞれSxとSyとほぼ等しく、両変数は標本誤差を差し引いた場合に正規分布するようである。

8.3標準zスコアで示される回帰方程式(The regression equation expressed in standard z-scores)
・統計的に回帰現象を説明するための理論的にもっとも勧められる方法はXとYをz-scoreとして示す場合にある。
・式8.1参照

8.4 回帰方程式の利用(Use of regression equations)
・回帰方程式の目的は既にあるサンプルによる結果に基づいて新しいサンプルの予測をすること
・直感的かつ概念的目的としては、回帰と予測はz-scoreの観点で論じられる。
・実用的応用としては、Xの観測値からraw scoreのYを予測する回帰方程式を用いる方が利便性が高い。

8.5 デカルト座標(Cartesian coordinates)
・この座標は、1組の数(X,Y)であらゆるポイントの特定が可能になるように面を区画する手段。
・座標(0,0) → X軸とY軸が交差する点。(例:図8.2参照)
・座標面のいかなる直線も単純な方程式で完全に表すことが可能。(図8.2では、Y = .5X+1)
・直線を表す一般的な方程式: Y = bX + c (Yを予測するためのXの線形変換)

8.6 Estimating Y from X: The raw-score regression equation
・独立変数Xから従属変数Yを予測する方程式を得るには、XとYの相関および両変数の平均とSDが必要。
・最小自乗(二乗)法により、回帰方程式をたてる。(式8.2〜式8.2B)
XバーYバーと の交点は回帰直線上に位置し、いかなる座標を表す回帰直線もr値にかかわらず( )を通過する。

8.7 推測誤差(Error of estimate)
・XからYを推測する際に誤差が生じるので、予測値が実際の観測値と一致することはまれ
・式8.3:残差=i番目の人についてXからYを予測する際の誤差=観測値Y−予測値Yハット)
・残差が正の値→観測値 > 予測値
・回帰直線をはさみ、上部のscore:正の残差、下部のscore:負の残差

8.8 決定係数・寄与率(Proportion of predictable variance, r^2)
・表7.3の目的は、Xから説明できるYの変動の割合.
・観測値Y、予測値は等分散で残差の平均は0。
・観測値Yの平方和+残差の平方和=観測値の総平方和  (式8.4)
・回帰方程式により説明できるYの母分散の割合  (式8.5)
・説明できない(予測できない)Yにおける変動の割合  (式8.7)

8.9 Least-squares criterion
・残差の平方和が最小になるようにbおよびcを定める。
・最小自乗法は利便性が高く、推測統計学では好まれるがある状況下では、他の方法が優位な場合もある。
・他の方法では、回帰直線はmeanではなくmedianが使用される。median回帰直線は容易に算出できるが、最小自乗法と比較するとサンプリング誤差が生じやすい。
・式8.2のb,cにより、XとYの散布にかかわらず残差の平方和を最小にした直線を得ることができる。
                                                              (多尾)

<ディスカッション&コメント>
・regression effectは、regression to the mean(平均への回帰)と呼ばれることのほうが多いような気がする。
・図8.1からも読み取れる通り、平均身長よりも父親の身長が低い場合、予測される子供の身長は、父親の身長自体よりも高くなる(平均値に近づく)。一方、平均身長よりも父親の身長が高い場合、予測される子供の身長は、父親の身長自体よりも低くなる(平均値に近づく)

                                                              (森本)

ページトップに戻る

2007/07/13

Chapter 8:8.10 〜 ( pp.161 〜 )  

8.10 等分散性と推定の標準誤差 ( Homoscedasticity and the standard error of estimate )
pp.161
●等分散性=Xの値それぞれに対するYの値の分散が等しくなる状態。
●純然たる等分散性とは、二変数データの母集団の特性であり、サンプル数が小さい場合にはXの2つの値に対するYの分散がまったく等しくなると考えるべきではない。
●図8.4:SATの成績からGPAを予測
●図8.4の箱図から回帰直線:箱(column)の平均を結ぶと描かれる線は大きく直線から外れることはない(関係が線形であることが分かる)また、箱の大きさはほぼ同じであり、等分散性を示している。
●XからYを正確に予測する1つの方法は、残差の分散である。
●推測誤差の分散は、 と表され、同じXの値を持つサンプルのYの値の分散を示す。
●式8.8 ← パラメータ /式8.10 ← 統計的。推測誤差分散の平方根=標準推測誤差
●図8.5:標準推測誤差を用いて予測値 の周囲に区間設定(この区間内に実測値が存在)。
●予測式が大きなサンプルについて適用される場合、正規曲線のもとで区間推定する方法をとる。

8.11 Regression and pretest-posttest gains pp.164
●経験豊かな研究者であっても予測効果の影響を正しく解釈することは困難。
●pre-/post-testと2回測定を行なった場合、post-test(2回目)の得点は、平均値に近づく傾向がある。pre-/post-testを行なって、成績が伸びていると、処置に効果があったと一般に解釈するが、平均より下の群を対象に行なった場合には、post-test(2回目)では平均値に近づく(回帰現象)ために少し上がる。その程度の上昇であれば回帰効果であるから、処置に効果があったと考えるべきではない。例:図8.6
⇒pre-/post-testそれぞれの母平均=100、分散=等しい(つまり、「処置に効果なし」)。
●標準推測誤差を用いれば同じpre-test得点をもつ人のpost-testのSDが分かる。
例:1回目のテストで70の人たち ⇒ 2回目では82となる(SD=12)
●正規曲線から、70の人たちのうち84%が回帰し、そのためにpost-testでは得点が伸びる。
●回帰現象は、処置・練習効果がなくても起こり、著しい伸張と思える結果でもそれは単に回帰現象、回帰効果によるものであることがある。
●「対応有り・繰返し有り」の分析においても通常回帰効果の影響を受ける。
●母平均から外れているサンプルを選び、1回目と2回目の得点を比較している研究および対応のあるデザインの研究には注意が必要である。


8.12 部分相関 ( Part correlation, semi-partial correlation )
●得点の伸びや変化を測るためには、pretest(X3)からposttest(2)の得点を予測し、伸びを測るものとして偏差SD(X2− 2)を用いるとよい。
●この偏差は残差であり、residual gainと呼ばれ、e2.3と表す(図8.7参照)。
●e2.3とX3の相関は常に0。学習程度の測定において、e2.3には、「学習の程度は初めの得点とは相関関係にない」という特徴を持つ。
●X1(IQ)と残差e2.3との相関は部分相関であり、pretest X3から予測できるposttest 2の部分を取り除いた後のX1(IQ)とposttest X2との相関である。
●部分相関を算出する必要は、直接はないが式8.11により得られる。

8.13 偏相関 ( Partial correlation )
●X1およびX2と「固定した」X3との相関が偏相関、つまり残差e1.3とe2.3の相関である。
●部分相関の場合と同様に、偏相関を得るための残差算出は不要(偏相関係数は直接r12、r13、r23から式8.12を用いて算出可能)。
●偏相関の解釈には注意が必要(例pp.168-169):変数の関係が線形でかつ等分散性を持つならば、偏相関係数は「一定にした」X3(年齢)とX1( reading ability )およびX2( visual perceptual ability )との相関係数に等しい。
●例(表7.11):コレステロール値(X1)と心臓発作(X2)の相関はr=.18ではあったが、どちらの変数も年齢(X3)と相関がある。同じ年齢の人についてコレステロール値(X1)と心臓発作(X2)の相関を見る(年齢の要因を取り除く)と、実際の相関はr=.08となる。

8.14 二次の偏相関 ( Second-order partial correlation )
●1つの変数による影響を取り除いた場合の偏相関係数 ⇒ 一次の偏相関係数
 ⇒2つの変数による影響を取り除いた場合の偏相関係数 ⇒ 二次の偏相関係数
●二次の偏相関:2つの変数X3,X4を予測子とした重回帰から予測された後のX1の残差とX2の残差間の相関
 ⇒例:コレステロール値(X1)と心臓発作の相関(X2) ⇒ 年齢(X3)と身長(X4)を固定して

8.15 重回帰と重相関 ( Multiple regression and multiple correlation )
●重回帰:m個(2つ以上)の独立変数からYを予測する場合に最も一般的に用いられる統計手法(式8.14)。
(例)大学のGPAを予測←高校のクラス内順位とSATもしくはACTの成績
●重回帰の目的:最大の精度で独立変数(m個)を合成して変数Yを予測すること
●単(一変量)回帰:1つの独立変数を用いる。最小二乗法によりbとcの値は残差平方和が可能な限り小さくなるように選ばれる。
●bとcは予測値と観測値間の相関が最大になるようにm個の予測子を重みづけする。
●予測値と観測値間のPearson積率相関は、m個の独立変数の重み付けがどれ程の精度で充足変数を予測し、相関関係を持つかを測る。⇒このPearson' rは重相関と呼ばれる。
●式8.14における回帰係数と切片は予測値を提供するだけでなく、Y間の最大の相関を提供する。
8.16 The standardized regression equation
●すべての変数が標準z-scoreで表される場合、raw-score回帰式(式8.14)は単純化される。
●標準化回帰式では、全ての変数は平均=0、標準偏差=1の標準得点に線形変換される。
●式8.16の回帰係数は"beta weights"や標準化回帰係数、あるいは標準化偏回帰係数と呼ばれることもある。
●変数の全ての組み合わせにおける相関が回帰式を得るには必要。
●raw-score回帰式は予測するにはより都合がよいが、raw-score回帰係数の差違は独立変数のSDに大きく左右されるので比較できない。しかし、beta 係数にはこの問題点はない。
                                                                            (多尾)
<ディスカッション&コメント> 
・ 8.11に関して、「その程度の上昇であれば回帰効果であるから」とあるが、具体的にどの程度の上昇かが不明であった。
・ 部分相関と偏相関が混乱し、違いをクリアーにするのが難しかった。
                                                                     (鳴海)


ページトップに戻る

2007/07/26

8.17 The raw-score regression equation
■ RR (reading readiness) testで55点で、IQが120の生徒の予測される平均のreading gradeはいくつだろうか。これらの点数を標準化し、8.16での式に代入すると計算できる。しかし、raw scoreでの回帰式 (式8.14) を使用すると、このような標準化は必要なくなる。
■ 式8.18Aでは、raw scoreでの回帰係数とβの重み付け(β weights)は、標準偏差であるsyとsmが等しければ同じになる。
■ 標準化された回帰式と比較すると、raw scoreでの回帰式のほうが便利である。しかし、全ての変数が標準化されている場合には、独立変数への寄与を評価するには、β weightsはより便利である。

8.18 Multiple Correlation
■ 予測が2つ以上の独立変数から行われているときのYと?の相関をmultiple correlationと言い、式8.19から算出できる。2つの独立変数間に相関が無いときには、multiple correlationはより大きくなる。もし2つの独立変数間の相関が1であるときには、両方の独立変数を用いても、予測はより良くならない(図8.8参照)。従って、重回帰分析を行うときには、独立変数と従属変数が高い相関であり、かつ独立変数同士の相関が低いことが望まれる。
■ めったに無いことではあるが、従属変数と相関が無い独立変数がmultiple correlationを高めることがある。これは、他の独立変数での無関係な変数を抑制することによって起こる。このような場合、この変数はsuppressor variableと呼ばれる。

8.19 Multiple Regression Equation with Three or More Independent Variables
■ 3つ以上の独立変数がある回帰係数の計算は、理論的には複雑ではないが、手計算で行うと時間がかかってうんざりする。しかし、実際にはコンピュータープログラムで行うので問題ない。

8.20 Stepwise Multiple Regression
■ 8.18では、additional predictorが独自に寄与するのであれば効果的であることに触れた。多くの場合、stepwise 回帰分析を行う。この方法では、最も寄与する独立変数が最初の段階として選ばれ、その独立変数だけによる回帰係数やstandard error of estimateなどが計算される。次の段階として、最初に投入された独立変数による予測を省いた中で、最も寄与する独立変数が投入される。

8.21 Illustration of Stepwise Multiple Regression
■ 「生徒の年齢、性別、社会経済的階級、reading readiness、IQから、第一学年末の読解パフォーマンスはどの程度正確に予測できるか」という問いに対して、表8.3は相関、平均、SDを示している。
■ 表8.4がstepwise multiple regressionの要約である。表8.3でSESの方が性別よりY(予測変数)との相関が高いが、表8.4のStep 3では性別が選ばれている。これは、SESの変数よりも性別の方が、先の2つの独立変数を補完しているためである。つまり、二次の偏相関では性別の方が相関係数が高い。

8.22 Dichotomous and Categorical Variables as Predictors
■ 性別のようなイチゼロデータでも、数値のコーディングがなされていれば独立変数として用いることができる。もちろん、このコードは点双列相関係数が解釈される前に行わなければならない。
■ 3つ以上のカテゴリーがある名義変数は、独立変数として用いるためにはJ-1のdichotomies (dummyやindicator variablesと呼ばれることもある)に分解なされなければならない。例えば、3つの民族グループがあったとしたら、2つの独立変数が必要である。つまり、「民族グループAに属していますか?」と「民族グループBに属していますか?」というものである。これら両方にNoとコーディングされていれば、民族グループCに属しているということになる。

8.23 The Standard Error of Estimate in Multiple Regression
■ 表8.4で、CAを用いることでの予測率の上昇はほとんど見られず、また標準誤差は増えている。最も良い3つか4つの変数が投入された後は、回帰係数はほとんど変化しない、というようなことは良く起こることである。

8.24 The Multiple Correlation as an Inferential Statistic: Correlation for Bias(よくわかりませんでした)
■ 回帰係数は、Yと?の相関が最も高くなるように決定されるが、このような処理の際にfitting errorが表れる。この誤差を取り除く方法として、式8.21が最も広く使用されている(SPSSでの修正もこの値らしい)。
■ ここで算出されたRは表8.4で算出されたものよりもやや低い。nの値が小さくなるほど、そしてmの値が大きくなるほど大きく修正されてしまうため、式8.22を用いれば、式8.21は必要ない。
■ もし式8.21を用いるのであれば、全ての独立変数を投入してから行うべきである。

8.25 Assumptions
■ 回帰においては、以下の前提が必要である。
1. Y scoresは独立で、回帰直線の全ての点で正規分布しており、また残差も正規分布していること。
2. ?がX軸上にありYがY軸上にある場合、Yと?の間には線形な関係がある。
3. 残差の分散は全ての?に対して同じである。これをhomoscedasticityと呼ぶ。

8.26 Curvilinear Regression and Correlation
■ 大抵の認知的・心理運動的な変数は線形である。しかし、もし線形ではないときには変換するべきである(8.28で扱う)。もしこの変換が失敗だった場合には、より複雑な回帰式を用いるが、大抵のコンピュータープログラムには、このような回帰式を扱うプログラムが含まれている。

8.27 Measuring Nonlinear Relationships Between Two Variables: η
■ ピアソンのrは線形関係しか描写できないが、もし線形でない場合にはどうすればよいだろうか。Figure 8.9では、40歳までは上昇し、それ以後は下降していることが分かる。式8.23では、2変数の関係(線形・非線形)をηで表すことが出来る(η2は相関比と呼ばれる)。rとは異なり、ηは常に正の値である。ηY.XはYがXから "best-fitting" line(直線・曲線)によって予測される程度であり、ηY.XとηX.Yは通常異なる。

8.28 Transforming Nonlinear Relationships Into Linear Relationships
■ 非線形な関係は、線形に近い関係に変換可能である(Log、二乗、三乗など)。

8.29 Dichotomous Dependent Variables: Logistic Regression
■ 重回帰分析は数が連続している場合のパフォーマンスを予測するものであるため、変数がイチゼロや名義変数である場合にはその前提が満たされない。Logistic regressionの前提は重回帰分析の前提と大変類似しているが、logistic regressionは従属変数が独立変数の線形関係であることを前提としない。
■ Logistic regressionは重回帰よりも前提が少ないが、概念は重回帰分析を同じである。

8.30 Categorical Dependent Variables With More Than Two Categories: Discriminant Analysis
■ 従属変数が2つ以上の名義変数であることは、あまり見かけないが、判別分析がこのような場合に最も広く用いられる。Discriminant scoreに基づいて、あるカテゴリーになる確率がそれぞれ計算される点で、重回帰分析とは異なる。

8.31 Chapter Summary
■ 得点は1-rのSD unitで平均に回帰する。?とYの差は残差やerrors of estimateと呼ばれ、標準化されたものがstandard error of estimateと呼ばれる。
■ 回帰直線はleast squares criterionによって決められる。バイアス(誤差?)は独立変数が多くなり、またサンプルサイズが小さくなるほど大きくなる。
■ Stepwise multiple regressionでは、従属変数と最も相関係数が高かったものが最初に投入される。
■ 2つの変数間の関係が線形ではなかった場合には、ηを用いると良い。
                                                                         (森本)

*ディスカッション&コメント
r2は説明率であり、相関係数とは異なる。
重回帰分析を行なうときには、独立変数と従属変数が高い相関であり、かつ独立変数同士の相関が低いことが望まれるが、それは次のような理由による:独立変数同士がr = .90以上なら互いに阻害する可能性もあるために、重回帰分析からは外す。
二次の偏相関 = partial correlation
Logistic Regressionを用いるのは、従属変数が0.1の時。
                                                                 (多尾)


ページトップに戻る


2007/08/24


Chapter 9 (pp.199-221)

9.1 Introduction
●確率値から推測する方法が発展しているが、「推測」の成否は"extremely unlikely"から"almost certain"まで幅広い。
●確率理論は複雑であるが、仮説の検証や区間推定の統計データを解釈するには確率を理解し得る直感が必要となる。

9.2 Probability as a mathematical system
●標本空間 ( sample space ):実験あるいは観察の結果起こる可能性を点(標本点)で表したときの全ての点の集合(event spaceとも言う)。
●事象 ( event ):観察し得る結果。通常アルファベットの大文字で記す。
*例:つぼの中に白いボールが6個と黒いボールが3個
⇒標本空間=9点。1つボールを取り出すと「白いボール」である結果=事象
●事象Aが起こる確率はP(A)で表す(いかなる事象も値は0から1)。
●事象Aと事象Bが互いに排反(共通の点を含んでいない)であるとき、事象Aあるいは事象Bが起こる確率は、各事象が起こる確率の和 [ P(A or B) = P(A) + P(B) ]
⇒ 表示:A∪B(カップ、ユニオン、結び)

9.3 First addition rule of probabilities(加法定理:和事象、積事象)
●互いに排反である事象A, Bの場合、事象Aあるいは事象Bが起こる確率はP(A∪B)
⇒P(A∪B) = P(A) + P(B)
●互いに排反でない事象A, Bの場合・・・
*例:3回連続でコインを投げるor 3つのコインを一度に投げた場合、8通りの結果が等しく可能。
事象A = Heads on flips 1 and 2
事象B = Heads on flips 2 and 3
事象Aと事象Bが(同時に)起こる確率は?

9.4 Second addition rule of probabilities
●ベン図9.1(p.203) =2つの事象は互いに排反でない(共通の標本点がある)。
●ベン図9.2(p.204) =2つの事象が互いに排反である。
●P(A∪B)を求める場合の式9.5(p.203)
⇒事象A, Bが互いに排反でない場合、各事象の共通点P(A∩B)を2回重複して加えていることになる。intersection(交点)の重複を避けるために、除く。
●大数の法則:確率理論の適用に重要

9.5 Multiplication rule of probabilities(乗法定理)
●式9.6(p.205)
⇒P(A)である事象Aが、独立したr回中にr回起こる確率
●事象の独立性は、統計学と確率において重要な概念である。

9.6 Conditional probability(条件付き確率)
●式9.7(p.206)
⇒P(B?A) = 事象Aが起こった、という条件のもとで事象Bが起こる確率。
注:P(A?B) = 事象Bが起こったという条件のもとで事象Aが起こる確率であり、
P(B?A) ≠ P(A?B)である。
●ベン図9.1から
*例:p.207, 2nd paragraph

9.7 Bayes's theorem(ベイズの定理)
●式9.7はベイズの定理(さまざまな条件付確率間の関係を示す)の最も単純なversion。
●事前確率が正確であれば、ベイズの定理により正確な結果(所望の確率)が得られるが、この事前確率を得ることが実際は困難であり、統計学者の間では大いに物議をかもしている。

9.8 Permutations(順列)
●考慮対象の事物についての配列順序⇒例:Table 9.2(p.208)
●N個の対象物を並べた場合の順列は何通りあるか?
⇒ N! と表し、"Nの階乗"、"N factorial"と読む。
●N!は1からNまでの数字の積で、N個の対象物の順列数に等しい(0!は数学的に1)。
●N!の値は、Nの数が増えると著しく大きくなる。

9.9 Combinations(組み合わせ)
●N個のものからr個を取り出す場合で、その際に順列は考慮されない。
⇒ r = Nの場合:全ての対象物が取り出され、組み合わせは1つのみ(順列N!はあるが)。
r = 1の場合:N個の中から1つだけを取り出すので、N個の組み合わせがある。
●N個から順列は考慮せずにr個を取り出す組み合わせの数は、N個からr個を取り出す順列数を1つの組み合わせ内の順列数で割った数に等しい。
●式9.10の左辺は「N個からr個を取り出す組み合わせの数」と読み、右辺の分子に式9.11を代入すると式9.12になる。

9.10 Binomial probabilities(二項確率)
●式9.13:N回の独立試行の中でAが起こる確率をpとし、B(Aではないこと)が起こる確率をq = 1-pとすると、N回の試行中に「成功(A)」がr回起こる確率を求める。
*例:(p.211, 3rd paragraph)
Table9.1の赤と緑2つのサイコロを投げて7になる確率は、p = 6/36 = 1/6となる。q = 1-p = 5/6となる。よって、全部で5回投げて、4回7となり、1回だけ7以外の数になる確率は?
●二項展開法( binomial expansion ):一回の試行で事象Aが起こる確率をpとする場合、N回のベルヌーイ独立試行で事象Aが起こる回数の確率が求められる方法。
⇒ 式9.15

9.11 The binomial and sign test
●符号検定:N組の観測結果がある二項分布の"non-parametric"法の一つ。
●ある事象が起こる確率が、式9.15から求めた数値で低いと論拠が弱くなるが、caseを重ねていけば強くなっていく。

9.12 Intuition and probability
●「確率」は賭博事業の関連で進化し、確率理論を利用する人々は、直感では同意しかねる結果を生み出すその理論の仕組みと複雑さに恐れをなした。
●確率は集団内の数が大きくなるに従い高くなるものである。
●問題の事象が起こる確率が独立であるなら、この先その事象が起こる確率は過去のいかなるパターンの結果にも影響されない(条件付確率方程式による:式9.7)。

9.13 Probability as an area(面積)
●連続確率変数から推定される値を線で描くと、ある2つの値とその線で囲まれる部分(面積)は、その変数が2変数間のある値を推定する確率と等しくなる。
●図9.4:0から2の間で、等しい確率でどんな値も取りうる確率変数をXとする。全ての値に対してP(X) = .5である場合の確率密度関数を表している。

9.14 Combining probabilities
●複数の確率(検定結果)を結合 ⇒ Stouffer-method (Rosenthal, 1978)
●個々の検定結果のp値をTable A(p.616)の対応するz値に変換し、それらを合計する。次に、検定の個数の平方根で割る。得たz値に対応するp値をTable Aにより変換する。統合されたp値より、有意か否かの結論を得る。
●上記手法では、p値はそれぞれ独立していなければならない。多重測定を行なう単一の研究内では使用してはいけない。

9.15 Expectations and moments(積率)
●モーメント(積率):ある集団がどのような分布を示すかについて、期待値の観点からその分布の特徴(分布の平均値やバラツキ、ひずみや尖り度)を数値化。
●式9.16:Xが離散確率変数である場合のXの期待値、E(X)を表す。
●E(X) = μとも表す。
●Xが連続変数の場合、代数関数によって確率分布を示すことができる。Xが連続変数である場合、単一のXの値に確率を付与することはできないが、Xはある区間に存在すると述べることはできる。
⇒このことから、式9.16により得られるE(X)の定義は連続確率変数には適用できない。
●図9.5:Xが2〜3の値をとる確率は、曲線と2つの値で囲まれた面積と等しいことを示す。
●連続確率変数の期待値は、積分法によって求められる。表記法は離散確率変数の場合と同じでE(X)あるいはμ。

参考:
宮川 公男 (1999). 基本統計学(第3版)有斐閣
                                                                            (多尾)

ディスカッション&コメント
・ヤーツィー(yahtzee)というゲームの話が出て、確率が賭博事業から進化したのがよくわかった。
・9.14で、複数の結果を結合すると有意になりやすくなったので、それは良いのかどうかわからない。メタ分析に近い方法だろうが、複数の研究結果で有意ではないが有意に近くなっていたのなら、統合するとそれは意味がある差になる、ということなのだろうか?
                                                                     (森本)


ページトップに戻る


2007/09/14

Chapter 10, pp.223-239

10.1 Introduction
■本統計的手法の第一の目的は、サンプルからのデータを用いて母集団についての一般化を行うことである。ここでは、本章以降で根本的に必要となるアイディアを示していく。

10.2 Populations and samples: parameters and statistics
■統計的推論(statistical inference)を用いることの本質は、比較的小さい標本集団(sample)から大きい母集団(population)に関する知識を得ることである。サンプルが適切な方法で母集団から抽出されることにより、母集団の特性が明らかになる。
■母集団に対して計算される値をパラメータ(parameter)、サンプルに対しては統計(statistics)と呼ばれる。
■平均点はサンプルの場合Xバー、母集団の場合はμ、分散に関してはサンプルがs^2、母集団がσ^2と表記される。また、統計rはパラメータрの推定(estimate)である。この推定がパラメータについての情報を提供することになる。

10.3 Infinite versus finite population
■物理的項目(学校数や人数等)は有限であるものの、母集団のサイズは無限であると捉えられがちである。
■しかし、そのような区別を心配する必要はない。サンプルとして抽出された要素の割合が5%より大きくならない限り、有限・無限の両方に対するテクニックは同じ結果をもたらすとされているからである。
■つまり、ほとんどの応用統計的手法は無限の母集団がサンプルとして抽出されるという仮定に基づくものである。

10.4 Randomness and random sampling
■統計的推論の妥当性においては、サンプルがどの程度母集団を代表しているのかということが最も重要なこととなる。
■サンプルがどんなに大きくても、それが代表性(representativeness)の欠如を穴埋めすることはないのである。

10.5 Accidental or convenience samples
■この抽出法はよく使われる手法であるが(例えば街角やメディアによって募る方法)、適切であるとは言えない(代表性に欠ける)。

10.6 Random samples
■代表性に関してはここでも問題になるが、サンプルがランダムに抽出されれば、そのサンプルは母集団を代表する傾向にあるということになる。つまり、ランダム抽出は、ある特定の(母集団とサンプル間の)誤差の範囲内で代表性を保証するものであり、パラメータが特定の可能性を持って落ち着く限度の設定を許容するのである。
■このエラーを推定する能力がランダムサンプリングにおける重要な特徴である。つまり、統計的推論のプロセスはサンプルからパラメータの推定を行うことと、その中でサンプリングエラーの大きさを決定することが含まれる。このエラーは10%以下であるべきと言われている。
■また、ランダムな抽出はシステマティックなバイアスを避けることにもなる。

10.7 Independence
■ランダムサンプリングでは、サンプルとして抽出される個人には、抽出の可能性に個人間で差がない、他人からの影響を受けない等の抽出の独立性が保障されていなくてはならない。
■教育に関する研究分野において、特に対象とするクラスや学校を選択する際にこのような問題に陥りやすいことは留意しなくてはならない。
■しかし、現実的に完璧なランダムサンプリングを達成することは不可能であるのも事実である。

10.8 Systematic sampling
■例えばランダムに選択した番号(ここでは13)から、43、73, 103, …2983というように30番置きの番号を選択していくといサンプルの抽出法をシステマティックサンプリング(systematic sampling)と呼ぶ。
■利点としては実施が容易であること、ランダムサンプリングよりもわずかに正確さが高く、エラーが少ないことなどが挙げられるが、長期的な視野では、推定がどの程度正確なのかということを判断する手段に欠けるということが、欠点として挙げられる。
■しかし、適切に行われれば、少々の差があるものの、両者の手法の結果を一般化することは可能となる。

10.9 Point and interval estimate
■Point estimatesとはパラメータを推定するときに用いられる単一の値である。Interval estimatesとは推定の度合いの正確さを表すpoint estimatesの概念上に立てられているものである。
■E(Xバー)=μはXバーがμのunbiased point estimatesであることを示す。
■Interval estimatesはパラメータの上下限を示すものであり、Point estimatesだけではその推定がどの程度正確なのか知ることができない。


10.10 Sampling distribution
■とある母集団からn人のサンプルを抽出し、Xバーを計算するというプロセスを1000回繰り返したとすると、サンプルの統計(statistic:例えば平均値)の度数の分布(frequency distribution)が1000通り得られることとなる。つまり、Xバーの度数分布が平均値の標本分布(sampling distribution)となる。

10.11 The standard error of the mean
■標本の平均値とパラメータ(μ)からどの程度離れているのか、つまりサンプリングエラーの大きさを算出する場合には式(10.1)を用いる。
■σXバーで表される平均の標準誤差(the standard error of the mean)とは、サンプルの平均(Xバー)におけるサンプリングエラーの標準偏差である。
⇒ランダムに抽出されたサンプルの平均を求めるというプロセスを無限に繰り返した結果、得ることができる標準偏差(σXバー=3.0)。

10.12 Relationship of σXバー to n
■サンプルの数(n)が4倍されると、σXバーは半分になる。
■E(Xバー)=μは、サンプルの平均の期待値はパラメータと同等であることを示す。つまり、統計の期待値は標本分布の平均値である、ということができる。

10.13 Confidence interval
■母集団の平均μを推定するためにはXバーをどのように使えばよいのだろうか。もしn=225の場合、σXバー=1.0となり、標本分布において68%の平均がμから1.0離れていると言うことができる。つまり、サンプルの平均の周辺区間68%にμの値が存在しており、信頼区間.68はXバー+/-σXバーであると言える(10.2)。
■信頼区間としては.95がよく用いられる(10.4)。

10.14 Confidence intervals when σ is known: an example
■100回行うIQテストで、50000人のこどもの平均IDを予測した。
■n=100、σ=15、信頼区間は.95で分析した結果、サンプルの平均は105であり、.95CI=105+/-2.94となった。つまり、σは最低102.6, 最高107.94の間に存在することが分かった。
■より高い正確性を求めるならば、つまり信頼区間を狭めるのであれば、サンプルの人数を増やさなくてはならない。

10.15 Central limit theorem: A demonstration
■中心極限定理(Central limit theorem)とは、無作為に抽出されたサンプルの平均の標本分布が、母集団の形に関わらず正規分布に近づくという理論である。
■中心極限定理の妥当性を示すために、異なる3つの母集団(正規、長方形、歪:μ=100; σ=15)が1から25までのサンプル数によってどのような影響を受け、どのように変化していくのかをFigure 10.3に示した。次の2つの一般性が示されるだろう。
@母集団に正規性が見られなくても、nが上昇するにつれて標本分布が急速に正規性に近づく。
Anの増加に伴い、Xバーの標本分布の変動性(variability)は減少する。しかし、その減少は母集団に正規性が見られなくても式10.3によって正確に説明される。
■例えばPanel Dの左のグラフでは、平均値が10000回繰り返し計算されている。これが1000000回繰り返されるならば、標本分布は完全に正規性を成し左右対称になるはずである。
                                                                             (今野)

ディスカッション&コメント
・有限の集合である場合、サンプル数が母集団の5%(もしくは10%)以下なら有限・無限の区別を心配する必要が無いというのは、サンプルの割合が小さいほど、背後に仮定する母集団が無限に近くなるからであろうか。
・10.6のエラーが10%以下であるべきというのは、何の10%以下であるべきなのだろうか。
・10.8でsystematic samplingの方がrandom samplingよりも正確さが高まるのは、randomだと偏ってしまう可能性があるため。systematic samplingでは、偏る可能性がより低くなる。
                                                                            (森本)



ページトップに戻る


2007/09/28


Chapter 10 後半, pp. 239 - 253

10.16 The use of sampling distributions
■標本分布 (sampling distribution) は母集団からサンプルを抽出する作業を繰り返し行うことによって推定されるが、実際には母集団から一度だけn個のサンプルを収集し、信頼区間 (confidence interval, CI) を推定することが行われている。母集団の平均μが .95CI から外れる可能性は5%であるといえる。

10.17 Proof that (σxバー)^2 = σ^2/n
<計算式の前提>
■平均値μ、分散σ^2を持つ母集団から標本 (X) を繰り返し抽出する場合、標本の平均値は
(X1 + … + Xn) / n となる。Xバーの期待値E (Xバー) は、E [(X1 + … + Xn) / n]
 ここで、標本Xが全て母集団と同じ平均や分散を持っていると仮定すると、計算式は次のようになる: 
 E (Xバー) = (1/n) (μ+μ+ … + μ) = (1/n) (nμ) = μ
■毎回 n = 1 の標本が繰り返し抽出されるとすると、母集団の分布と、標本分布は等しくなる。
(σ^2/n =σ^2/1 =σ^2)
■ランダム抽出されたサンプルの分散について。各サンプル群はランダムに集められているので、無関連であり、相関 (correlation) や共分散 (covariance) の値もゼロである。
■もし、それぞれの数値に定数 (e.g., 1/2) が掛けられると、その分散は元々の数値を使った分散をその定数の二乗した値 (e.g., (1/2)^2) で掛けた値となる。
・・・など

■<計算式10.7> 分散がσ^2の母集団からランダム抽出されたn個のサンプルの平均の分散は、
(σxバー)^2 = σ^2/n
■(σxバー)^2 は、variance error of the mean とよばれる。この平方根の正の値はstandard error of the meanとよばれる。<計算式10.8>

10.18 Properties of estimators
■予測変数 (estimator) はサンプルに基づく統計値であり、母集団のパラメータに加えてエラーの値も含まれる。(よく分からない)
■例えば、母集団の平均μの予測変数は標本の平均値Xバーであるといえる。しかし、平均値以外にも、中央値や最頻値など、さまざまな予測変数を使用できる。ただし、Xバーが最も良いと考えられる。その理由としてunbiasedness, consistency, efficiencyがある。

10.19 Unbiasedness
■推定される母集団にどのような特徴がある場合においても、標本の平均値Xバーは母集団の平均値μのunbiased estimatorである。つまり、母集団の平均が100であるとき、抽出した標本の平均値もほぼ100となるといえる。
■平均値と異なり、バイアスのある値もある。例えば母集団における二つの変数の相関を示すρを推定する場合、標本の相関rは常にρよりも低く算出されてしまう。このような条件をnegatively biasedという。
逆にE (θハット) > θとなることから、θハットは、positively biasedとされる。
■標本の分散はS^2 = (Xi - Xバー)^2 / (n - 1) である。
単純にnで割る方法も考えられるが、(Xi - Xバー)^2 / nはσ^2のとしてnegatively biased estimatorであるため用いられない。ただし、100以上のサンプルがあれば、(n - 1) / n の値は 1 に非常に近くなるので、バイアスは小さくなると考えてよい。
■ n - 1 が使用される根拠は特にないし、n - 1 とすることでunbiased estimatorになることが実証されているわけではない。
■一方、S^2をσ^2の予測変数として使用する事は数学的に証明されている。<計算式10.9、10.10>
■10.9と10.10の計算式に書かれているμとσの差は、s / [4 (n - 1)] である。この計算式から、nが非常に小さな値でないかぎり、バイアスは小さいと考えられる。
■Table 10.2 に、それぞれのestimator がparameter の推定に際し、母集団の分散によってバイアスが生じるかどうかを示している。

10.20 Consistency
■バイアスの有無にかかわらず、一貫性のある結果が産出されるデータであればサンプル数が多くなるにつれてのvalue of the parameterへと近づく。

10.21 Relative efficiency
■バイアスや一貫性よりもefficiencyの方が重要である。このefficiencyとは予測変数から母集団を推定する際の精度を指す。また、efficiencyとは予測変数に関連するサンプリングエラーを指すこともある。
■標本分布の分散をvariance errorとしている。
■例えば母集団の平均μを推定する場合、n個のサンプルの平均Xバーや中央値はunbaiased estimatorといえる。しかし、実際にはXバーの方が良いとされる理由にはXバーの方が、分散が小さいため、精度が高いと考えられるという点がある。
 ・サンプルの中央値の分散の算出方法 <計算式10.11>    ⇒Xバーの2/3程度の精度
 ・サンプルの中央値のstandard errorの算出方法 <計算式10.12> ⇒ Xバーの場合の1.25倍
 ・Xバーと中央値の標本分布についてはFigure 10.5を参照。
■ここで示されたように、平均値を用いた方が精度が高いため、中央値よりも平均値がestimatorとして用いられる。
                                                                                  (中川)

ディスカッション&コメント
・Relative efficiency について、平均値を用いた法が精度が高い(中央値を使用した方が分散が広がってしまうので)ため、中央値よりも平均値がestimatorとして用いられる。
・分散を求める際にn-1が使われる根拠で明確なものはない。
                                                                            (多尾)


ページトップに戻る


2007/10/13


Chapter 11 前半 (pp.255-264)

11.1 Introduction
●大部分の実証的研究(行動科学)では、仮説検定・区間推定が使用され、区間推定での考え方の多くが仮説検定においても中心的な役割を果たす。
●無作為抽出・標本分布・確率を理解することが仮説検定には欠かせない。
●観測標本から母集団についてどのように推測できるか?

11.2 Statistical hypotheses and explanations
●統計的仮説検定の起こり:18世紀初期、John Arbuthnot
●特定の(ある)条件や前提を鑑みると、統計(学)によってある事象の確率を割り出すことはできるが、統計(学)それ自体は本質的に現象の説明や解釈を与えてはくれない。

11.3 Statistical versus scientific hypotheses
●2種類の区別すべき仮説
@科学的仮説:理論的な考えに基づいて大まかに予測される結果に基づく。
A統計的仮説:検定可能な命題とされる詳細な情報に基づいた推測。すぐれた統計的仮説は独創的な洞察力の結果設定される。統計的仮説は未知なる変数の数値についての記述。
●@Aを区別することは重要であり、一般性及び重要性が低く、極些細な事例における統計的仮説も検証することは可能である。
●科学的仮説は、すべて統計的検定を必要とするわけではなく、統計的仮説についてもすべて実用的あるいや科学的利益をもたらすわけではない。

11.4 Testing statistical hypotheses about μ
●統計的仮説は真偽いずれにも推測される。推測統計手法では仮説が論証可能であるか、棄却すべきかに関して誤差が生じる。
●表11.2 →全ての統計的仮説検定に必至の4つのstep:
 @仮説を述べる、A危険率設定(α= .05)、B確率を求める、C検証

11.5 Testing H0: μ = K, A one-sample x-test … 表11.2の実例
 @仮説(H0):養子のIQ平均値は、一般の子のIQ平均値(μ= 100)と同じである。
 A危険率:α = .05 (通例この値)
 B無作為抽出で養子(n = 25)のIQ平均値 = 96.0。
  仮説(H0)=100であれば、確率( p )はμ=100を中心に4ないしそれ以上異なる標本平均となる確率と設定。
 C確率( p ) < α( .05)であれば、仮説(H0):μ=100は.05の有意確率で棄却される。
  → 標本平均 = 96.0の場合はどうなるか?
●national test normsによればσ=15であるので、n=25の時の平均値の標準分布におけるSDは式10.1から3.0。
●式11.1をもとにz値を求め、それを正規曲線表で見ることで標本平均が96.0あるいはそれ以下である確率が決まる(帰無仮説が棄却できない場合。)。

11.6 Two types of errors in hypothesis testing
●仮説が正しいにも拘わらず、この仮説を棄却してしまうこと→第1種の誤り(α)
●仮説が正しくないにも拘わらず、この仮説を採択してしまうこと→第2種の誤り(β)
●仮説を棄却することはその仮説が「正しくない」ということを証明しているわけではない。100%の確信を持って認められる仮説などないのである。

11.7 Hypothesis testing and confidence intervals
●信頼区間はおそらくあらゆる種の推測統計手法に最も役立つ(Tukey, 1960, p.429)
●区間推定により、変数推定の正確度が示される:μについての仮説検定結果について容易に判断を下すことができる。
●.99の信頼区間内に統計的仮説によって特定された変数値が含まれなければ、その仮説は.01に有意確率で棄却されると述べるに等しい。

11.8 Type-U error, β, and power
●仮説(H0)を支持(棄却できない)と判断するのは間違いである(たとえば実際はμ≠100であるのにμ=100であると結論づけて正しくないH0を採択してしまう)
→第2種の誤り

11.9 Power
●もし本当はμ=110であるとしたら?→仮説(H0):μ=100である場合には、μ≠100であるとして仮説は棄却したいところ…。では、H0を棄却できる確率は?
●誤りであるH0を棄却する確率→統計的検定の検出力(power)

11.10 Effect of α on power
●仮説(H0):μ=100、対立仮説(H0):μ≠100を検証する(α=.10)場合は、検出力はα=.05の時より強い。→図11.2
                                                                                  (多尾)
ディスカッション&コメント
・有意性検定では、検証目的で立てた対立仮説と帰無仮説は混同しやすい。「第1種の誤り」は、帰無仮説が真であるのに棄却した(つまり、有意だと判断した)場合、反対に「第2種の誤り」は帰無仮説が棄却できる(つまり、有意差がある)のに、棄却しなかった場合。
統計処理結果を他の人と相談し合うときも、論点が帰無仮説なのか対立仮説なのか、常に確認し合ってないと、誤解を招きやすいので注意したい。
・Power(検出力)も調べておくと、標本数不足が原因で有意性を見落としていないかを見る目安となる。仮に現行の研究で仮説を立証しきれなくても、今後の標本数確保等、調査デザインの改善への参考となるかもしれない。                  (長橋、平井)


ページトップに戻る


2007/11/30

Chapter 11 後半 (pp.264-276)

11.11 Power and the value hypothesized in the alternative hypothesis
■行動学の研究では、パラメータの1つの数値から仮説の検定力を算出するだけで十分である、ということはまずない。通常、いくつかの異なるパラメータの値を用いて検定力を調べる。検定力は、(a) reasonableな、もっとも大きいパラメータ値、(b) practicalな興味から、最も小さいパラメータ値、(c) 最もreasonableな予測や "best guess" な中間の値、によって決定されることが多い。他の値が使用されるときには、Figure 11.4のグラフが構築される。
■実際のμの値と仮定されたμの差が大きくなるほど、検定力は増え1.00の値に近くなる。また、どのようなμの値であっても、サンプルサイズが大きくなるほど検定力も大きくなる。
■通常、現実的な中で最大限のサンプルをとり、そのサンプル数で十分な検定力があるかどうかを決定しなさいと助言されるであろう。もしサンプル数がとても大きくて帰無仮説の検定力が非常に大きいのであれば、そんなに大きなサンプル数を使う必要は無い。但し、信頼区間は大きなサンプル数を使えば小さくなる。
■α = .05のときに検定力は.90以上なのが望ましい。

11.12 Methods of increasing power
■仮説検証の手順では、以下のことが言われている。
 (a) 検定力はサンプルサイズが増えるほど高くなる
 (b) 検定力はαが増える(例:.05から.10に)ほど高くなる
 (c) 検定力は、テストされるパラメータの真の値が仮定されている値よりも離れると高くなる。
■ある条件下では、Type I errorを.10まで大きくして検定力を上げることも考えた方がよい。

11.13 Nondirectional and directional alternatives: Two-tailed versus one-tailed tests
■対立仮説であるH1はnondirectional (two-tailed) にもdirectional (one-tailed) にも成りうる。nondiretionalなものは、μは0ではないが、0より上か下かを言及しないものである。一方、μ > 100という対立仮説はdirectionalであり、調査者はμは100以下にはなり得ないと仮定している。
■この場合、μが100以上になるときのみ帰無仮説を棄却できるため、棄却するためにはsampling distributionの右側に無ければならない (Figure 11.5)。
■Figure 11.3とFigure 11.5を比較すると、directionalな場合の方が検定力が高いことがわかる。
■実験を行う前にdirectionalな対立仮説を用いると述べなければ成らない。directionalな対立仮説を用いた場合、実際のType I errorの確率は.05ではなく.10である。directionalな仮説が正当化される例には以下のようなものがある。
・初期の認知能力の発達はIQを増加させる
・10歳児は8歳児よりもピアノの上達が早いか  などなど

11.14 Statistical significance verses practical significance
■サンプルサイズがとても大きい場合、ほんの少しの違いでも有意な差になってしまうかもしれない。「統計的に差がある」というのは偶然で予想されるよりも差が大きいということを意味するのみであり、その差が大きかったり重要だったりすることを示唆するわけではない。
■有意性検定は非常に頼りにされている。有意性検定を行うときには、信頼区間も報告した方が良いであろう。信頼区間を報告することで帰無仮説を誤って棄却してしまう可能性を減らすことができる。

11.15 Confidence limits for the population median
■母集団の中央値の信頼区間はrandom samplingのnから決定される。

11.16 Inferences regarding μ mean when σ is not known: t versus z
■教育的な目的で、仮説検証の概念や方法はz-testで表されてきた。しかし、もしσの値がわからない場合、t-ratioと呼ばれる (z-ratioではない)。もしnの値が大きければσの値はとても正確になりtとzの差はほとんどなくなる。しかし、nが小さい場合にはtとzはかなり異なる。正規分布とは異なり、t分布は1つだけではない。自由度(v)によってt分布は異なる。

11.17 The t-distribution
■t分布は0を平均としていて最頻値が1つの左右対称な図である。z分布の分散は1だが、t分布の分散は1より大きい(t分布の分散はv/(v-2)であるため)。vが小さいときにはt分布の尖度が大きくなる(つまり平らになる)。従って、そのような場合には5%が|t| = 1.96より大きくなる。
■vがかなり大きいときにはt分布は正規分布と同じになる(Figure 11.6参照)。また、Figure 11.7はtのcritical valueと自由度の関係を表したものである。vが増すとtの値はzの値の近づく。

11.18 Confidence intervals using the t-distribution
■σではなくsを用いた場合の方が信頼区間がやや広くなる。

11.19 Accuracy of confidence intervals when sampling non-normal distributions
■Figure 11.3にある通り、サンプル数が5人でも信頼区間はかなり正確になる。

11.20 Chapter summary
■仮説検証は推測統計で最も良く使われる方法である。仮説検証では観測された差が、帰無仮説よりも大きいかどうかの可能性を調べる。その可能性が5%より小さければ帰無仮説は棄却される。棄却されない場合、第一種の誤りは起こらないが、第二種の誤りが起こる可能性がある。第二種の誤りとは、本当は棄却すべき帰無仮説を棄却しないという誤りのことである。
■第一種の誤りの危険が少ないほど、第二種の誤りの危険が多くなる。逆に、α = .10の時には、α = .05や.01のときよりも検定力が増す。第二種の誤りを犯さないことを検定力という。検定力はサンプルサイズが増すと増える。
■正規分布は1つだけだが、t分布にはたくさんあり、自由度によって変わる。
■有意性検定では違いの大きさはわからないが、有意差があると分からなければ、どんな種類の有意性があるかどうかはわからない。
                                                                             (森本)

ディスカッション&コメント
・検定力とは差があるといえる確率を表す。
・尖度が大きくなる (leptokurtic) とカーブが急になるわけではないのか?辞書の定義だと尖度が大きいとは平均値の辺りに集中している分散を表し、尖っていることになるはずであるが、その定義だと本文と合わなくて混乱した。                    (鳴海)

ページトップに戻る

2007/12/21

Ch. 12. Inferences about the difference between two means.

12.1 Introduction
■ 推測統計の考察は以下の段階を踏む。
・帰無仮説を述べる
・前提を述べる
・統計手法を明確にする
・サンプルの分布を定義する
・有意水準を定める
・信頼区間を定める
・説明をする
・(もしあれば)その他特別に考慮することを述べる

12.2 Testing statistical hypotheses involving two means
■ Ch. 11ではμ = kという帰無仮説について扱ったが、2つの平均値の差についてのほうがより興味深い(treatmentが効果的だったか、など)。

12.3 The null hypothesis, H0: μ1−μ2=0
■ 12.2で挙げた質問に対する帰無仮説はμ1 = μ2もしくはμ1−μ2=0である。

12.4 The t-test for comparing two independent means
■ あるグループが特別なtreatmentを受け、もう1つの別のグループが受けなかった場合、2つのグループは独立しているといえる。しかし、あるグループのpretestとposttestを比べる場合はpairedであったり相関があるために、独立しているとはいえない(これについては12.13で扱う)。
■ 帰無仮説はμ1−μ2=0であり、対立仮説はμ1−μ2 ≠ 0である。
■ 分散の等質性と各サンプルがそれぞれの母集団からランダムに取り出されていることが前提である。
■ 帰無仮説はp. 285の上の式で計算される。パラメータは一定であるため、パラメータとサンプルのSDの差は、サンプルのSDと同じである。従って、この式はSstatisticsとtで表される。
■ z-ratioと異なってt-ratioはパラメータではなくサンプルについてである。従って、t-ratioではsampling errorは分母にも分子にも影響する。
■ t検定の式は12.1の通り。

12.5 Computing S(Xバー1−Xバー2
■ s2はSS/dfで求められる。

12.6 An illustration
■ 環境の刺激が幼児の知能を伸ばせるかどうかに興味があるとする。18名の幼児が実験群で、他の18名が統制群である。2年後にこの36名の幼児に対して知能テストを行った。
■ Table 12.1では帰無仮説は棄却されていない。しかし、10%水準にすると棄却される。また、t検定の分母はサンプルサイズに大きく影響される。サンプルサイズが大きくなれば分母が小さくなるため、サンプルサイズが大きいと小さな差でもt値が大きくなる。
■ t値が有意水準の値を超えたら帰無仮説は棄却されるが、超えなければType II errorが起こる。Type I errorとType II errorはトレードオフの関係にある。
■ p値については、なるべく正確に報告するのが良いであろう。p > .05と書くよりも.10 > p > .05と書くほうが望ましい。

12.7 Confidence intervals about mean differences
■ 95%信頼区間の中に0が含まれていると、帰無仮説を棄却できない。今回は-.89から20.29の間にあるため、棄却できなかった。

12.8 Effect size
■ 効果量は差の大きさを調べるのに有効である。12.7A, 12.7B式で求められる。

12.9 t-test assumptions and robustness
■ t検定における3つの前提は、正規分布していること、等分散であること、それぞれのサンプルが独立であること、である。
■ 正規分布については、両側検定を用いれば正規分布をしていなくてもほとんど結果に変わりはないことが言われている。サンプルサイズが大きければ(15以上)、type I errorの違いは1%以内におさまるだろう。また、Type II errorについても、正規分布していなくても影響されない。従って、正規分布については両側のt検定を用いれば必要な前提にはならない。片側検定の場合には、サンプルサイズが小さいグループでさえ20名は必要。

12.10 Homogeneity of variance
■ t検定は等分散性についても頑健であるといわれている。特に、サンプルサイズが2群の間で同じの場合には問題にならない。Figure 12.3に、サンプルサイズが同じときと異なるときのグラフが掲載されている。
■ 2群の間でサンプルサイズが大きいグループが、分散が大きい母集団から取り出されてきた場合には、t検定はType I errorに対してconservativeになる。一方、サンプルサイズが大きいグループが分散が小さい母集団から取り出されてきた場合には、Type I errorを犯す確率がたかくなる。

12.11 What if sample sizes are unequal and variances are heterogeneous: the Welch t' test?
■ サンプル数も分散も異なる場合には、Welch t'-testを用いることができる。t'の値は通常のtの表から読み取ることができる。等分散性が仮定されない場合、t'はtよりもやや検定力が弱い。

12.12 Independence of observations
■ 独立したグループというのは、2群がpairedされていなかったり、相関がなかったり、関連がない、ということではない。何かしらの関係が2群にあるのであれば、dependentなt検定を用いるべきである。このindependence of observationは重要である。これがなければ、Type I errorやType II errorの確率は正確ではなくなる。

12.13 Testingμ1 =μ2 with paired observations
■ 今まで見てきたt検定と異なるのは、平均の違いの標準誤差と自由度である。
■ サンプル同士に相関があることが仮定されている(同じ子供の1年後、男の子たちとその姉妹たち、夫と妻など)。
■ paired t-testはindependent t-testよりも検定力が高い。

12.14 Direct-difference method for the t-test with paired observations
■ 同じ群について比べるのであれば、高い能力の学生はposttestでも高い得点を取ることが予想される。このような相関が考慮されている。こうすることで検定力が上がる。

12.15 Cautions regarding the matched-pair design in research
■ paired t-testを用いたからといって、完全に2群が等化されているわけではない。

12.16 Power when comparing means
■ 効果量の検定力(power for effect size)については、.2σがsmall, .5σがmiddle, .8σがlargeと言われている。様々な場面における効果量についてはTable 12.4に掲載されている。
■ このpowerは実験を計画するときに推定されているべきである。

12.17 Non-parametric alternatives: The mann-whitney test and the wilcoxon signed rank test
■ Mann-Whitney testは2つの独立した群に対して使用する。この方法は、正規分布していないときに良く使用されていたが、t検定が正規分布していないときでも頑健性があることがわかってからは、あまり使用されなくなった。特に外れ値がある場合にはMann-Whiteneyはあまりよくないため、Welch t' testを用いた方がいい。
■ Wilcoxon signed rank testはpaired sampleのときに用いられる。Wilcoxonはt-testよりも好まれているが、もしt-testがランクで計算されたら、サンプルサイズが非常に小さくない限り、結果はほとんど変わらない。

ディスカッション&コメント
・t検定ではサンプルサイズが大きくなると、有意差が出やすくなることが分かった。
・p > .05と書く方が望ましいとあったが、今はp = と正確な値を示す場合が多いのではないか。また、p = .000となった時はどのように記述するべきか?
・12.13でサンプル同士に相関がある場合は、pairedを使う。検定力が高いというのは有意になりやすいということ。
・12.16の2σ、5σ、8σの値はどこから来ているのか?                                         鳴海

ページトップに戻る

2008/ 01/11

Ch. 13 Statistics for categorical dependent variables: Inferences about proportions

13.1 Overview
■ 教育や社会科学の分野では、割合 (proportion) についてのRQが多い。本章では割合についての仮説検証についての推定方法に焦点を当てる。割合は、categorical, nominalな変数を比較するときに用いられることが多い。

13.2 The proportion as a mean
■ サンプル数がnのとき、ある特定の特性を持ったサンプルをniとする。この場合、nの中のniの割合はp = ni / nで表される。pはπ(母集団におけるある特定の特性をもった事象の割合)のestimatorである(つまり、サンプルからの推定がp)。

13.3 The variance of a proportion
■ πがあるカテゴリーにおいて1とされた事象の割合だとすると、そのdichotomous variableのSDは13.3式の通りになる。このような変数は正規分布にはならないので、SDは描写的には用いられないが、pの標準誤差を見つける方法の1段階にはなる。

13.4 The sampling distribution of a proportion: The standard error of p
■ 頻度分布がどんな形であろうと、sampling distribution of the meanはサンプルサイズが大きくなると正規分布に近づく(Figure 10.3)。例えば、同じ調査をランダムな100名のサンプルをその度に選んで行うと、多くのpの値は正規分布に近づき、そのpの値はπに近くなる。このsampling distributionがproportionの標準誤差と呼ばれる。

13.5 The influence of n on σp
■ 100名の代わりに400名だったらどうなるだろう。Figure 13.2によると、4倍にするとσpは半分になる。

13.6 Influence of the sampling fraction onσp
■ 母集団からサンプルに取った割合(f)はσpにどう影響するのだろうか。母集団の5%以上をサンプルとして取った場合には、結果にほとんど違いは無い。実際にはNはほぼ無限大である。

13.7 The influence of π on σp
■ σpはπの値にどのように影響されるのだろうか。標準誤差の最大値はπが.5であるときである。サンプルの分布はπが.50のときに完全に左右対称になり、そうでないとskewnessが増す。

13.8 Confidence Intervals for π
■ nが増えると正規分布に近づく。しかし、どの程度のnが必要なのだろうか。サンプルサイズについては様々なガイドラインがあるが、これらの基準は粗すぎる。95%信頼区間を得るためのサンプルサイズはπに大きく影響される。図13.4によると、pが.40から.60の時には50人以下でもいいが、.20以下や.80以上の時には非常に大きなサンプルサイズが必要になる。bimodalなときにはGhosh (1979)の方法がとても正確で、pやnの値を選ぶときに使用できる。

13.9 Quick confidence intervals for π
■ 図13.5を用いれば大体の信頼区間が得られる。例えばpが.9でnが10の時には58%から98%が95%信頼区間である。

13.10 Testing H0 : π = K
1. 検証する統計的な帰無仮説は、ある特性を持っているπの割合がKと同じである、というものである。
2. 帰無仮説の検証には、nが母集団からランダムに選ばれた、という前提があるのみでよい。
3. 帰無仮説はz検定で検証される。
4. 13.9式の値が棄却域と比較される。nとpの正規性が仮定されなければ、カイ二乗のgoodness-of-fit testが用いられる。
5. 13.8A-B式でπの信頼区間が求められる。サンプルサイズが十分に大きく正規性が満たされれば、95%の信頼区間は±1.96σpで求められる。

13.11 Testing empirical versus theoretical distributions: The chi-square goodness-of-fit test
■ カイ二乗検定は2つ以上の観察された割合が有意に異なるのかを調べるためのテストである。付録のTable Dにカイ二乗の棄却域が書かれている。カイ二乗を用いる際の自由度は、そのカテゴリー数マイナス1である。

13.12 Testing differences among proportions: The chi-square test of association
■ 2つのものの関連を調べる場合(例:タバコを吸うかどうかと心臓病との関連)、自由度は (row-1) × (column-1)になる。もし2つに関連が無い場合、縦の列内の各セルの割合はあまり違わないだろう。帰無仮説が棄却されたら、2つの変数の間になんらかの関係性があるということである。

13.13 Other formulas for the chi-square test of association
■ カイ二乗検定を行うのには他の、もっと直接的な方法もある。

13.14 The χ^2 median test
■ 9段階のratingで、中央値より上の得点をつけた割合が男女で異なるかどうかもカイ二乗検定で調べることが出来る。しかし、t検定の方が検定力が高い。しかしmedian testは3つ以上のグループを比較することが出来る。

13.15 Chi-square and the phi coefficient
■ カイ二乗の統計やtest of associationはphi (φ)coefficientの値に容易に変換できる(イチゼロのような二進法のデータで算出するPearson product-moment coefficientはphi coefficientと呼ばれる…中川さんのch. 7のハンドアウトより)。

13.16 Independence of observations
■ カイ二乗は他の観測と独立しているcontingency tableであればどんなものにも使用できる。ここでいう独立しているとは、相互排他的であるということである(同じ人が複数のカテゴリーに入ったりしていてはいけない)。

13.17 Inferences about H0: π1 = π2 when observations are paired: McNemar's test for correlated proportions
■ データがpairedの場合には、McNemar's chi-square testを使用することができる。

ディスカッション&コメント
・ Skewnessの見方が曖昧(positive or negative)になりがちなので、もう一度しっかりと把握する必要がある。
・ χ二乗median testの項でも述べられているが、場合によってはt検定の方が検定力が高いが、median testは3グループ以上を比較することができるなど、それぞれの特性を考慮した上で、明確な使い分けが必要であると感じた。                         今野

ページトップに戻る


2008/01/25

Ch. 14 Inferences about correlation coefficients

14.1 Testing statistical hypotheses regarding ρ
■ サンプルにおける相関係数(r)が有意だと言うにはどうすればよいだろうか。つまりH0のρ(母数における相関) = 0はどのように検証できるのだろうか。rが0だったらH0は棄却されず、0でなければ棄却されるのだろうか?
■ 測定には誤差がつきものであるため、もちろんそれではいけない。ρが本当は0でもrが.5や.6のこともある。サンプルサイズがとても小さいとき以外にはおそらくそんなことはないだろうが、でも可能性はある(コインの表が10回連続で出続ける、という意味での可能性)。つまり、ρが0でもrはプラスマイナス1の範囲内の値を取り得る。従って、サンプルからの値であるrからρについての絶対的な確信を持つことはできない。これは、統計を用いるときには常に付きまとう問題である。a risk of making an incorrect decision is always present!
■ 妊娠時の体重の増加Xと、出生体重Yの関係を658人の新生児に対して調査した結果、相関は.212であった。.212という値は0から大きくかけ離れているわけではないが、サンプルサイズは非常に大きい。では、測定誤差を有る程度含むような統計から母集団の変数をどのように推定すればよいのだろうか?本章では、これを相関に対して応用する。

14.2 Testing H0: ρ = 0 using the t-test
■ t検定を行うときの自由度は、pairs of scoreをnとしたとき、ν = n-2である。t検定でのやり方はpp. 350-351の通り。rのcritical valueのグラフがp. 352のFigure 14.1に掲載されている。nが増えるとrのcritical valueが減少する。また、αが小さいときにはより大きなrの値が必要となる。この図は、あるrのcritical valueに対するサンプルサイズの大きさを決定するときにも使用可能である。AppendixのTable Jも参照可能である。

14.3 Directional alternatives: "Two-tailed" vs. "one-tailed" tests
■ ρ = 0 という帰無仮説は片側検定でも両側検定でも可能である。両側検定の場合はρ > 0でもρ < 0でも帰無仮説を棄却できる。もしρ > 0とρ < 0のどちらかが不合理である場合には片側検定を用いることができる(手の大きさと足の大きさの相関の場合など)。
■ 片側検定を用いる場合にはしっかり考えなければならない。なぜなら、もし1000名のサンプルでrが-.9のときでも、ρ>0という片側検定ではρが0ということになってしまうからである。しかし、適切に使えば片側検定はより検定力がある。
■ ρ>0という片側検定を用いるときには、ρ>0という知識が必要なわけではない。ρが負の値になるということがunreasonableであるということでよい。しかし、相関の場合には両側検定の方がより多く使用されている。

14.3 Sampling distribution of r
■ ρにおけるrの分布は、ρが0でない限りは正規分布にならない。5組の一卵性双生児の身長の相関が.95の場合、.99の相関の場合もあるし.50の場合もありうる(プラスマイナス1以内の値しか取らないため、下限のほうが幅が大きくなる)。Figure 14.2にグラフが掲載されている。
■ 分布がゆがんでいる場合、通常の信頼区間の推定では正確な値が算出されない。サンプルサイズが増えるほど正規分布に近づく。Figure 14.3はサンプルサイズが10名から160名のときのグラフである。

14.5 The Fisher Z-transformation
■ Fisherはρやnに関わらず、rがほぼ正規分布になるように変換した値Zを考案した。これをZ変換という(森本注:Excelで簡単に出せます。関数は=FISHER())。Figure 14.4にz変換のグラフが掲載されている。

14.6 Setting confidence intervals for ρ
■ Z変換によって、rの信頼区間を出す際の問題が解決された。95%信頼区間はσzに±1.96をかけ、Zに足したものである(森本注:簡単に出せるようになっているExcelのシートがある)。

14.7 Determining confidence intervals graphically
■ ρの95%信頼区間を求めるにはFigure 14.6が使用可能である。

14.8 Testing the difference between independent correlation coefficients: H0: ρ1 = ρ2
■ 一緒に育てられた一卵性双生児と別々に育てられた一卵性双生児のIQの95%信頼区間を定めた場合、この2つのrは有意に異なるのだろうか?このような場合にはz検定を用いる。計算式はp. 360の通り(森本注:私はこれはExcelに式を入れて行いました)。

14.9 Testing differences among several independent correlation coefficients: H0: ρ1 = ρ2 = …=ρJ
■ 14.8でのやり方は2つの相関係数の場合のみに使用できるが、3つ以上の相関係数の場合も計算可能である。式はp. 361の通り。14.8でも14.9でも相関係数をz変換して計算するが、3つ以上の場合にはカイ二乗検定となる。

14.10 Averaging r's
■ 2つ以上のrを平均したい場合にもFisherのz変換を行う。z変換した値を平均した後変換を元に戻す必要がある(森本注:Excelの関数では=FISHERINV())。

14.11 Testing differences between two dependent correlation coefficients: H0: ρ31 = ρ32
■ 2つの相関係数が独立していない場合には14.10式を用いる。

14.12 Inferences about other correlation coefficients
■ この章の残りは、7章や8章で紹介されたほかの相関係数に関する有意性検定を簡単に扱う。両側検定として、帰無仮説が無相関としたときと仮定しておく。

14.13 The point-biserial correlation coefficient
14.14 Spearman's rank correlation
14.15 Partial Correlation
14.16 Significance of a multiple correlation coefficient

14.17 Statistical significance in stepwise multiple regression
■ next bestな従属変数が有意に重相関係数を増加させるかを調べる。

14.18 Significance of the biserial correlation coefficient
14.19 Significance of the tetrachoric correlation coefficient
14.20 Significance of the correlation ratio
14.21 Testing for nonlinearity of regression
                                                                          (森本)

ディスカッション&コメント
■相関の正負を限定して予測できる場合には片側検定を用いることもあるとされているが、明らかに片側しかありえない場合を除いて、両側検定を用いるようだ。
■標本数が多くなることによって有意な相関が出やすくなる。論文等では「有意な相関があった」と述べるにとどまらず、その値や解釈(高い相関なのか、中程度なのか、低い相関なのか)を述べることが必要だろう。また、可能であれば95%信頼区間もつけておくとさらに参考になる。
                                                               (中川、平井)

ページトップに戻る


2008/02/08

Chapter 15 One-factor analysis of variance (pp. 377-395)

15.1
analysis of variance (ANOVA) はJ個 (J > or = 2) の平均値の間にsampling errorによるもの以上の違いを持つかどうかを分析する統計手法

15.2 なぜt検定を繰り返し使用しないのか
α = .05のt検定を一度行うと、αは .05であるが、2回以上のt検定を行う場合、type-I errorの可能性が .05よりも高くなる。その数が多くなるほど、type-I errorの可能性が高くなることが問題となる。
※例えば、J = 5のとき、全てのペアの組み合わせは10通りとなる (k = 10)。p = 1 - (.95)10 = 1 - .60 = .40 となる。
ANOVAは「検定されるJ個の平均値のうち、どれか一つでも、その他のどれか一つの値からsampling errorによるもの以上異なっているか」を問うものである。ここで検証される帰無仮説は
H0 = μ1 = μ2 = μ3 = … = μJ
t検定ではなくANOVAを使用する利点は: (1) type-I errorを生じにくい、(2) 帰無仮説が正しく棄却される (αが一定に保たれる)、(3) 同時に3つ以上の変数の影響を検定することができる。

15.3 ANOVAの専門語
■例えば9名ずつ3群ある場合、treatment factorが3レベル (levels) あるといえる。それぞれの協力者はreplicateといえるため、9 replicates for each of the three levels of the treatmentと記すことができる。この例のように各グループに含まれるデータ数が同じ場合、balanced designといえる。

15.4 ANOVAの計算 total sum of squares (SStotal)
■帰無仮説を検定する際に、sum of square (SS) が多用される。SStotaltreatment effectsとsampling errorなどの全ての要因 (sources of variation) を総合したものである。一要因のANOVAのSStotalは二つの要因に分類される: between group meansとwithin the groupsである (SStotal = SSBetween + SSWithin)

15.5 sum of squares between (SSB)
sum of squares between (SSB) はグループの平均値間の違いによって生じる。αj はグループjの平均値(μj) と全体の平均値 (μ) の差を示している。このαj = μj - μがtreatmentの効果を示している。
SSB は計算式15.4によって示されている。

15.6 sum of squares within (SSW)
Group 1のSSWはΣixi12 = SS1J個のグループのSSWSS1 + SS2 + … + SSJ
または、SSWithin = SStotal - SSBetween
ANOVAではF-testを用いている。計算手順が図15.2 (p. 381) に示されている。
SSBSSWが計算され、それぞれが個々の自由度 (vB, vW) で割られ、MSBMSWが算出される。MSB/MSWF値として計算され、この値がcritical F-ratioよりも高ければ帰無仮説が棄却される。
F値のリストはAppendixのTable Fを参照のこと。

15.7 ANOVAの計算例
■帰無仮説が正しい場合、SSBSSWの予測値は等しく: E(SSB) = E(SSW) = σ2となる
critical valueはcentral F-distributionにおける1-αthパーセンタイル順位である。
たとえば63名の幼児が3群に分かれている場合に、α = .05であるならば、観測されたF値が自由度2と60であるF-distributionにおける95th パーセンタイルの値よりも高くなければならない。

15.8 ANOVAの理論
ANOVA理論によると、J個の異なるpopulationsがあり、それぞれが同一のμを持ち分散も等しい場合に、H0が支持される。つまり異なる集団であると仮定していたJ個が実際は一つの母集団から抽出されたサンプル群であることを示す。

15.9 Mean square between groups, MSB
■母集団の分散の予測値をmean square betweenと呼ぶ (計算式15.8A, p. 385)。ちなみに、一つの母集団からJ個のサンプルが抽出された場合、これらJ個のサンプルの分散の平均値はσ2/n =σX-2
■母集団の平均値について帰無仮説 (H0 = μ1 = μ2 = μ3 = … = μJ) が支持される場合、J個のサンプルの平均値間の差からσ2が推定される (unbiased estimateとなる。つまり、期待値が推定しようとする母数と一致する)。nsX-2 = MSBσ2とはsampling errorによる差しかなく、何度も繰り返すことによりsampling errorの平均値が0となる。もし帰無仮説が誤っている場合にはE (MSB) >σ2となる。

15.10 Mean square within groups, MSW
■帰無仮説が支持される場合、MSBMSwの両方が母集団の分散のunbiased estimateとなる。ただし、MSwMSBと違い、帰無仮説が支持される場合も棄却される場合にも不偏の期待値となる。したがって、帰無仮説が棄却される場合、MSBMSwよりも大きな値をとると考えられる。

15.11 F検定
MSB/MSWによって算出されるF値が1に近い場合、両方がσ2の推定値となると考えられる。では、1よりもどの程度大きくなれば帰無仮説を棄却する事ができるのだろうか?この答えは15.7でも説明されたとおり、F = MSB/MSWcritical-Fよりも多くなった場合である。

15.12 balanced designのANOVA
■各グループに含まれるreplicatesの数 (n) が等しい場合は、等しくない場合で重み付けが必要となるような場合にくらべて計算が容易である。
※手計算の方法はpp. 386-388を参照のこと


15.13 A statistical model for the data
ANOVAでは、どのデータも線形モデルで示せるものであることを仮定している。
計算式15.10 Xij = μ + αj + εij
Xijはグループjの人物iの得点
μは母集団の平均値
αjtreatment jの影響を示す
εijは得点Xijerrorを示す、得点Xijの残差 (residual) である: εij = Xij - μ - αj
ANOVAの目的は、3つのtreatmentに違いがあるか、3つの平均値の間にsampling errorというよりも大きな違いがあるかを検定することにある。
sampling errorの起こる理由: (1) 一回行われた実験の結果は別のサンプルを使用して実施した同じ実験とは異なる結果となる、(2) 協力者を同じように扱った場合であっても、それぞれの人物が異なる特性を持っている、(3) 協力者を測定使用とする場合にはerrors of measurement (テスト手法や質問項目などによるエラー) が問題となる、(4) 気候や時間や疾病など、統制されている実験要因とは別の影響

15.14 Estimates of the terms in the model
■実際に観測できるデータはJグループの従属変数であるn個の観測値であり、μαjや、εijは未知のパラメータである。これらの推定はleast-squares criterionによって行われ、推定値はμ^、αj^、εij^で表記される。(^ は記号の上に表記される)
■推定されるパラメータの合計はゼロとなると仮定されている (α1 + α2 + … + αj = 0)
μ^ = X.バー
αj^ = Xj バー - X.バー
εij^ = Xij - Xjバー denoted my eij
Xij = μ^ + αj^ + εij^ に代入すると ⇒ 計算式15.11 (p. 389) となる。

15.15 Sum of squares
F検定において分母と分子は帰無仮説が支持される場合、分散を示すパラメータσ2の独立予測変数 (independent estimator) と仮定される。このセクションではSStotalが二つの構成素 (SSBSSw) に分かれることを示す。
■計算式15.11の両辺からX.バーをひき、二乗したりすることにより、左辺がを示すようにすることが出来るその結果が15.12に示されている。最終的にはSStotal = Σj^2 + ΣΣeij2 = SSB + SSWとなり、SStotalSSBSSwに分かれることが示される。

15.16 Restatement of the null hypothesis in terms of population means
■帰無仮説 (α1 + α2 + … + αj = 0) において、α1 = X1バー - X.バーであることから、
α
1の期待値はE (α1^) = E (X1バー - X.バー) = E (X1バー) - E (X.バー) = μ1 - μ = α1
⇒ 母集団の帰無仮説はμ1 = μ2 = … =μj

15.17 自由度

Degrees of freedom between groups, vB = J - 1 (グループの水準マイナス1)
■全てのグループの自由度を足すとvW = (n1- 1) + (n2 - 1) + … (nJ - 1) となる。
つまり、degrees of freedom within groups, vW = n.- J
balanced designの場合には vW = J (n - 1) となる。
total degrees of freedom, vtotal = n. - 1である。n が等しいbalanced design の場合には vtotal = Jn - 1

15.18 Mean Squares: The expected value of MSW
■自由度で割られたSSmean square (MS)、もしくはvariance estimateと呼ぶ
one-way ANOVAではmean square between (MSB = SSB / vB) とmean square within (MSW = SSW / vW)の二つが重要である。実験が何度も繰り返される場合、期待値は E (MSB) や E (MSW) で示される。
J個の母集団が同じ分散σ2を持つのであればMSWの期待値はσ2である (計算式15.18, p. 394)。
MSWは母集団Jの平均値から独立している (mean freeである)。各グループが同じ母集団から抽出された場合であっても、各グループが異なる平均値を持つ場合であっても、MSWの期待値はσ2である。

15.19 The expected value of MSB
MSWと異なり、MSBは母集団Jの平均値に影響を受ける。全てのグループの平均値が等しく帰無仮説が成り立つのであれば、MSBの期待値はσ2となる。しかし、帰無仮説が成り立たない場合、E (MSB) =σ2 + α2
■帰無仮説が棄却される場合、E (MSB) > E (MSW) = σ2となる。※MSBMSWから算出されるF値を用いて、どのようにtype-I errorを生じずに帰無仮説が棄却されるのかについては、section 15.25を参照

ページトップに戻る


2008/02/29

15.20 Some distribution theory (p. 395-98)
16章では、自由度1のカイ自乗の分散をみるが、式で表すと以下のとおり:
 (X-μ) 2/σ2 = z2〜χ12
X=測定値,μ=正規分布した変量の平均,σ2=分散
XNID (μ,σ2)ijは独立した変量で、正規分布していることを表す。
n個の得点が無作為に抽出されたとき、これらの分散は以下のようになる。
 (X1-μ)2/σ2+(X2-μ)2/σ2+...+(Xn-μ)2/σ2〜χn2
n個のz得点による総和は、自由度nのχ2値はχn2で表され、v = nになる。
X1からXnまで正規分布の独立した測定値であれば、p.396前半部の式によって3通りで表せる。
J = 3, n = 10のとき、平方和はは以下のとおり表わし、χ2値の自由度は9となる。
 SSw = Σ(Xi1-−Xバー1)^2 +Σ(Xi2-−Xバー2)^2 +Σ(Xi3-−Xバー3)^2
■また、3グループから無作為に10件の得点を抽出した場合、自由度はχ9+9+92
 つまりχ272で、以下のように表わされる。
 SSw/σ2〜χ272
■平方和SSwを分散Vwで割ったときの平均平方MSw
SSw/ Vw/σ2〜χvw2/ Vw または MSw/σ2〜χ272/ 27
■くりかえしのある変量からn個の得点を無作為抽出する場合、
正規分布しているのであれば、
XバーNID (μ,σ2/ n)で表わされ、分布は (Xバー-μ) /√σ2/ nでみることができる。
このとき平均が0であれば、分散は1となる。結果として、自由度が1のχ2値は(Xバー-μ)2/σ2/ n = n (Xバー-μ)2/σ2〜χ12
■もし帰無仮説が棄却できない(有意でない)場合は、
 Σn (Xバーj-Xバー)2 /σ2〜χJ-12
→等式 E (Xバー1) = E (Xバー) = E (Xバー3) = E (Xバーj) =μが成り立ち、母集団は同一の平均μをもった観測変量の平均 Xバーjから抽出された標本であることを示す(個数n10,変量は3つ)。
→変量の数(J)を代入することで、以下の等式でχ2値は説明可。
 Σ10 (Xバーj-Xバー)2 / 2σ2= MSB /σ2〜χ22/ 2
■帰無仮説が真である(有意ではない)場合、16. 6 (Section 16.5を参照のこと)の等式から、独立した2つの変量それぞれを自由度で割ることにより、F分布を示す。
[{Σ10 (Xバーj-Xバー)2 / 2σ2 } /ΣΣ(Xバーij-Xバーj)2] / 27σ2F2, 27

■ここでの帰無仮説では、変数
1, 2... Jには統計的な違いはないことを示している。
 SSB/ VB/ SSW/ VWFVB, Vw またはMSB/ MSWFVB, Vw

15. 21 The F-test of the null Hypothesis: Rationale and Procedure (p.398)
■分散分析のための分布理論を説明すると:
・正規分布する母集団から無作為に抽出された3つのサンプル群がある。
F値は F = MSB / MSWで求められる。
・上の公式を無限に繰り返した場合、Fig. 15.4のようなF分布を示す曲線が描かれる。
F比が5%を超える臨界値を計算すると、F値が3.36のとき
■反対に、サンプル群の平均が等しくない (μ1μ2μ3)とき、サンプルはF分布でnon-centralの比率がより多くを占めており、帰無仮説が棄却される。
■仮説が棄却される状況とは、F分布が中央から右裾へ移動しており、F比が大きく推移していることを表わす。例では F2, 27のとき3.37で2つの曲線のF分布から、centralnon-centralでどちらの比率が高いかを比べる。
→比率の高い方が、centralなら帰無仮説を採用/non-centralなら帰無仮説は棄却。
F分布表は、巻末の付録についており、それぞれ5%, 1%水準での臨界値が参照できる。
・参照すべきF分布は、自由度によって示される分子と分母(例:2, 27)によって対応させて確認する。
.95F2, 26= 3.37(サンプル個数が1件減ると、臨界値も微妙に上がる)
■例と同じサンプル抽出法(3群から9件ずつ)で実験をおこない、得られたF分布が6.51だとしたら?
.95F2, 27= 3.37:帰無仮説のとおりの結果が100回のうち5回に満たないことを示す。
.99F2, 27= 5.53:帰無仮説のとおりの結果が100回のうち1回にも満たないことを示す。
→今回得られた
6.51というF値からは、極めて高い見込みで帰無仮説が真ではないことがいえる。
■帰無仮説を棄却するか否かの臨界値を95%とすることは恣意的でもあり、場合によっては90%, 99%,もしくは 99.9%で線引きすることも起こりうる。
・ただし、仮に
50%を臨界値と定めたとすれば、実験で得られた結果から的を射た結論と同時に、誤った結論も同程度に導くことになる。

15.22 Type-I versus Type-II errors:αandβ
■たとえ得られたF分布が高くても、絶対的に帰無仮説が棄却できるとは限らない。
→帰無仮説を棄却した場合、対立仮説が正しくない可能性をどのくらい含めているのか注意すべきである。
.95F2, 27= 3.37をα値と定めた場合、5%の誤りを見越した結果解釈が導かれる。
・一方で .99F2, 27= 5.53まで帰無仮説を真とするのであれば、誤った結論を採択する危険を1%の確率まで抑える。
■以下のFig. 15.5に示すように、解釈の誤りには二種類があって、αの確率が大きすぎたり、小さすぎることが原因とされる。
・場合によっては臨界値を操作する(件数が少ない調査では、基準を10%以上に設定することもありうる)。
■第二種の誤りは、βの確率がサンプル件数に影響して、事実と反する帰無仮説が棄却できない場合のこと。このとき1-βは統計の検定力 (power)を示し、確かめる必要がある。
・検定力が小さいことが原因に考えられ、研究プランで非常に重要な問題である。
→調査コスト(サンプリング、調査にかける時間)を補えば、本来の結果が導かれるかもしれない。

Fig. 15.5

H0 は真である H0 は事実に反する
H0 棄却 帰無仮説が真であるのに、棄却した
(第一種の誤り)
帰無仮説を棄却し、決定に誤りはない
(有意性がある)
H0 採択 帰無仮説は真であり、決定に誤りはない
(有意性がない)
帰無仮説を棄却すべきなのに、採択した
(第二種の誤り)

■α値を.05とした場合、1-βでの換算値は.20,一方でα値を.10にした場合は、換算値が.50となってしまう。
・第一種の誤りを犯す危険を抑えた方が、良識的な結果解釈といえる。

→効果のない処置を、効果的と勧めてしまうことを避ける。
■調査目的によるが、応用研究では第二種の誤りを引き起こす方が深刻な場合もある。
→ある効果的な処置や、弊害と考えられる要因を、見過ごしている危険がある。


Fig. 15.6  →αと1-βの比率を示してある。
基準を.05から.01に引き下げることで、検定力が下がる。

15.23 A summary of procedures for one-factor ANOVA (p. 402)
Jで表わされるグループ間の平均比較をおこなう。それぞれはn個の独立した測定値が含まれている。
・線形モデルでは次のような説明方法が前提にある:
 1.仮説
  帰無仮説(H0):μ1 =μ2 = ... =μj (H0:α1 =α2 = ... =αj)
  対立仮説(H1):Σjαj20 (比べている変量の平均は同じではない)
 2.前提
   εijNID (0,σε2)変量は独立、かつ正規分布していること
 3.検定統計量
   F = MSB / MSW
 4.標本抽出の区分
   帰無仮説が真であるなら、F分布は規定の自由度をもつ中枢の (central) F分布をとる。
 5.臨界値: 1-αFVBVW
   F値がαで定めた基準より高ければ、帰無仮説は棄却され、有意と判断される。

15.24 Consequences of failure to meet the ANOVA assumptions: The “robustness” of ANOVA
■母数効果モデルに由来するため、ANOVAの変量は独立して、正規分布していることが前提にある。
・線形モデルとは、3要素からなる単純な総和 (Xij =μ+αj+εij)から測定される。
  μ:値の上昇が通常とされる測定法
   j:処方や要因からの効果・影響
  ε:個人差や測定誤差、その他
 →たとえば生徒個々の練習効果による変化も考えられる場合、2要因で分析を用いるべき。
ANOVAでの3つの前提に反する場合:
 (1)変量が正規分布していない。
 (2)グループ間で等分散していない。
 (3)変量が独立していない。
■前提に反した場合
・多くの研究で、結果的な前提の脱落を報告しているが、誠実な手続きで正確な結果を提供していることで研究の頑健性を説明している。
・以下の措置をとる。
 1.採択した帰無仮説を提示しつつ、実際に使ったF値の臨界点を求める。
 2.変量の等分散性や正規性を欠いているときは、実際に求めたF分布の有意確率を提示する。
 3.計画されていた有意水準と実際の有意確率を比べたとき、あまり変わりがないとするのであれば、手続きが頑健であると述べる。
t検定での正規性・等分散性の前提に対する頑健性は、ANOVAにも一般化できることが確認されている。
Glass, Peckham, & Sanders (1972)による前提を満たしてないANOVAでの検証。
1.正規分布してないことによる第一種・第二種の誤りを導く可能性は極めて低い。
(ただしサンプルの歪度が高い、観測個数が少ない、片側検定でおこなう場合を除く)
2.個数が同じで等分散していなくても、第一種の誤りを導いたり、検定力を損なう可能性は少ない。
 比較グループが多く、個数が対応している場合、通常より控えめな結果が出る。
 個数が大きく、比較グループが少ない場合、有意性が甘め(?)に出る。
 等分散性を欠くt検定にWelch法があるように、不釣合いな変量同士の比較に使われるANOVAがある(Sec. 15.25)
3.変量の独立性は正確な有意確率を求めるのに必要。変量が独立しているということは、比べている変量が互いに影響していないことだが、指導法の調査でディスカッションやグループ・カウンセリングなどをおこなうと、変量の独立性にも影響する。独立性を欠いた変量を比較すると、第一種の誤りを起こしやすくなる。

15.25 The Welch and Brown-Forsythe modifications of ANOVA: What does one do whenσ2’s and n’s differ?
15.20の公式にあるとおり、Welchの法を応用すれば、母分散が等しくない変量3つ以上でもANOVAを用いることができる。
F値の臨界点は、
 分母がグループの数から1減 (J-1),
 分子は 1/VW = [3 / (J2-1)]Σj [(1-wj/ u)2 / (nj-1)]で求め、F分布表 ((?) Table F)を参照することで分かる。
・どちらかといえば、Brown-Forsytheの修正公式がおすすめ(15.21)
 →グループ数が2の場合、Welcht値とBrown-ForsytheF*値は等しくなる。

15.26 The power of the F-test
■行動科学、社会科学分野の調査では充分な検定力が得られず、本当は違うはずの現象を発見できないことがある。
・研究調査をおこなう以前に、検定力のための効果量を予測することを標準的な手続きにすべき。
■要因ひとつのANOVAF値による検定の検定力(1-β)は、以下のとおりの手続きを踏む:
1.平均の違いの大きさを表わすのに、重みづけられた影響njαj2によって測っている。
 ここで示すαjとは、比べるべき変量jに対する総平均の差のこと (μj-μ)
2.変量Xの平均μと効果αjで測定不能な誤差変量は、要因ひとつのときσW2 =σε2
3.自由度の分子はグループから1引いた数 (vB = J-1)
4.自由度の分母は、要因ひとつであれば総個数から要因の数で引いた値(vW = n.-J)
5.第一種の誤りを導く可能性はαで示す。
■検定力を数値化するため15.22の式でnon-centrality parameter (?)を決定する(φで表記)。
 →個数nが均衡化されたデザインであれば、単純化した15.23の公式を使える。
 →変量の数が2であれば、φは効果量凾ニ個数から求められる(15.24の式)

15.27 An illustration
■ある実験デザインで、40名ずつのグループでテスト得点平均(μ)が、統制群= 90Group 2 = 95, Group 3 = 100のとき検定力を求めると、
・各グループの個数は同じなので、15.23の公式に値を代入φ= 1.72
・個数はそのままでグループが2つの場合、検定力はφ= 2.11
φが一端求められれば、付録のTable Gから1%5%水準での検定力を参照できるようになる(Tableの使い方は以下のとおり)。

1.vBに応じて、該当のfigureをみつける。
2.α値の基準を5%または1%のいずれか選ぶ。
3.p.407の式からφを求める。
4.測定値の総数からグループの数を引いた値(n.-J)を求め、タテ軸に合わせる。そして、1.figureとで交点をみつける。
5.例では、φ
= 1.72, Ve = 117の曲線を参照し、(1-β)の検定力を調べると大体 .65で交差している。この結果からは、第二種の誤りを引き起こす可能性が高い。

15.28 Power whenσis unknown
■多くの研究で、事情によりσを事前に求められないこともある。この場合、標準偏差での平均差を考慮に入れることができる。
→例.統制群group 1が最も低くmean0とした場合、最も効果的と見込まれるgroup 31SD右に、group 2は両群の真ん中0.5SD右にずれて分布した (Fig. 15.7)
・グループ間の個数が異なり、n1n320n240とした場合、15.22の式へ代入し、φ= 1.83と求められる。
Table Gから、分子2,分母77(およその値80を参照)→ 1%水準では .57の見込み。

15.29 A Table for estimating power when J = 2
■検定力のための効果量(1-β)を非常に小さい場合の(.1σ)から大きい場合の(1σ)で示すと、比較するグループ(J)が2グループであれば、Table 15.4で示すようになる。
 →サンプルサイズに応じて、検定力は高まる。

15.30 The non-parametric alternative: The Kruskal-Wallis test
■クラスカル・ウォリスの検定ではサンプリング・エラーによる結果の違いも比較できる。
 →サンプルの正規性が仮定されないときに用いる。
ANOVAで分析したとき、変数間の個数nにあまりにも違いがありすぎるとき。
・クラスカル・ウォリスの検定は順列でone-way ANOVAような比較をおこなう。
 →大抵は、2つの検定結果で大きな変化はない。
Welch法やBrown-Forsytheが使え、検定力の高さやANOVA自体の頑健性から、クラスカル・ウォリスの検定は極端に外れ値が出ない限り、ほとんど用いられていない。
■ほかにも、分布の中央付近での違いを確かめるものに、χ自乗中央値検定があるが、クラスカル・ウォリスの検定ほどには検定力が高くない。

ディスカッション&コメント
・ Fig. 15.5に関して、αは、第1種の誤りを犯す確率のことで、自分の立てた仮説(H1)が正しくないのに、正しいと結論付けてしまう確率。βは、第2種の誤りを犯す確立のことで、仮説が正しいのに(帰無仮説が棄却されるべきなのに)、正しくないとする誤りを犯す確率のこと。
・ 保守的になりすぎて、この第2種の誤り(Type II error)の方が深刻な場合もあるので、この誤りを犯さない確率(検定力:1−β)を調べてみることも大切。例えば、検定力が.80とでれば、100回この仮説検証を100回して、80回はこの種の誤りを犯さないで検出できることを意味する。この検定力は、サンプル数を増やすと上がるので、どれぐらいサンプル数を増やすべきか検討をつけることができる。
・ どちらの誤りも犯さないように結論を導くためには、有意水準(significance criterion),検出力(power)、効果量 (effect size)、標本数 (sample size)の4つのパラメータ(Cohen, 1988)を考慮して判断することが望ましい。
・ 付録のTable G(power:1−β)の読み方が難しかった。 
                                                               (平井、鳴海)


ページトップに戻る


2008/03/14

Chapter 16 Inferences about variances

<読み替え> 乗数の左隣には ^ を,記号の右に現れる下付き文字の左隣には # を表記してある。

16.1 Introduction
■ 研究者は平均や割合や相関係数に興味があることが多いが、questions of variability(変容性)に興味があることもある。これをカイ二乗分布で見てみる。
(例)男子の方が数学の熟達度テストにおける個人差が女子よりも大きい

16.2 Chi-square distributions
■ 母集団が正規分布していて標準化されたz-scoreを持つ集団だと仮定してみる。この標準化された値が二乗され(z#i ^2)、χ#i ^2で (?) ランダムに選ばれたとする。このとき、χ#i ^2 = z#i ^2になる。これをほぼ無限に繰り返したときのグラフがp. 423のFigure 16.1である(自由度が1)。
■ z分布やt分布と同様に、カーブの下の部分を合計すると1になる。χ#i ^2が1より大きいのは32%分である。逆に言うと、パーセンタイル順位が68位の場合、χ#i ^2が1になる。パーセンタイル順位が95位になるのはχ#i ^2が3.84のときになる。

16.3 Chi-square distributions with ν > 1: χ#2 ^2 and χ#3 ^2
■ 自由度が2のときというのは、1つのz得点を選ぶのでなく、2つの得点を元の正規分布したz得点からランダムに取り出すときである(χ#2 ^2 = z#1 ^2+ z#3 ^2)これが何度も繰り返されるとp. 424のFigure 16.2のようなグラフになる。

16.4 The chi-square distribution with ν degrees of freedom, χ#ν ^2
■ 自由度がνのときは、ν個のz得点の二乗を足したものがχ^2の値になる。カイ二乗分布は自由度によって形が異なる(Figure 16.3)。カイ二乗分布の特徴は以下の通り。
(a) 自由度がνのときのカイ二乗分布の平均はνになる。例えば、自由度が12のときのカイ二乗分布の平均は12。
(b) 自由度がνのときのカイ二乗分布の最頻値は、νが2以上であればν-2の値。
(c) 自由度がνのときのカイ二乗分布の中央値は、νが2以上であれば大体 (3ν-2)/3 。
(d) 自由度がνのときのカイ二乗分布の分散は2ν。
(e) 自由度がνのときのカイ二乗分布の歪度は√2/v。カイ二乗分布は全てpositively skewedだが、自由度が上がるにつれて左右対称に近くなる。
(f) 自由度がとても大きくなると、カイ二乗分布は正規分布に近づく(平均がνでSDが√2ν)

16.5 Inferences about the population variance: H#0 = σ^2 = K
(a) 検証される帰無仮説は、母集団の分散がKと同じであるということ。
(b) 前提は、変数Xが正規分布をしていてランダムにnが取り出されているということ。
(c) 帰無仮説を検証する式は式16.4の通り。
(d) 帰無仮説が採択されれば、サンプルの分布はカイ二乗分布と同じであることになる。
(e) 棄却域はα/2と1- (α/2)のパーセンタイル順位。
(f) 1-αの信頼区間は式16.5の通り。

16.6 F-distributions
■ 2つのものの分散が異なるかどうかを調べるときに、F分布を知っておくことは有効である(なぜなら帰無仮説がH#0 : σ#1 ^2 = σ#2 ^2 だから。)。
■ 自由度が10のときと自由度が5のときを考えてみる(例:自由度が5のとき、カイ二乗値はランダムにとった5つの独立した値の二乗の総計)。この2つのカイ二乗の値の比はF比になる(式16.6の通り)。

16.7 Inferences about two independent variances: H#0 :σ#1 ^2 = σ#2 ^2
(a) 二つの分散が同じであるという仮説を検証するほうが、母集団がある値と同じ分散を持つ、という仮説の検証よりも一般的である。2つの分散が同じであるという帰無仮説を検証したいとする。
(b) n#1 個のサンプルがランダムに取り出されてきたとする。また、n#2 個のサンプルが取り出されてきたとする。それぞれのサンプルの母集団の平均値は、帰無仮説とは無関係である。
(c) これを検証するにはF比を用いる。
(d) 帰無仮説が採択されるとき、F値はν#1 = n#1 -1とν#2 = n#2 -1のF分布である。
対立仮説が採択されるとき、s#1 ^2/s#2 ^2はσ#1 ^2/σ#2 ^2とν#1 = n#1 -1とν#2 = n#2 -1のF分布をかけたものである。
(e) 棄却域はp. 430の式に示されるとおり。
(f) 信頼区間は式16.9に示されるとおり。

16.8 Testing homogeneity of variance: Hartley's F#max test
■ 等分散性を検証するテストは幾つかある。Hartley's F#max testはとても簡単である(但しグループ間のサンプルサイズが同じときに使用する)。帰無仮説は、それぞれのグループの母集団の分散は等しい、というものである。
■ F#max = s^2#largest / s^2#smallest であり、AppendixのTable Hに棄却域が掲載されている。グループが3つ以上の時には、信頼区間はあまり意味がない。

16.9 Testing homogeneity of variance from J independent samples: The Bartlett test
■ Bartlettの検定はログを使う必要がある。Bartlettの検定は、グループ間で人数が異なる場合でも使用できる。
■ 帰無仮説はそれぞれのグループの母集団の分散は等しい、というものである。カイ二乗検定を用いて検定を行う(p. 434の16.11式)。グループが3つ以上の時には信頼区間はあまり意味がない。

16.10 Other tests of homogeneity of variance: The Levene and Brown-Forsythe tests
■ Leveneの検定はANOVAと同様で、観測値が平均からどれくらい離れているかということである。Leveneのテストは正規分布の前提に頑健だと考えられてきたためよく使用されてきたが、実際は頑健ではない。Leveneの検定は、デザインがbalancedなときのみに正確になる。
■ 同様のものにBrown & Forsytheが確立したものがある。これはLeveneの検定と同様だが、平均の代わりに中央値からの逸脱を用いる。母集団が尖度や歪度の点で正規分布から逸脱していても、正確な値を算出できることが示されている。
■ しかし、サンプル数がグループ間で異なると、Leveneのテストと同様の問題が起こる(。そのようなときには、グループ数が2の場合にはWelch t'を用い、グループ数が2以上の場合にはWelch F'かBrown-Forsythe F*を用いるといい。サンプル数がグループ間であまり変わらないときには、サンプル数が等しくなるまでランダムにサンプルを抜いていって、Brown-Forsythe testを行うと良い。歪度が正であればBrown-Forsytheを用い、分布が正規分布からあまり逸脱していないようであれば、Bartlettの検定を用いるのが良いであろう。

*SPSSではLeveneがデフォルトで現れると思うが、Brown-Forsytheも出せるのだろうか?

16.11 Inferences about H#0 :σ#1 ^2 = σ#2 ^2 with paired observations
■ 帰無仮説はH#0 :σ#1 ^2 = σ#2 ^2 である。正規分布であることが前提。検定の式はp. 437の16.12式。

16.12 Relationships among the normal t, χ^2, and F-distributions
■ t分布, χ^2分布, F分布は正規分布に由来している。
■ 自由度が無限大の際のt分布は正規分布である。tの二乗がFになる(tとFが同じ自由度のとき)。また、F分布とχ^2の関係は、χ^2を自由度で割ったものがFになるというものである。
                                                                          (森本)

ディスカッション&コメント
・Leveneの検定など、正規性に対して頑健であると思われている検定法でも、今回のようにそうではないこともあるので、当然のことではあるが、検定を行う前にしっかりと正規性を吟味したい。
・グループが3つ以上の時の信頼区間にはなぜ意味が無いのかについて個人的には興味がある。        (今野)

ページトップに戻る


2008/04/07

Chapter 17 Multiple Comparisons and Trend Analysis

<読み替え> 乗数の左隣には ^ を,記号の右に現れる下付き文字の左隣には# を表記してある。

17.1 Introduction
■ F検定はJ個全てのグループの平均が等しい、という仮説の検証である。Jが3以上の場合に帰無仮説が棄却された場合は、「全てのJの母集団の平均が等しいわけではない」ということになるため、全てのグループ間で有意差があると言うわけではない。このような場合に多重比較が用いられる。
■ 多重比較が用いられるようになる前はt検定が用いられていた。しかし、t検定はいくつのグループがあるかを考慮していない。グループ数が3以上の場合、Type I errorは.05よりも大きくなる。
■ 多重比較にはいろいろな種類があるが、この章ではよく使用される7つを紹介する。

17.2 Testing all pairs of means: The studentized range statistic, q
■ 多重比較を用いる典型的な状況は、それぞれの平均値を他の全ての平均値と比較したい場合である。そのペアの数は、C = J (J-1) /2になる(グループ数が12の時には66ペアが出来る)。このような全てのペアにおいて比較するときには、studentized range statistic, qを用いる。いくつかの多重比較の方法はこれを用いている。t検定を繰り返すのとは違い、qはグループ数を考慮に入れている。
■ qは2つの平均値の差を、平均の標準誤差で割ったものである(qの棄却値はAppendixのTable Iにある)。

17.3 The Tukey method of multiple comparisons
■ Tukeyの方法は、まず最も平均値が異なるペアを比較することから始める。AppendixのTable Iから、平均値の数、自由度、αを読み取る。ここでもし、最も平均値が異なるペアが有意でなかったら、その他のペアの比較は不必要であろう。もし有意であれば、2番目に平均値の差が大きいペアについて行う。
■ サンプルサイズが同じ場合には、Tukeyの方法は手計算でも可能になる。これは、帰無仮説を棄却できる最小の差を探すことによって行われ、honest significant difference (HSD)と呼ばれる。

17.4 The effect size or mean differences
■ 効果量はp. 449の17.6式で求められる。効果量は平均値間の差の程度を表すものである。

17.5 The basis for Type-I error rate: contrast versus family
■ 多重比較では、Type-I errorをそれぞれに定めるか(contrast-based)、それとも1つのαとして定めるか(family-based)という選択がある。本章で紹介する7つの多重比較のうち、5つはαを1つに定め、2つは個々にαを定める。先ほど紹介したTukeyは、1つにαを定めるものである。
■ この2つのどちらがよいかについては意見が分かれている。個々にαを定める方が検定力が高いが、Type-I errorの危険が大きくなる。1つのαを定めると、Type-I errorは少なくなるが、Type-II errorをおかしやすくなる。著者たちは、個々にαを定める方を推奨している。

17.6 The Newman-Keuls method
■ Newman-Keuls (NK) methodはTukeyととても似ているが、NK methodは個々にαを定めている。
■ 最初の段階はTukeyと同じで、最も平均値の差が大きいペアについて調べる。ここで有意差が無ければ、全ての帰無仮説は支持される。もし帰無仮説が棄却されれば、次の比較が行われる。この際にqの棄却値は、r = J-1を基準に行われる(つまりグループ数を1つ減らして行うような形になる)。ここでも帰無仮説が棄却されれば、J-2, J-3というように検定が続けられていく。

17.7 The Tukey and Newman-Keuls methods compared
■ TukeyとNewman-Keulsの違いは、αの違いである。最初の段階の検定以外は、NKの方がより検定力を持つ(最初の段階での検定力は等しい)。

17.8 The definition of a contrast
■ contrast-basedとfamily-basedのtype I errorを区別するために、contrastの定義、simple contrastとcomplex contrastの区別、そしてplannedとpost-hoc contrastの意味を知っておく必要がある。contrastとは2つのsubsetの平均値の、平均の差である(the mean difference between two subsets of means)。TukeyやNK法の場合にはそれぞれのsubsetに平均が1つしかないかもしれないが、3つ以上の平均がある場合がある。

17.9 Simple versus complex contrast
■ 2つの平均値の差はsimple contrast(もしくはpairwise contrast)である。J = 2の時にはcontrastは1つのみだが、J = 3の場合には3つのcontrastがある。帰無仮説は、全てのcontrastが0である、というものである。この帰無仮説をt検定などで調べることができる。
■ complex contrastは3つ以上の平均値を含むものである。implicitな帰無仮説は、帰無仮説は、μ#3がμ#1とμ#2の平均値と等しい、というものである。

17.10 The standard error of a contrast
■ これ以後扱う多重比較はt ratioを使用する検定である。つまり、contrastの推定値と推定された標準誤差の比である。contrastの標準誤差は式17.8で算出される。

17.11 The t-ration for a contrast
■ contrastのt ratioは、推定されたcontrastとその標準誤差の比である。t ratioが統計的に有意かどうかは、使用する多重比較の方法による。多重比較は、それぞれ異なる制限を持つため、棄却値が異なる。この際、plannedかpost hocか、という比較が重要になる。

17.12 Planned versus post hoc comparisons
■ 多重比較の方法間で区別をする際には、plannedかpost hocか、という対比が重要である。plannedでは、データを集める前に仮説が検証されなければならない。比較的小さなsubsetの際には、plannedのほうがpost hocよりも検定力が強い。plannedの理論的根拠は、one-tailed t testと似ている。
■ post hocの多重比較は特別なspecificationなどは必要としない。TukeyやNK法はpost hocである。

17.13 Dunn (Bonferroni) method of multiple comparisons
■ Dunnはtの棄却値を定めるためにBonferroni inequalityを使用した(全体のαは、それぞれのαを足したもの以下というもの)。例えば、α = .01で5回検定を行った場合、そのType I errorは.05以下であるというものである。この場合、plannedの検定でなければならない。
■ この方法はとてもflexibleで、simple, complexなcontrastをいくつでも使用できる。

17.14 Dunnett method of multiple comparisons
■ Dunnettの方法は、1つの平均をJ-1個の平均と比較するとき用のものである。従って、J-1個のペアがあると仮定している(統制群をそれ以外の実験群とそれぞれ比較するような場合)。DunnはDunnettよりもやや検定力が低い。

17.15 Scheffe method of multiple comparisons
■ Scheffeは最もよく使用される多重比較法であり、とてもflexibleなpost hocな方法である。これはfamily of contrastに全てのsimple & complex contrastを含めるものであるため、tの棄却値が他の多重比較法よりも大きい(特にグループ数が多い場合)。グループ数が多いのであれば、TukeyかNK法が良いであろう。

17.16 Planned orthogonal contrast
■ planned orthogonal contrast (POC) は、平均値の差についての最も検定力があるテストである。サンプル数が同じグループのデザインであれば、2つのcontrastは、contrast coefficientsの総計が0の場合には直交している。POCでは、全てのcontrastが直交していることが条件となる。

17.17 Confidence intervals for contrast
■ Tukeyでの信頼区間は17.14式のように表される。また、様々な多重比較での信頼区間の効果量はFigure 17.1で示されている。

17.18 Relative power of multiple comparison techniques
■ 多重比較での優位になる平均値の差は、方法によって異なる。
(a) POCは最も小さい値で有意になる
(b) NKとPOCは、隣接したorderedな平均であれば、同じ値で有意になる
(c) TukeyとNKの最初の比較は同じである
(d) plannedであれば、TukeyはDunnよりやや検定力が高い
(e) DunnはDunnettよりもやや棄却値が高い
(f) Scheffeは最も高い棄却値を必要とする

17.19 Trend analysis
■ trend analysisはplanned orthogonal comparisonと類似しているが、通常は要因にJ個の連続したレベルを仮定するときに使用される(年齢、学年、IQなど)。Trend analysisでは、独立変数XとYの間に直線の、もしくは非直線の関係があるのかを調べることが出来る。もし非直線であれば、最も当てはまりが良い回帰の線を示すことができる(Figure 17.2)。
■ trend analysisでは相関比(η^2)を用いて曲線的な回帰からの説明率を調べることができる(i.e. r^2は直線からの回帰のみ)。

17.20 Significance of trend components
■ p. 465のTable 17.5では、quadraticの部分のみが有意になっている(だからなんなのか、ということまでは読み取れませんでした…)

17.21 Relation of trends to correlation coefficients
■ 直線のtrendとピアソンの相関係数には平行的な関係がある。

17.22 Assumptions of MC methods
■ 本章で扱った全ての多重比較は、t検定やANOVAと同じ前提がある(正規性、等分散性、独立性)。多重比較は正規性には頑健だが、等分散性については頑健とはいえない。従って、サンプルサイズが等しい場合でも等分散性については確認しておくことが必要である。等分散性が満たされない場合には、Welch quasi-t'やBrown-Forsythe testが使用できるし、またBonferroniの修正も行える。

17.23 Multiple comparisons among other statistics
■ Marascuilo (1966) はlarge sample methodにおいて、式17.7よりも一般的な式を定義した(式17.21)。

p. 470に、どの多重比較を用いればよいか、というフローチャートが掲載されている
                                                                           (森本)

ディスカッション&コメント
・多重比較法の種類によって平均値の有意差がどのように異なるのかを学ぶことが出来たが、自身の研究の目的やデザイン、データに応じて使い分けていく必要性を改めて感じた。
・個人的にはplannedとpost hocの使い分けなど、不明確な点が多かったので、今後の課題としたい。

ページトップに戻る

2008/04/18

Chapter 18: Two- and Three-Factor ANOVA: An Introduction to Factorial Designs
Glass, G. V., & Hopkins, K. D., (1996). Statistical methods in education and psychology. Boston, MA: Allyn & Bacon.

<読み替え> 乗数の左隣には ^ を,記号の右に現れる下付き文字の左隣には# を表記してある。

18.1 Introduction
■二元配置分散分析で検証される仮説は3つ
1. Whether the J means of factor A are equal in the population
2. Whether the K means of factor B are equal in the population
3. Are there certain combinations of the two factors that produce different effects from what would be expected from the two factors considered separately?
■1,2はそれぞれの要因を別個に扱うmain effectであり、一元配置分散分析における仮説と同じ。3点目の仮説が二元配置分散分析で重要となる要因Aと要因Bの「交互作用 (interaction)」に関するものである。この交互作用は2つの要因が単独で作用するのか、それとも2つの要因が相互に影響し合うのかを検証している。
■二元配置分散分析は複数の要因を扱うmultiple-factor ANOVAでは最もシンプルなデザインであり、要因の数が多くなるとより複雑なデザインとなる。

18.2 The meaning of interaction
■treatmentの影響の有無に加え、どのような対象に影響があり、どのような対象には影響がないのかを検証する際に用いられる (e.g., Is the new method more effective for high- than for low-ability students?)。もしそれぞれの対象に対する影響に違いがある場合にはinteractionがあるといえる。

Interaction examples
・異なる国籍の学生のtest-wisenessが2種類の質問形式でどのように異なるかを検証
・単語学習において、社会経済的に低い家庭と中流家庭の学生が直後強化と遅延強化学習を実施することによりどのような違いを見せるかを検証 (Figure 18.1)
・教員の民族と生徒の民族の違いがadaptive behaviorに及ぼす影響を検証 (Figure 18.2)

18.3 Interaction and generalizability: Factors do not interact
■absence of interactionがgeneralizabilityの正当性を示す。これは2要因に交互作用がないということが一つの要因がもう一方の要因の全てのレベルにおいて一定の影響を及ぼしていることを示すからである。
■もし平均的なIQの学習者を対象として複数の教授法の効果を比較した場合、その結果がlow-IQやhigh-IQの学習者にも一般化できるかはt-testやone-way ANOVAからでは検証できない。そこでFigure 18.3に示されるように複数のIQレベルで比較することにより一般化が可能となるのである。

18.4 Interaction and generalizability: Factors interact
■Figure 18.4にある例のような場合、t-testやone-way ANOVAを使用すると、treatmentに有意差が出ないかもしれない。しかし、この例は異なる能力の学習者に対し、treatmentの影響が異なることを示している。
■interaction null hypothesisは「要因Aの影響は要因Bから独立している」つまり、「要因Aは要因Bの全てのレベルにおいて一定の水準を保っている」である。A×B interactionが有意ではない場合には、要因Bの全水準において要因Aの影響が一般化できることを示す。

18.5 Interpreting main effects when interaction is present
■treatment factorをExperimentalとControlの2水準仮定する場合、帰無仮説は「EとCの平均値に差がない」となる。Figure 18.5に示されるような結果の場合、全体の平均値に有意差があるという結果となる。しかし、genderを要因として入れると、EとCに差があるのは女性のみであり、男性においてはEとCに差がないことが分かる。つまり、teatment-by-gnederデザインを用いることにより、交互作用があることが示され、treatmentの影響はsex-linked traitであることが分かるのである。

18.6 Statistical significance and interaction
■交互作用についての統計的有意差はF-testから解釈される。表18.1 (Figure 18.4) のデザインでは3つの仮説が検証されている。帰無仮説1と2は主効果、帰無仮説3は交互作用についての仮説である。

18.7 Data layout and notation
■<例> 3つの指導法 (factor A) と生徒の性別 (factor B) を要因とした例を見る。3×2水準であるため、6通りの組み合わせが想定される。この6通りの組み合わせが読解 (observation X) に及ぼす影響を検証する。

Notation
■2要因あるため、それぞれのセルの平均値の表記には2つの下付き数値が必要となる (―Xバー #jk)
■行や列全体の平均値を示すときは集団 (aggregation) を示すドットを加える (例: ―Xバー#1 ・)
全体の平均値は ―Xバー・・ となる。これは全てのn・・ 個の観測データに基づく。
■一般的に二要因の分散分析の観測値はX#ijk で示される。jは要因A、kは要因B、iは各セルに含まれる観測値の通し番号。

18.8 A model for the data
■二元配置分散分析では2つの要因の主効果が扱われる:α#j (effect of the jth level of factor A: α#j = μ#j . - μ) とβ#k (effect of the kth level of factor B: β#k = μ.#k - μ)。18.1に示されるような公式が成り立つ。
■より便利で広範囲に適用可能なモデルは少し複雑になっている:公式18.2
18.9 Least-squares estimation of the model ※良く分かりませんでした
■least squaresの基準は: (a) 値が18.2の公式に当てはまること、(b) X#ijk を含めこれらの数値がestimated values for nJK errorsを規定する、(c) sum of squared errorsが最小である場合にleast-squaresが推定するμ、α#j 、β#k とαβ#jk 、が算出される場合。
※least-squared method: 実測値と予測値の差の2乗和が最小になる値を求める方法。
■sum of squared errorsの最小値は、表18.2に示されている12パラメータの公式に当てはめることにより算出される。

18.10 Statement of null hypotheses
■二元配置分散分析では要因Aに関する帰無仮説は次のように示される
H#01 : μ#1 . = μ#2 . = … = μ#j .
■μ#j . がμと等しい場合、μ#j . - μ= 0 となる。帰無仮説が成り立つ場合、α#j はμ#j . - μと等しことから、全てのα#j が0となる。(要因Aについての帰無仮説はp. 495の式にまとめられている。)
■要因Bの帰無仮説も、要因Aと同じ。
■二要因の場合、主効果についての帰無仮説が棄却される組み合わせが複数考えられる。
■帰無仮説が棄却された場合、別の仮説H#1 が成り立つ。p. 496. この仮説は帰無仮説が棄却された場合にのみ成り立つものであるため、帰無仮説の棄却によって自動的に支持される。
■二元配置分散分析において主効果のほかにもう一つの仮説、交互作用についての仮説が残る。結果をグラフに示したときに、2つの線が平行に描かれない場合、交互作用があることが考えらえる。
■交互作用の帰無仮説H#0 と、逆の仮説H#1 には複数の述べ方がある (⇒ Table 18.3)

18.11 Sums of squares in the two-factor ANOVA
■一元配置分散分析と同様に、二元配置分散分析でもsum of squares, degrees of freedom, mean squares, expected mean squares and F-ratioを使用する。
■二元配置分散分析では: (1) variation resulting from difference among the J means for factor A, (2) variation resulting from difference among the K means for factor B, (3) variation due to the interaction of A and B, (4) variation of the observations #within cellsの4つのvariation sourcesがある。

Total sum of squares
■各値と、全体の平均値との差を合計したもの (18.4)
Sum of squares for factor A
■nKにα#j のsum of the squared least-squares estimatesを掛けた値 (18.5)
Sum of squares for factor B
■nJ = n.#k とβ#k のsum of the squared least-squares estimatesを掛けた値 (18.6)
Sum of squares for the A × B interaction
■公式18.7
Sum of squares #within cells
■SS#w で示される (18.8)
■SS#total = SS#A + SS#B + SS#AB +SS#w なので、18.9の等式を用いるほうが容易である。
18.12 Degrees of freedom
■二元配置分散分析のそれぞれのSSは自由度で割ることによりmean squareに変換する事ができる。SSの自由度は、SSからnumber of independent linear restrictions placed on these estimatesをひいた数値から成るleast-squares estimatesの数である。
■自由度は

SS#A J - 1
SS#B K - 1
SS#AB (J - 1)(K - 1)
SS#W JK (n - 1)

18.13 Mean squares
■MSは自由度 (v) に対するSSの割合: MS = SS / v

MS#A SS#A / (J - 1)
MS#B SS#A / (J - 1)
MS#AB SS#AB / (J - 1)(K - 1)
MS#W SS#W / JK (n - 1)

18.14 Illustration of computation for the two-factor ANOVA
■この節では、実際にデータ例を元にしてSSやMSを計算している。素点はTスコアに換算された。
Sums of Squares
■ステップ1で要因Aの各水準のeffectが二乗され、その合計にデータ数が掛けられSS#A が算出された。ステップ2でSS#B を同様に算出し、ステップ3でSS#AB が計算された。
Degree of freedom and Mean Squares
■各SSが自由度で割られMSが計算された。結果はTable 18.4に示されている。
F-tests
■二つの主効果についての帰無仮説と、交互作用についての一つの仮説が支持される場合、4つのMS-valueの期待値はσ^2と等しくなる。もし帰無仮説が棄却されるのであれば、MS-valueは高くなり、F-ratioの値も高くなる。このF-ratioによって帰無仮説が支持されるかどうかが決定される。
                                                                        (中川)

ディスカッション&コメント

ページトップに戻る


2008/05/09

Chapter 18, pp. 503-524

<読み替え> 乗数の左隣には ^ を,記号の右に現れる下付き文字の左隣には# を表記してある。

18.15 Expected Values of Mean Squares (p. 503-6)
■2要因の分散分析の計算処理の説明をおこない、その目的やF分布テストの理論的根拠を明らかにする。1要因の分散分析では、平均平方がどのくらい3つの帰無仮説の真を示すかによって期待値が明らかとなる。

E (MS#w)
■平均平方wの期待値は、抽出された分布の平均からみられる。2要因の分散分析デザインであれば、母集団からの標本によって得られた分散で観測され、どの抽出セルからも同等の分散σ^2 が得られる。
→同じ母集団からn個抽出したセルJ, K の分散をσ^2 と仮定した場合、MS#wは式18.12のとおりとなる。
→均整化したデザインであれば、式18.13のとおり。

■期待値としてのMS#w つまりE (MS#w)は、パラメターの誤差推定がないと仮定し、 σ#ε^2 (または単純にσ^2) で表わされる。独立した2要因のデザイン(Table 18.4)では、MS#wが73.325(母集団から同じタイプの学校同士から抽出したときの平均平方)と算出される。この値が平均より高いか低いか明らかではないが、誤差がないものとされる。

E (MS#A)
■単一の実験からは MS#A が計算され、期待値は方程式18.15より求められる。MS#wと異なり、単一というよりは混成した変数である。
→nK = n#j., σ^2 =σ#ε^2 は公式18.3 A-B (?)の中の誤差項の分散であり、MS#wによって求められる。
→α#jはj個のレベルをもつ要因Aの主効果を表わし、α#j = μ#j. - μのとき、
σ#α^2 = Σ#j α#j2 / (J-1) となる。

■Table 18.4の場合で σ#ε^2 の真の値は75、μ#1.=50, μ#2.= 54のときμ= 1/2*(50+54)、
J =2、n = 32なので、代入すると E (MS#A) = 843 となる。
→実際の計算ではE (MS#A)を求めることは不可能であり、重要なのはE (MS#A)で表わされるものが、帰無仮説を採択/棄却するかに関係しているということ。

帰無仮説が真であるということは、α#1 = α#2 = ... ということから、
E (MSA) = σ#ε^2 + nKσ#α^2 = σ#ε^2 + nK (0) =σ#ε^2 という関係が成立つ。

帰無仮説が誤りであるということは、σ#α^2 > 0 であり
E (MS#A) = σ#ε^2 + nKσ#α^2 > σ#ε^2

E (MS#B)
■MS#Bの期待値は18.16の式のとおりである(グループ数JがKに置き換わる)
■要因Bの主効果についての帰無仮説が真であるとき、H#0: Σ#kβ#k^2 = 0
E (MS#B) = σ#ε^2 + nJσ#β^2 = σ#ε^2 + nJ (0) =σ#ε^2 という関係が成立つ。
→逆に帰無仮説を棄却するのであれば、MS#BがMS#w よりも大きいはず。


E (MS#AB)
■MS#ABの期待値は18.17の式のとおり。
要因A、Bの交互作用に対する帰無仮説は、H#0: Σ#jΣ#k ( αβ#jk )2 = 0 で表わされ、MS#ABはσ#ε^2 と同等。帰無仮説を棄却するなら、MS#ABはσ#ε^2 よりも大きい。

18.16 The Distribution of the Mean Squares (p. 506-9)
■18.4のよう2要因のデザインで、2 x 3 = 6セルにそれぞれ32ずつ(計192)の抽出で、これは反復実験 (replication of the experiment) の観測と呼ばれる。
→追試をおこなうことで、2回、3回…と、異なる平均平方を採ることができる。
→では、無限の追試によって得られる平均平方の標本分布とは、どのようになるのか?
■問いを明らかにする前に、18.2の方程式モデルが仮定されなくてはならない。
→JKセルを抽出した母集団は同じと仮定し、分散が同じであること。
→母集団が正規分布を仮定していること。

The Distribution of MS#w
■正規性の仮定を満たすのであれば、あらゆるセルに属すn個の観測は、正規分布したμ#jk から無作為に抽出されたものであり、セルの分散 (S# jk^2) も誤差を含まない (σ^2 = σ#ε^2) ことが前提となる。
→ S# jk^2 /σ#ε^2 はn-1を分母とするカイ自乗分布とも等しくなる。
(要因JKによって求められる分散も同様)

The Distribution of MS#A
■MS#A の分布は、帰無仮説が真であるとき、
MS#A /σ#ε^2 〜 Χ#j-1^2 / J-1 が成り立つ。
■帰無仮説が棄却されるとき、MS#A /σ#ε^2は非心 (non-centered) カイ自乗分布と呼ばれ、数理曲線が平均の高い(右方向への)分布を示す(Figure 18.9)。

The Distribution of MS#B
■MS#B の分布も、MS#Aと同様、帰無仮説が真であるとき、
MS#B /σ#ε^2 〜 Χ#k-1^2 / K-1 が成り立つ。

The Distribution of MS#B
■帰無仮説が真 (H#0: Σ#kΣ#j αβ#jk^2 = 0) で、要因A、Bの交互作用がない場合、
MS#AB /σ#ε^2 〜 Χ#(J-1)(K-1)^2 / (J-1)(K-1) が成り立つ。
→帰無仮説が棄却される場合、MS#AB /σ#ε^2は非心カイ自乗分布となる。
■主な結果で集約するにあたり、Section 16.6で紹介したとおり、それぞれの自由度を分母としたF分布を求める。

■帰無仮説が真のとき、MS#wに対するMS#Aの比率は、自由度 J-1と JK (n-1) によるF分布をとる。そこで、2要因の反復実験ではFigure 18.10 の左側に示されるような「典型的」な観測となり、右方向への逸脱は90-99パーセンタイルの分布まで現れない。
一方、帰無仮説が棄却される場合、MSAはMSwより大きいと予測され、典型的なF分布の曲線を描かない(99パーセンタイルの分布を超える)。
■要因BまたはA、Bの交互作用についての帰無仮説が棄却されるということは、平均平方の分布がF分布の右方向へ位置する。また、ここで注目すべきこととして、非心F分布で臨界F値(タテの点線)がPower(第2種の誤りを犯さない確率)を示している。


18.17 Hypothesis Test of the Null Hypotheses (p. 509-13)
■ここでは、平均平方から求められる3つの比率(F比と呼ばれる)について扱う。
  F#A = MS#A / MS#w,F#B = MS#B / MS#w,F#AB = MS#AB / MS#w,
■ここでのF検定も、1要因の分散分析に従う。
 ・まず、帰無仮説の棄却域となるα値の水準を定める。
 ・危険域はJ-1, JK(n-1) のF分布で100 (1-α) パーセンタイルを超える全ての数を含む
 ・F#A = MS#A / MS#wの値が危険値#1-αF# j-1, #JK (n-1)の値を超える場合、帰無仮説は棄却され、それより小さければ採択する。
例)Table 18.4の実験では、2 x 3のデザインで個数192
 要因A:
→自由度は1, 186
  →棄却域を5% (第1種の誤りは20回に1回伴う)
  → #.95F#1, #186 〜 3.92 のとき帰無仮説は棄却と定める。
  →F#A = 4.954と算出され、基準値より高かったため、帰無仮説は棄却。
  →X#1とX#2の平均は5%水準で有意に異なっていると結論。
 要因B:
  →棄却域は #.95F#2, #186 〜 #.95F#2, #120 〜 3.07
(F分布表に対応する自由度がないから便宜的に n = 120で)
→F#B = 7.711で帰無仮説は棄却され、さらに #.999F#2, #186 〜 7.32からも上回るため、0.1%水準で有意(帰無仮説が真となる確率は1/1000未満)
■Figure 18.12によって平均X#jkの相互作用を調べている。結論を確定するためには、要因A、Bの主効果をF検定したように調べる必要がある。
 ・交互作用していない(帰無仮説が真である)なら、F#ABは決められた自由度で(非心ではない)F分布をしているはず。
  →F#AB = 21.980 / 73.325 = .300で臨界値 (= 3.07) を下回るため、交互作用していないことが確認される。
■Fig 18.12のMean Plotより、Figure 18.13のハコヒゲ・グラフの方が、みたい実態を良く示している(私立学校の上位群でnegative skewnessしている、とか)。

18.18 Determining Power in Factorial Designs (p. 513)
■Section 15.26〜29の1要因による分散分析と、均整されている複数要因のデザインでは、検定力の算出はよく似ている。
・定義して用いられる統計値 (nK, J, α#j, σ#ε^2) は変わらない。
例)4 (年齢層) x 3 (不安解消) のデザイン、各セルに個数12ずつ
・18.18Bを代入し、 φ#β= 1.414
 ・vB = 2 から、付録のTable Gに基づきv#e = 132
 ・予測される検定力は .56

18.19 Multiple Comparisons in Factrial ANOVA Designs (p. 514-15)
■1つの要因に2段階しかないのであれば、多重比較 (MC) は余分な作業である。一方、要因の主効果の中に3つ以上のレベルが含まれるときは、どのペアで異なる母集団からの標本による平均(有意差がある)といえるのかMCをおこなう必要がある。
■Chapter 17の固定要因によるMCの手順で論理的に説明できる。唯一の違いは周縁平均(marginal mean)を用い、比べている平均には観測数も考慮されていること。
■Table 18.4の例では要因Aは2レベルなので不要。要因Bは3レベルで順列による区分なのでトレンド分析(Section 17.19)が好ましい。
 ・要因Bの対照に含む平均の定義は前章で (式17.7, Sec 17.8)
 ・対照でみられる標準誤差は 17.8Aの式とSection 17.10
 ・t値の臨界値を定める自由度はv#e = 186
 ・トレンド分析でのcontrast coefficient は付録のTable Nから求められる。
→J = 3なので、Xの平均3つはp. 514下の表から線形 (-1, 0, 1) を代入する。 
・それぞれを代入した結果、^ψハット#linear = 5.928, S#^ψバー = 1.514
t = 3.915
  → v = 186の臨界値は0.1%水準の3.37までも上回り、線形トレンド分析から明らかな有意がみられた。
・確認で曲線トレンド分析をおこなった場合、t = -.294となり5%水準でも有意とはならなかった。
■もし、比べている3つの平均に連続性が仮定されない場合(例:同じ学校生徒の抽出ではなく、異民族間のグループだとしたら)、K個の平均差の有意性をみる。
 →方法にはPOC, Dunn, Dunnet Scheffe法などがある。
 →スチューデント化による統計手法であれば、Newman-KeulsやTukeyがある。

18.20 Confidence Intervals for Means in Two-Factor ANOVA (p. 516-17)
■周縁平均とセル平均の信頼区間については、Section 11.18の手順に従う。
  S#x = √MS#e / "n" (ここでのnは観測数を代入する)
例)Table 18.4
  S#x = .874
  #.975t#186 = 1.973
  .95CI = (50.12, 53.57)
 →このことから、実験をおこなった私立学校での平均点は、95%の信頼区間で
52.87〜56.32点のどこかに落ち着く。
 →要因Bも、S#x ( = .1.070), t値の臨界(1.973)を把握することで、信頼区間がわかる。
■セル平均の信頼区間は交互作用の解釈にも役立つが、68%基準の信頼区間を使うのが適切。

18.21 Three-Factor ANOVA (p. 517)
■2要因の分散分析の概念を理解すれば、3つ以上の要因を含んだデザインを正しく配置して、解釈できるようになる。新たに加わる概念としては3要因の交互作用が考えられる。
■均整化されたデザインであれば、全要因の組み合わせが直交で揃う。
 ・3要因の交互作用は、2要因の交互作用と独立しており、前者から後者への因果関係はない。
 ・Table 18.6に2要因・3要因の交互作用の意味が説明してある。

18.22 Three-Factor ANOVA: An Illustration (p. 517-19)
■テストパフォーマンスによる実験例:

T1 T2
M F M F
A1 10 10 10 10
A2 10 10 10 10
A3 10 10 10 10

(A1)不安解消のための教示 
(A2)中立的な教示
(A3)不安にさせる教示

(S)性別(M / F から無作為に10名ずつ抽出)

(T1)言語能力テスト
(T2)数学能力テスト

■不偏推定量のモデルはp.518前半の7つの式で表わされ、直に交わっている影響を合わせた合計は0を示す。
■Table 18.6
・panel Iは全12セルの観測結果と、要因Aの主効果を説明
・panel IIは、各要因の主効果と、あらゆる2要因の組み合わせを比べて説明

18.23 Three-Factor ANOVA Computation (p. 520-21)
■3要因の分散分析による計算方法 (panel III)
Step 1)α#j の予測値を用いて、要因Aの主効果による平方和 (SS#A) を求める。
2), 3) 同様にβ#k とγ#l の予測値で要因TとSの平方和SS#T, SS#Sを求める。
4), 5), 6)別々に2要因の分散分析を3回おこなったように、αβ#jk、αγ#jl、βγ#kl の予測値を用いて、2要因による交互作用の平方和(SS#AT, SS#AS, SS#TS)を求める。
7) 3要因の平方和(SS#ATS)を求める。
8) セル内の平均平方(MS#w)を求める。
 →MS#wに関わる自由度(v#w)を求める。

Results
■panel IVにみられるような分散分析表で表示する。
 ・今回の例では、要因A, T, Sから単独の主効果はなかった。
  →3つのanxiety condition には統計的な有意差はない。
  →言語と数学のテスト結果にも、全体平均からの有意差はない。
  →性別による有意な違いもない。
 ・要因ATとASの組み合わせで、交互作用はなかった。
  →要因Aには、3レベルどれも違いがないということで一般化できる。
 ・唯一、要因TS間で交互作用がみられた。
  →男女間で、テスト結果が内容(言語・数学)によって異なる(Figure 18.14)
   →女子は言語テストで、男子は数学テストで一方を上回る(?)。

18.24 The Interpretation of Three-Factor Interactions (p. 521-22)
■3要因からの交互作用は有意ではなかった。
 →今回の例で、最も直接的に解釈できる方法はanxiety condition を一般的に扱い、
残り2要因TSの交互作用だけでみた場合。
■問題となっている交互作用には要因Aからの影響はないのか?
 →すでに3要因からの交互作用がないことがわかっているため、要因Aから条件づけられていると考えなくてよい。
■仮にFigure 18.12で別の要因(grade level)が加わり、学年間で一貫した結果でなければ、問題の2要因+Gの3要因で交互作用していることになる。

18.25 Confidence Intervals in Three-Factor ANOVA (p. 522)
■個数nや自由度は、mean, s#x, t値の標準誤差に関係する。
→観測数はセルや下位グループの平均の信頼区間に、
 s#xは要因レベルの平均に関する信頼区間に必要である。
■s#xの求め方は、p. 522の式にあるとおりで、ここで "n"とは、他の要因のレベル数による。
 →要因A: nKL, 要因B: nJL,要因C: nKJといった具合に

例)Table 18.6 ではA(3) x B(2) x C(2)
要因A = 10 x 2 x 2 = 40
要因B / C = 10 x 3 x 2 = 60
 →それぞれを式に代入すると、要因Aは s#x = .826,要因B・Cはs#x = .674
 →要因Aの信頼区間は、他の要因2つより1.23倍大きくとらえる必要あり。
 →セル平均の信頼区間は10の個数に基づくため、さらに広い (s#x = 1.65)。

18.26 How Factorial Designs Increase Power (p. 522-23)
■ある要因や交互作用について関心の外にあったとしても、最も興味のある要因の影響の検定力を高める上でそれら要因を含めることが望ましい。
例)Table 18.7 1要因のデザイン
  ・要因AのMSが他の要因に影響されていない。
  →均整化されたデザインでは常に、主効果と関連する以外は全て誤差変量となる。
  ・F比がTable 18.4と比べ、低下、p値が上がっている。
  →誤差変量が2要因よりも大きくなるため。

18.27 Factrial ANOVA With Unbalanced Designs (p. 523-24)
■要因の数を決めるにあたり、個数nが均一でない場合、平方和の求め方が複雑になる。
■非直交型のデザインでは、特定の調整を施さない限り、影響の混在したF検定を導く可能性もある。
 →セル内の個数の違いが少なければそれほど問題にならない。
■研究者が注意しなければならないことは、統計で扱う問題が、明らかにしたい問題と合っていること。
→最も慎重なデザイン案を選びつつ、ある影響について他のモデルでは明らかにしなかった情報を取り出せることが求められる。

18.28 Chapter Summary (p. 524)
・分散分析は実用性が高く、本章では2要因以上を扱った。
・交互作用での対処
→交互作用がない場合の、各要因での一貫性
・交互作用での解釈における表示方法
・1要因のデザインより検定力が高まる場合
・前提とされること
→セルの独立性、無作為な抽出、正規性
→均整のとれたデザインでの正規性・等分散性への頑健さ
・均整がとれてない分析での解釈の複雑さ

18.29以降は省略                                                               (長橋)

ディスカッション&コメント
■unbiasedとは不偏推定のことで、観測数nではなく、n-1を使って分散を求め、母集団の分散により近い推定をする場合の用語である。
箱ひげ図の読み取り方を復習した(boxは25~75%までを表し、線の長さの最大値はboxの長さの1.5倍)
■centralは帰無仮説が真のとき。noncentralは帰無仮説が棄却されたとき。
■一要因より二要因のほうが有意になりやすい。(F値が大きくなり、それにともなって、p値が下がる(p.523))
                                                               (森本、平井)


ページトップに戻る


2008/05/23

Chapter 19, pp. 535-547

<読み替え> 乗数の左隣には ^ を,記号の右に現れる下付き文字の左隣には# を表記してある。

19.1 Introduction (p. 535)
■本章での主な目的
(1) 変量効果 (random-effect) を含めた分散分析モデルの理論的背景
(2) 混合効果の分散分析モデルの概説
→要因が入れ子構造になっているデザインでの、高度な分散分析の適用についても

19.2 The Random-Effects ANOVA Model (p. 535-37)
■変量効果(random-effect)は、固定された効果(fixed-effect)による分散モデルと異なる部分もあるが、類似点も多いので15, 18章での知識がこの章の理解を助けるだろう。
■固定効果と変量効果の違い
・固定モデル:主な関心がJを母集団とするn個の観測への主効果の推計
  →同じレベル,同じ処遇とされる集団Jで調査を繰り返す場合
・変量モデル:Jレベルでの抽出が、調査を繰り返すたびに異なる場合
  →大規模なデータ採取で適用できる
  →観測すべきn個の抽出が、その都度、無作為に選ばれる
■固定効果モデル(α#j = μ#j - μ)がそうであるように、変量効果(a#j = μ#j - μ)も影響はある。
・Jα#j の完全なデータセットなら、繰り返しによる固定された効果がみられる。
・変量効果モデルでは、a#j の効果は任意のサンプルによる推計しかみられない。
■Bennet (1972) による変量効果モデルの説明:
例)教師の違いによる児童の読解力育成への影響 → 変量モデルの適用
・任意の抽出から平均(μ#j)差、分散(a#j)、予測される平均(μ#jハット)からの分散を求める
■変量効果モデルを概念的に説明するには、
@ 数が無限とされる教師の母集団が前提にあり
A 読解力テストで与える得点(μ)の平均がμ#j
B i番目の生徒がj番目の教師から与えられる得点はX#ij とする
C Bに対して、全生徒に教師jが与える得点差の平均をε#ij とする
→ これらを踏まえ、19.1, 19.2の等式が成立つ
→ 19.2の式から、変量効果の分散分析モデルの等式が成立つ(式19.3)
例)
・母集団からの平均 (μ) = 30 (全ての教師が全生徒の読解テストを採点した場合の)
・教師9から与えられた生徒の得点平均は4点高かった (a)
・生徒49番(?)は、教師9の得点平均より8点低かった (ε)
→ 19.3の式に代入すると
 X#49 = μ + a#9 + ε#49 = 30 + 4 -8 = 26

■ここでの関心はμ#j のばらつき
→ a#j とは、観測した変量のμ#jから母集団の平均μの分を差し引いた値を示すため、
  a#j の分散 (σ#a^2) が目的そのものとなる。

19.3 Assumptions of the Random ANOVA Model (p. 537-38)
■19.3の式が成立つ前提として、
1. 変量a#j は独立しており、正規分布していること
2. ε#ij の誤差成分も同様に、独立かつ正規分布していること
■もし、例題で扱っている「教師の影響」についての研究で、変量効果モデルがデータの正確な記述をしているのであれば、
1. 平均μ#j は母集団の平均μの周辺で正規分布し、分散はσ#a^2 で示される。
a#j の効果は a#j ハット = X#jバー − X.バー で示せる
2. 教師jによる全生徒の平均得点X#ij はμ#j 周辺で正規分布し、分散はσ#ε^2で示される。
全ての値jには上記があてはまり、これを等分散性が仮定されているという
 ε#ij は e#ij = X#ij - X#j.バー によって推定される

19.4 An Example (p. 538-39)
■ここで問題とされているのは、教師による読解テストの得点分散σ#a^2の違いと、同じ教師による生徒の得点の違いσ#ε^2。
■2段組の抽出でデータを収集 (Table 19.1)
・Jのレベルに基づいた要因を無作為に抽出する
 → 例では、教師5名から
・各レベル(教師)からn個の観測を抽出する
 → 理論的に母集団からは無限だが、
実験では20〜30、今回の例では生徒7名を抽出
■1要因の変量効果モデルの場合、計算方法は固定効果の分散分析モデルと同じ(15章)。
・J個の平均による分散から平均μ#j の分散σ#a^2 が求められ、
・X#ij の分散からσ#ε^2 が求められる

19.5 Mean Square Within, MS#W (p. 539)
■固定効果モデルでは、J個の得点サンプルから分散s#j^2 が求められ、これは不偏分散σ#ε^2 (またはσ^2) だった
・個数nは等しいため、これらJの分散の平均は不偏分散に最適な推定方法だった (15.8)。
 → サンプル内での分散の平均を MS#W (mean square within)と呼び、求め方は19.4の式のとおり。
■MS#W は次のような性質がある。
1. MS#W の期待値は不偏分散σ#ε^2と等しく E (MS#W) =σ#ε^2 と表わす。
2. MS#Wの分散は、J個のグループに対するn個の無作為抽出に基づいており、
以下の式で近似値が得られる。

MS#W 〜σ^2 Χ#j (n-1) ^2 / J (n-1) = (Χ#νe^2 / ν#e) σ^2

■16.4で示したとおり、Χ#νe^2 = ν#e を適用すれば19.5の式のように単純化され、
E (MS#W) =σ#ε^2 が証明できる。

19.6 Mean Square Between, MS#Between (p. 539-40)
■15, 18章で扱った均整化された分散分析デザインの場合、観測した平均が等しければMS#Between は0 となった。

→ J個あるグループ間のMS#Between は、個数nによって重み付けられた平均差によってのみ決定される。

■19.6の式で示されるように、MS#BETWEEN はJ個あるサンプル平均からの分散 (s#x^2) を n倍したものであり、MS#Between の期待値は19.7の式のとおりになる。
■MS#Betweenは調べたい要因の分散σ#a^2をn倍することでMS#Wにできる以上の推計が可能
 → ただしσ#a^2 = 0 のときは、MS#Between とMS#W は共に独立してσ#ε^2 の値をとる。
■サンプルに基づくMS#Between の分布は19.8の式で示すとおり。
 → J-1の自由度に基づくΧ自乗値を、定数 (σ#ε^2 + nσ#a^2) / (J - 1) で掛けた値
 → 固定効果モデルと異なり、μ#j に違いがあったとしても用いる定数は同じ
■Table 19.2はTable 19.1のデータを用いて、MS#BETWEENとMS#W の求め方を概説したもの。
 → MS#BETWEEN = 164.55, MS#W = 33.81

19.7 The Variance Component (p. 540-42)
■5グループ間の総平均 (Xバー.) は31.94で、σ#a^2 = 0 のとき、読解テストの得点は母集団を仮定した平均μ ( = 31.94) の周辺に正規分布するはず。
 標準偏差は √MS#W = √33.81 = 5.82
■MS#BETWEEN の期待値は19.7の式にあったとおり。
 不偏分散σ#a^2 はMS#BetweenとMS#W を用いて、19.9の式のとおり求められる。
■Table 19.9のF検定により、教師による統計的有意差がみられた。
 → 要因の分散成分 (variance component) は不偏分散の求め方にしたがいσ#a^2 = 18.68
■教師を要因とする母集団に基づく平均の分散σ#a2 は分散成分に等しく、自乗根から母集団の標準偏差 (= 4.32) を求めることができる。
■仮にサンプリング・エラーにより、MS#W がMS#BETWEEN よりも大きい場合、σ#a^2の予測値は負の値をとる。しかし、分散は負の値をとることはないため、0に読み替える。

19.8 Confidence Interval forσα^2 /σ#ε^2 (p. 542-43)
■1元配置の変量効果モデルの場合
(1) どうやってσ#a^2 /σ#ε^2 の信頼区間がその予測値周辺 (σ#a^2 ハット /σ#ε^2ハット) に位置するのか
(2) どうやってσ#a^2 = 0 の仮説が検証されるのか
■σ#a^2 /σ#ε^2 における1-αの信頼区間は、19.10の式のとおりに求められる。
■Table 19.1でのデータでσ#a^2 /σ#ε^2 における95%水準の信頼区間であれば、F分布表から97.5%水準での臨界値を探し、さらに2.5% (残りの有意確率?)でのF値を19.11の式に代入して求め、一連の平均平方、F値を19.10の式に代入する。
 ・例からは、95%の信頼区間で .071〜5.65
  → 値の上下幅が広く、大雑把な予測であると解釈
(σ#a^2 はσ#ε^2の1/10から5倍を超える値のどこかに分布)
  → 安定かつ正確な予測を得るには、Jとnの両方が大きくなくてはいけない
■1つの要因のあらゆるレベルが同じ母集団をとっているということは考えづらい。
 → 変量効果モデルを使うことで、σ#a^2 = 0 かどうかの説得力のある論証に役立つ
・手続きとして、帰無仮説がσ#a^2 = 0 を立証することは Σα^2 = 0 であるか調べるのと同じ
  例) Table 19.2: 2つの平均平方 (Between, Within) で割り算したときの19.12の式
  → F = 164.55 / 33.81 = 4.87 (#.99F#4, #30- > 4.02 なので、1%水準で有意)

19.9 Summary of Random ANOVA Model (p. 543-44)
■(均衡化された)1要因の変量効果モデルで、主なポイントは Table 19.3 にあるとおり
・固定効果モデル: 誤差成分 (ε#ij) が、独立して0 を中心とする正規分布(NID)している
・変量効果モデル: α#j が、独立して0 を中心とする正規分布(NID)している
 → 正規性と等分散性が仮定され、αとεの構成要素が互いに独立していること
■正規性を仮定しない場合の固定効果モデルについて(15章)、それほど重要な問題はなく、分散が異なる場合でも、個数が同じであればそれほど深刻な問題とはならなかった。
 ・変量効果モデルでも同様のことがいえることはあまり知られていない。
  → 要因レベルの数Jが増えるほどに、問題の深刻さはなくなっていく。

19.10 The Mixed-Effects ANOVA Model (p. 544-47)
■固定効果と変量効果を組み合わせた混合モデルは、実証的研究で有用性が高い
・少なくとも1つずつの固定・変量効果モデルを含むとき用いられる
 → 最小で2要因から
例)Table 19.4 (Roney, 1975)
10名の教師、7名ずつの生徒を無作為抽出し、3種類の指導法をおこなった場合
・2つの要因(指導法、教師)それぞれで主効果
 → 結果から、3つの指導法を同じ母集団からの抽出と捉えるべきではない
 → 調査実施者の意図では、2つの指導法いずれかで統制群より優位を示すつもりだった
 → ただし、教師10名による影響もみられ、一般化に無理があった
・結論として、調査した指導法には相対的に優位な(固定した)効果がみられ、
 無作為抽出によって観測した教師10名からは、変量効果による影響もみられた。
■このように、19.13の等式が前提条件となる構造モデルを、混合効果モデルと呼ぶ。
・X#ijk は2要因同士でj・k番目の交点にあるセルの観測
・μ は全観測を母集団とする全体平均
・α#j はj番目の固定因子レベルでの影響度 (μ#j −μ)
・b#k はk番目の変量因子レベルでの影響度 (μ#k −μ)
・αb#jk は前の2つを組み合わせた相互作用 [ μ#jk − (μ +α#j + b#k )
・ε#ijk はj・k番目のセルにみられる残差成分
■等式19.13の混合モデルには、前提ではないが制約として次のことが挙げられる
1. 要因αの効果を総和した場合、0となる。
2. 要因bの全体平均は0に位置する(抽出した教師10名もこの母集団に含めて)。
3. 相互作用αbを全て合わせたとき、0となる。
4. 数列jの母集団は、平均で0に位置する。
→ この制約により、固定効果と相互作用とをデータ間で合わせたとき相殺されるが、
特定の数列の平均だけを取り出した場合で0とはならない
■αbが0になることはない。
・異なる実験によってそれぞれK個ずつ無作為抽出されたαbバー#1., αbバー#2.であるため
・双方の平均差の分散は、相互作用の成分が含む
 → 混合モデルでの平均平方の期待値を検討することで、実態を評価できる

19.11 Mixed-Model ANOVA Assumptions (p. 547)
■混合モデルによる19.13の式には、以下の前提がある。

1. 変量効果は通常、平均が0に位置する正規分布を示す。
2. 相互作用はkとjの平均がともに0で位置する正規分布となる。
3. 誤差成分もまた正規分布を示し、要因bや相互作用αbとは独立した分散をもとにした平均値が0をとる。

■固定効果の主効果について帰無仮説を検証するとき、4番目の前提として「球面性」が存在する。母集団からの分散と相関が等しいとき、球面性が成立つ。

4. 球面性の性質は、同じ母集団から分散している固定効果の分布を視覚化するとわかる。
 → 全ての変数ペアが同等の相関を描いているはず

■球面性が仮定されないとき、固定効果モデルでのF検定結果が緩くなり、第一種の誤りを引き起こす可能性が高くなるが、Collier et al. (1967) によればこうしたケースはまれ。
 → p値をより正確に算出する修正公式もある

Null Hypothesis(帰無仮説)

帰無仮説 対立仮説
 1. 固定効果αの総和は0
 2. 変量効果bの分散は0
 3. 相互作用αbの分散は0


総和は0ではない
分散は0ではない
分散は0ではない

                                                                          (長橋)

ディスカッション&コメント
・固定効果モデルは、分析に使用する要因の水準(一般には群や条件など)が有限個しかない場合に用い、変量効果モデルは、その要因の水準(一般には被験者)が、母集団からの水準を想定すると、無限個考えられる場合に使用する。(参考pp.535-536)。たとえば、性別という要因はその水準(男子と女子)は限られているので固定効果モデルを使用するが、本書の例のように、生徒の読解力に及ぼす教員の影響を見る場合の教員を要因にした場合、教員は無限個と考えられるので、母集団からランダムに抽出したと考えられる変量効果モデルを用いる。SPSSではunivariateの分析に固定要因(fixed factor(s))と変量要因(random factor(s))を区別して入力するようになっている。
・安定かつ正確な予測を得るためにはサンプルサイズと共にグループ数も多くなければならないと書いてあったのが興味深い。但し、サンプル数とグループ数の両方を多くするためには、膨大な参加者が必要にならないだろうか。
                                                               (平井、森本)


ページトップに戻る


2008/06/06

Ch. 19 後半(pp. 547〜)

19.12 Mixed-model ANOVA computation
■ MSとdfの算出方法は、固定モデルでも、変量モデルでも、mixed モデルでも同じである。F比が計算されるときのみ、固定モデルとmixedモデルは異なる。
■ 但し、mixed factorでの固定効果(Method)のMSの期待値は3成分からなっているのに対し、固定モデルでは2成分から成り立っている(p. 506のTable 18.5とp.545のTable 19.4を比較すると、それが明らかである)。しかし、ランダム因子の主効果、交互作用、誤差についてはMSの期待値は等しい。
■ 変量因子の帰無仮説を調べることは、両因子が固定されているときの帰無仮説を調べるのと等しい。

Variance Components
■ variance componentのσハット^2(ランダム効果における母集団の水準の、平均値の分散推定)は、変量因子について報告されることが多い。

19.13 Multiple comparisons in the two-factor mixed model
■ 多重比較は固定因子にのみ用いられ、ch. 17, 18で紹介した方法と同じである。但し、MSの誤差のみがやや複雑になる(MSの誤差が観測数で割られる)。

19.14 Crossed and nested factors
■ ここまで見てきた因子は全てcrossedであるが(両因子において全ての水準のcombinationがある)、他の因子の中に入れ子になっている場合もある。例えば、全ての実験方法が全ての学校で使用されるときには、方法も学校もcrossedである。しかし、ある方法は学校1, 2のみで使用され、別の方法が学校3, 4で使用される場合には、学校は方法の入れ子(nested)になっている。
■ つまり、因子Aの各水準が因子Bの1つの水準でしか現れない場合、因子Aは因子Bの入れ子になっている。

■ 入れ子の因子はほぼ常に変量因子であるが、変量因子が常に入れ子であるわけではない。

19.15 Computation of sums of squares for nested factors
■ 表19.5についての計算例が掲載されている。

19.16 Determining the sources of variation in the ANOVA table
■ 入れ子の因子は、crossする因子とのみ交互作用する。

19.17 Degrees of freedom for nested factors
■ 入れ子の場合には、dfは入れ子の数×入れ子の中のdfである。5人の先生がそれぞれ2つの学校にいる場合には、2×(5-1)で8になる。

19.18 Determining expected mean squares
■ MSの期待値を計算するためには、2つのルールがある。
(1) MSの期待値の構成要素(components)は特定の効果+(a) 特定の効果と変量効果の交互作用、(b) ある特定の効果に入れ子になっているランダム効果。
(2) 構成要素の係数は、その構成要素に属していない全ての因子の水準数から計算される。

19.19 Error mean squares in complex ANOVA designs
■ F検定の分母には、分子に含まれている、対象とする変数以外のものを全て含む(e.g., Aが対象とする変数の場合、F = (A + B + C) / (B +C))。帰無仮説が真のとき、分母と分子は同じパラメータからの独立した推定値である。

19.20 The incremental generalization strategy: inferential "concentric circles"
■ Table 19.5ではmethodの効果は有意ではないが、同じデータを使用して学校の変数を無視したTable 19.4では有意である(つまり、学生と教師に一般化できる効果は有意)。なぜこのようなことが起こったのだろうか?それは、無視された変量因子は暗に固定効果として扱われているためである。また、信じられないような結果が出るときもある(変量効果としてある要因を扱った場合には有意だが、固定効果として扱った場合には有意にならない、など)。
■ このような状況はconcentric circlesを用いることで回避できる。まず、replication error以外の全ての因子を固定効果として扱う。ここで有意だった場合に限り、第二因子を変量効果にする。
■ 例えば、Table 19.5での場合には、まず学生を変量効果、学校と教師を固定効果にし、ここで有意であれば、教師を変量効果とする。これによって、生徒と教師の母集団について結果が一般化可能かどうかを評価できる。ここでも有意であれば、学校を変量効果にする。
■ Figure 19.2では、universe #0であればrandom source of variationは無く、データをパラメータとして見なすため、生徒、教師、学校に対しての推測が出来ない。これは記述的な研究といえる。universe #1はANOVAやt-testを表す。学校と教師を固定することで、結果が今回の教師と学校における生徒の母集団に一般化できるかどうかを調べることが出来る。

19.21 Model simplification and pooling
■ Table 19.5のような場合には、誤差のdfが小さいので特定の効果が大きくなっているかもしれない。そのような場合には、ANOVAモデルを見直し、単純化することでF比が1未満のものをモデルから削除することができる。
■ Table 19.5のMt:sのF比は1未満である。従って、Mt:sのσハット^2は0と見なすことが出来る。従って、これをモデルから削除することができる。誤差のdfが増えるので、Fの棄却値は下がる。しかし、M×sの交互作用は有意傾向なので、モデルから削除しない方が良い(削除すると、棄却値が急激に上昇するため)。
■ 但し、モデルを単純化した場合には、単純化する前と後の分析を載せ、読み手も解釈できるようにするべきである。

19.22 The experimental unit and the observational unit
■ observational unitとexperimental unitの区別をしなければならない。observational unitは、実験において実際に得たデータのことである。experimental unitとは、他の要因とは独立して割り当てられるものである。
■ 例えば、教室によってtreatmentがランダムに割り当てられ、その教室内には複数名の生徒がいるとする。被験者内デザインでは、experimental unitは生徒であり、observational unitはテストなどの得点である。
                                                                    (森本)

ディスカッション&コメント
・Table 19.7 で、A, B, Cのモデルがあるが、3つの要因(教師,指導法,生徒個人)までを細かく考慮した、モデルCがもっとも望ましいと考えられる。その一方、大きな要因で括って効果・影響が検出されたとしても、入れ子になっている別の要因間で既に存在しているか特定できないため,モデルA,Bのようなデザインは不安がある。
・要因やレベルを多く設定すれば有意になりやすくなるため、一般化に耐えうる観測数も大事と考えるところは前回と同様。また、解釈が複雑になりすぎない要因の数に絞って調査計画を立てることも重要といわれている [参考:田中・山際 (1989).『ユーザーのための教育・心理統計と実験計画法』]。この本によると、多くても3要因の要因にとどめたほうがデータの解釈がより明確になるとしている。
                                                              (長橋)

ページトップに戻る


2008/06/20

Ch. 20, pp. 572-85

20. 1 Introduction
■混合モデルの分散分析には、「くりかえし変量」デザインでの分析がよくみられる
・同じグループの、異なった状況で、同じ測定基準の変量を取った場合
・別の方法として、異なる測定法を同じ基準で表わして用いることもできる(標準得点など)
 →くりかえし変量と呼ばれる理由として、測定機会は一度とは限らない
■学習実験で、対象が試験ごとに何度か得点を通知されることがある
 →ここでの「試験」こそが典型的なくりかえし変量の要因
 →他にも発達調査や長期的な調査で、特定の変量が同じ対象からその都度採られたくりかえし変量になりうる(ここでは「年齢・調査時期」が要因といえる)
■高校やそれ以降の到達度テストではT-scoreで結果が表わされる。
・くりかえし変量の分散分析では、何らかの集団(地域、学校、性別 等)を要因に分析をおこない、到達度の推移が平坦か、有意な起伏があるのか知ることができる

20. 2 A Simple Repeated-Measures ANOVA
■もっとも単純なくりかえし変量デザイン
・2つの主効果が存在
・従属している要因はランダム(自らの調査による抽出から、他の調査や母集団へ一般化したいから)
・くりかえし変量の要因は、典型的な固定要因
・観測値は XST(S番目の対象について、T回目の測定)で表わされ、数式は20.1のとおりとなる
■例えば、10個の対象から5回の測定がおこなわれているとする
Table 20.1:
・ヨコ列からは対象(Subject)の平方和、タテ列からは試験(Trial)の平方和が求められ、そして相互作用についてもCh. 19 (Table 19.4) の式から求められる
・特筆すべきことに、セルあたりの観測数が1であるため、セル内での分散の自由度は0となる
 →セルの観測値=セル内の平均
■3箇所(要因2、相互作用1)から平均平方(MS)の予測値はTable 20.1の中ほどから
・要因TのMS予測値は、σ#sT^2 + Sσ#T^2
・相互作用のMS予測値は、σ#sT^2
→ 要因TによるF比は MS#T / MS#sT = 65.95 / .372 = 177.18
→ #1-αF #(T-1),#[(T-1)(S-1)] と比較し、α水準で帰無仮説H#0を有意なのか検定する
→ 相互作用に関する帰無仮説はσ#ε^2を使えないため、検定できない

20.3 Repeated-Measures Assumptions
■前提には、通常の分散分析(独立した観測間に、等分散性と正規性が仮定される)に加え、球面性が求められる。
・要因Tの等分散性が認められ、変量レベル間で相関が等しければ、 (T-1)と(T-1)(S-1)の自由度(df)をとるF値が中央に分布する (compound symmetry: 2つが組み合わさって調和している(?))
 → 近年では、必要以上に制約が厳しいことが証明されている
Huynh & Feldt (1970, 1979):
・nominal(名目上の?)dfでF分布が中央に位置すれば、球面性は満たされる
⇔ 球面性の判定は感覚的で、理論的説明が複雑なため、実用上は数学的に求めることがない
■Huynh & Feldtの提案:
・εが球面性からの自由度を表わせる
 → 球面性が仮定されるとき、εの予測値は理想的には1.0、最悪でも 1 / (T-1) の間をとる
 → εは球面性が欠如したときの補正で機能している
例)Table 20.1: ε= 1(球面性に問題はない)
⇔ 変量ペアの相関がひどく異なる場合、該当ペアの平均差(MD)の分散が近いとはいえない
 (この場合、εが1.0を下回り、F値の臨界も上昇しているはず)
■Huynh-Feldtの修正は、くりかえし変量の分散分析のために作られた統計プログラムには、標準的にみつかる
・有意確率はnominal df (T-1), (T-1)(S-1) から算出され、深刻に過小評価されることはまずない
・2レベルのくりかえし分析であれば、常に球面性を満たす

20.4 Trend Analysis on Repeated-Measures Factors
■分析に連続性があるとき、trend analysis は多重比較より情報が豊富となる
・trand analysisの適用ケースはCh. 17, Sec 17. 19を参照
・計画的に直交対比を形成し、主効果に統計的有意性がなければ特別に使える
■解釈についてもSec 17. 19を参照
・Table 20.1の例では、線形と三次の傾向は有意にみられたが、二次と四次(多項の)傾向はみられなかった
 → 線形や三次傾向は学習にありがちで、線グラフからも明らか
■trend analysis には、compound symmetry や球面性の前提は必要としない

20.5 Estimating Reliability via Repeated Measures ANOVA
■もし、結果で測定誤差しか現れないなら、効果は一切みられないはず
・妥当性を前提にすれば、測定にはなんらかの信頼性がある
・もし、従属変数に測定誤差以外含まれていないのであれば、信頼性係数は0となる
 例)読解テストにおける2つの指導法で比較調査:
  実際のテストが簡単すぎて、生徒全員が正答
  → 信頼性係数は非常に低く、テストからは指導法について一切の優劣を説明できない
■信頼性係数とは、測定誤差ではなく得点から表わせる度合いを示す
・従属変数の誤差分散の比率は、1-ρ#xx
 → 平行しておこなった測定結果が完全一致であれば、ρ#xx = 1.0
■仮にTable 20.1の例で、くりかえし変量をTrialではなくテスト項目や評価者としたら、信頼性係数は式20.2で求められる
 → 平行的におこなわれた測定形式との相関 = ここでの信頼性係数
 例)1.0から相互作用(sT)と要因s(生徒)の平均平方 (MS#sT, MS#s) の比率で差し引いた値

Reliability and Length: The Spearman-Brown Formula
■もし、平行テストなどの測定で長さに違いがあるときは、式20.3の修正公式を用いる
・ρ#xxは修正前の係数
・Lは新たな測定と、元々おこなった測定との比率
□信頼性の高い測定は、予想よりも信頼性が小さく出ることが多い
 →Spearman-Brownの式は、同タイプの項目や評価者を加えたと仮定したときの値を求める

20.6 Repeated-Measures Designs With a Between-Subject Factor
■くりかえし変量の分散分析には、対象が入れ子構造になっている要因もみられる
・くりかえし変量の要因は被験者内効果 (within-subject effect)
・入れ子ごとの要因は被験者間効果 (between-subject effect) として説明される
→ 前章まではbetween-subject effectとして紹介していた
■within-subjectでは効果の有意性を、対応のあるt検定に似た手法で調べる
・くりかえし変量の得点間で相関があるとき、F検定の分母は低下する
 → 有意と判断するのに必要な平均差(MD)は少なくなる(検定力は上がっている)
 → 結論的にwithin-subject はbetween-subjectよりも検定力が高い
■最も単純なデザイン(betwee-, within-subject effect 1つずつ)
・ピアジェの質量判定タスクx4(Within: liquid, mass, weight, volume)
・伝達モード x2(Between: consistent, inconsistent)
・n = 16 x 2(各伝達モードのグループで)

Tasks (Within)
C. Modes (Between) Liquid Mass Weight Volume
Consistent 16
Inconsistent 16

■Table 20.2
上部
・MSの予測値:(1) 影響そのもの、(2) 入れ子、または横断したくりかえし効果
・between- と within-subject では、別々の誤差項をもっている
 → 通常は、within-subjectの誤差平均平方 (E MS: error mean square) が小さい
■結果
・communication mode(C)で比べたとき、consistentの方がinconsistentより有意に高い(p = .007)
・CとTask(T)との相互作用はみられなかったので、taskの4レベルでパターンは一貫しているはず
■Huynh-Feldt ε は .845で1.0を下回っている
 → dfと、それにともなうp値の修正が必要
 → ここでのでは、T, C x T, T x s に影響する
・結果、観測されたF比からは修正による影響はなかった(task: .022 ⇔ .016)
 → 採取したデータが球面したものと著しく異なればp値が上昇する
 ⇔ 実際のところ、わずかに変化する程度
■どのタスクでパフォーマンスがうまく表わせているか知るには、Table 下部を参照
・Ch 17の手順に基づき、MS#errorを求める ( = 2.23)
・E MSは観測数で割る ( = √2.23 / 32 = .263)
 → 違いを証明できるのは、両極端の値のみ
  (deafの生徒にとって、liquid task はmass task と比べると成績が良くない)

20.7 Repeated-Measures ANOVA With Two Between-Subjects Factors
■前節まで、Table 20.2の例ではもうひとつの被験者間要因 (Age) を無視していた → Table 20.3へ
・両C. mode グループには、9〜15才の年齢要因4段階と、4名ずつのdeafを含む
 → 厳密には、2 x 4 x 4 のC. mode, age, task の3要因でデザインされている
■結果2
・F比がTable 20.2よりも大きくなっている
 → 分母の値が減っており、追加要因のAgeから有意な効果が推定される
 → Huynh-Feldt ε= 1.0 (dfを調整する必要なし)

■相互作用の検定
・C x Aに有意な相互作用はみられなかった
 → グループ内の年齢層は違っても、等質の結果を返すと捉えてよい
・A x Tでは相互作用がみられた
 → タスク・パフォーマンスには年齢の違いも考慮に入れるべき
 → Table 下部のグラフへ
・グラフから、3つのタスクは年齢層での似たような傾向を表わす
・ただし、volume だけは異なったパターンを示している
→ 相互作用の有意になった原因をつきとめた
・3要因 C x A x T には相互作用はみられなかったので、A x T間の作用はC. mode グループの間でも一般化して捉えられる

20.8 Trend Analysis on Between-Subjects Factors
■要因Ageは予想どおり有意であった
 → 連続性のある要因であることも関係しており、トレンド分析の結果からも多重比較が望ましい
Ch 17の式17.7Aの手順を踏まえ、
・XバーのSDを求め, MS #errorは観測数で割る [personの数ではない( = 32)]
→ 対比係数(contrast coeffecient)はAppendixのTable N
式17.8Bから、
・対比係数の標準誤差 (s#Ψハット) を求める
・t-ratio(t比率?)を Ψハット / s#Ψハット で求める
・error MSの自由度は、ここでは24
・トレンドは線形だけが有意に認められた

20.9 Repeated-Measures ANOVA
With Two Within-Subjects Factors and Two Between-Subject Factors
■くりかえし変量デザインは、被験者間/被験者内の要因をいくらでも含めることができ、要因の種類(ランダム/固定,くりかえし/入れ子)も問わない
→ これまで無視してきた、「2次の 被験者内 要因」を含めて分析デザインを組む
 → 4つの異なる誤差項が求められる
■くりかえし要因には、それぞれのerror MSで別々に球面性が求められる
例)Table 20.4
・応答モード(M): 2レベルのみであるため、常に ε= 1.0(調整の必要なし)
・タスク(T):ε= 1.0(調整の必要なし)
・T x M: εハット = .989(ほぼ満たしている)
■要因Mは変動源を10(主効果+関わっている相互作用の合計?)、統計仮説を8つ含む
・要因Mの主効果は有意
・2つの要因CとTを組み合わせた相互作用(C x M, T x M)は、ともに有意性なし
・要因Aとの相互作用(A x M)では有意
 → 若年層のdeafに関して、応答の引き出し方によっては得点が影響する
 → この要因Aを無視した場合、誤った結論を導いていた可能性があった
■3要因(C x A x M, T x A x M)と全4要因からの相互作用には有意性はみられなかった
 → A x Mの相互作用パターンを一般化して捉えられる

20.10 Repeated-Measures ANOVA Versus MANOVA
■くりかえし変量の分散分析は、多変量分散分析 (MANOVA) からでもおこなうことができる
・MANOVAは球面性が確保されなくても、厳密な第一種の誤りを導く確率を示してくれる
・Stevens (1986, p. 414):
 第一種の誤りの対処という点では、多変量分析が望ましいという根拠はない
→ 修正された一変量の検定を使うことで、正当な誤差確率は表せるので
・他の選択基準からみれば、検定力と使いやすさが挙げられる
 → 球面性が(概ねでも)仮定されれば、くりかえし変量分析の方が検定力がある
 → 球面性の基準は εハット ? .75 から
・O'Brien & Kaiser (1985):
特別な講習や研究を踏まえた人でもない限りは、くりかえし変量分析の方がわかりやすい

20.11 Chapter Summary
省 略
                                                                    (長橋)

ページトップに戻る


2008/07/25

Ch. 21, pp. 593-607

21.1 The Functions of ANCOVA (p. 593)
■共分散分析(ANCOVA)はFisherが1993年に分散分析と回帰分析を組み合わせて考案したもの。
・共変量(covariate)という付随変量を加えることで、どんな分散分析デザインもANCOVAにかけられる。
・目的は以下のとおり:
(1)統計検定力を高める
(2)誤差を少なくする
→前者でよく用いられ、調査の無作為抽出が技術的に困難な場合の誤差の除去に
■擬似実験データを無作為抽出データに変換するわけではない
・データ収集で不手際があっても実態を浮かび出せる救済策かのように、誤った認識をもつべきではない

■An Illustration
・小学校20件から6学年を対象に調査
・任意の10件がコンピュータ支援プログラムによる作文指導をおこない、あとの10件が従来のカリキュラムで
・年度末に共通課題を与え、専門教師が無作為かつ匿名で100点満点の採点をした
□学校あたり50〜120名のサンプルが集まったが、学校の採用プログラムは無作為に振り分けられていた
 →Table 21.1の例で、ANOVAとANCOVAによる分析をおこなう

21.2 ANOVA Results
■ANCOVAでは、重回帰分析やトレンド分析のように従属変数でYを用いる(共分散はXで表示)
■これまでの各種検定と似たように、変数の等分散性、独立性、誤差分布の正規性が前提

21.3 ANCOVA Model
■実験Eと統制Cの指導法を含んだSchoolのもとにmeanを表示
・Schoolによる誤差成分は実験群2番目なら、例えばε#21 = Y#21 - Yバー#1.
 →εハット は予測値の残差(誤差)
■Table 21.1の表示については、Schoolの観測数しかわからない場合。
・しかし何らかの変数Xが従属変数Yに相関するということはありうる
 →学力(e.g. IQ)の高い学校であれば、到達度テストで高い値となる傾向は予想される

式21.2
■結論的にANOVAモデルで誤差εハット#ij を2つの独立変数に切り離す方法がある
→βハット#W はXとYの関係を説明した回帰係数の予測値:
■固定効果モデルのANOVAは固定効果モデルのANCOVAとなる
 → 式21.3, 21.3A
・この式でのYは従属変数ではなく、Yと共分散を含めて予測されたYとの差
■ANCOVAの測定誤差の絶対値ε'は、関係のない共分散(ρ#XY = 0)を取込まない限りANOVAより小さい
・同じ1要因であればANCOVAのほうがANOVAより検定力が増す

21.4 ANCOVA Computations: SS#Total
■Yの分散はXとの回帰係数r^2から予測され、調整された平方和(SS'#total)が21.4の式から得られる

21.5 The Adjusted Within Sum of Squares, SS'#W
■被験者内(Within)についても同様に、式21.5にあるとおり平方和が調整される
■式21.5をおこなには、係数r#Wを求めて代入する

21.6 The Adjusted Sum of Squares Between Groups, SS'#B
■被験者間(Between)の調整済み平方和は、全体(Total)から被験者間(Within)を差し引いて求める(式21.7)

21.7 Degrees of Freedom in ANCOVA and the ANCOVA Table
■例外ひとつを除きdfの求め方はANOVAと同じ
→ 共分散のため、within sourceのdf をひとつ失う
・調整済み平均平方MS'#B / MS'#W のF分布のときdfはJ-1とn.-J-1
■Table 21.2の例で、ANOVAはX,Yの相関を採らず分析したため、帰無仮説は棄却しなかったが、21.1, 21.2の式を用いた場合、0.1%水準の有意性を示した

21.8 Adjusted Means, Y-bar'#j
■meanを調整して解釈するには、式21.8を用いる。b#WはβW(回帰係数の傾き)の予測値
■b#Wの求め方は式21.9
■実験例では、ANCOVAでMethodの主効果がANOVAのときより大きくなっている
 →School Eのカリキュラム優位性を調整
 →仮にE−Cの優位が反対なら、主効果は小さく調整される
□さらに重要な結果として、誤差分散が減り予測の正確さが増していること
 →ε'とεの分散については式21.10で説明される

21.9 Confidence Intervals and Multiple Comparisons for Adjusted Means
■信頼区間を設けるには、MS'#Wがそのまま利用できる(式21.11)
→meanが調整前後で異なる場合は、それだけ調整前に誤差が含まれているといえる

                                                                    (長橋)

ページトップに戻る


2008/08/21
 【最終回】

Ch. 21, pp. 593-607(つづき)

21.10 ANCOVA Illustrated Graphically
■共分散分析を使う意味は、Xに含まれる測定ノイズからYの値を調整すること
 → Figure 21.1: 全ての群がXからの影響を同等と仮定し、Yの推定をおこなう
■SchoolごとでE / C群を割当てたためにおこったサンプリングでの誤差
 → C群のIQがわずかにE群より高かった
■Table 21.1 で扱ったANOVAからはYバー#1とYバー#2(未調整のmean)には、有意差がみられなかった
■XとYの相関は高く、E群であれば r =.931, C群は r=.805, within-Groupは .852だった
■ANCOVAでは、回帰直線の傾きが両群で同じことが前提となる
 ・母集団からみた回帰係数はb#W = 1.73 となる
  → 実測値のYバー#2に関しては、調整によって3.06低くなるはず
■e#11はY#11の誤差を表わし、回帰直線b#Wまでのタテの距離で示される
■XとYに相関がみられる場合、ANCOVAでの誤差はANOVAで計算された平方和(SS#W)および平均平方(MS#W)の誤差よりも小さくなる
■F比についても同様、グループ間の平均平方(MS#B), MS#Wともに調整される

21.21 ANCOVA Assumptions
■ANOVAでいうところの誤差ε#ijに対応し、ANCOVAでも考慮されるべき誤差ε'#ijが求められる
・例によって、NIDの前提を踏まえる(正規性、等分散性)
・正規性、分散の異質性の検定には、各群Jの観測が回帰直線b#Wの周辺の誤差であるか調べる
■ANCOVAに特有の付加的な前提3つ
1.各群の背景にある回帰直線はともに平行であること
 → この前提に反する場合でも、共分散による補正を得られるかもしれないが、はっきりとした結果が得られない可能性もある
 ・1要因であれば、それほど深刻にはならない (Glass et al., 1972)
 ・Jの回帰直線が同じ母集団からのものか確かめる方法もある(p.604後半の計算)
  → Figure 18.4の例を扱った場合、p.605の最終的に求められたF値から、前提1の違反は免れる(F = .62と低いので、有意ではない)
2.回帰式とのあてはまりがよいこと
 → ANCOVAを適用するあらゆるケースでX, Yは線形関係が仮定されている
 ・ランダム抽出がうまくいくことで誤差は最小化され、標準誤差によってそれを確かめることも可
 ・状況によっては、曲線相関を描く関係もありうる
→ X, Yどちらかに数学的変換をおこなうことで解決
3.共分散は固定化されており、測定誤差を含まない
・完全に信頼おけるとはいえない共分散も予想されるので、あらゆる解釈で調整における誤差の種類は考慮されている
・測定誤差はX, Yで観測される相関によって軽減される

21.12 ANCOVA Precautions
■いくつかの性質(IQとか)が異なる中で、従属変数の有意な違いを探るとき、「統計上の標準化」がおこなわれてきた
 ・ランダム抽出された実験では、考慮にいれて検定にかけることが 現実的ではない/できない属性もある
 ・釣り合いのとれた観測 (matching) が、実験する上での深刻な問題となることがある
  → ANCOVAを用いることによる、取り除きたい要因Xへの方策をみてきた
■擬似的な環境での調査では、ランダム抽出を避けて解釈を容易にすることができない
 ・ANCOVAを上手に適用できても、本当に誤差がないと確信することはできない
  → 抽出がうまくいかなかったときの防衛手段ではない
■観測グループ間で関心とは異なる要因Xが混在した場合、ANCOVAは採った変量で推定できるが、現実にそぐわない調整を導くことも
 例)異なる対象学年の10年生,13年生で別群の観測をおこなったとき、11.5年生の観測と同等といえるか?
■共分散による推定は、線形で等質の回帰が成立たなければ、誤差は大きなまま
■要因Xでの違いの幅が大きいと、複雑すぎる回帰式で調整されうるため、決定的な解釈とはいえなくなり推論から発展しない

21.13 Covarying Versus Stratifying
■共分散とtreatment(観測群間の処置の違い)どちらを優先させるかによって、デザインや分析方法を替えるのがよい
 → 簡便なANOVAにするか、検定力の高いANCOVAにするか
■共分散XをK個の複数レベルが存在する要因として扱うこともできる
 ・個数を同じに揃えたbalanced design
 ・各群でランダム抽出を満たしつつ、検定力を高める
  → ANCOVAを用いる好ましいデザイン
  → 従属変数と共分散の相関が検定力に関係する
■ランダム化された実験では2要因のANOVAの方がANCOVAより好まれる
 ・有益な追加情報として、treatmentを他のレベルにも一般化して解釈できる
 ・XとYが線形の関係にない場合、ANCOVAの複雑な調整が返って不利にはたらく

21.14 Chapter Summary
 ・ANCOVAはANOVAと重回帰を組み合わせたような検定
  → 検定力高い
 ・X, Yの相関の高さが決め手となる
 ・誤差の軽減に使えるが、万能ではない
 ・前提:誤差が独立し、正規分布し、共通した分散にある
  → さらに線形の傾きを描く回帰式を共有していること
  → 共分散は固定効果を含む
 ・ランダム抽出を満たしながら、ANOVAとの長所で使い分けるのがよい

                                                                    (長橋)

ディスカッション&コメント
・共分散分析(ANCOVA)は分散分析(ANOVA)での誤差部分にあたる部分をさらに分割することによって、分散分析ではわからないことを明らかにできる。
・しかし、本文でも何度か注意しているように、データ採取のまずさをカバーする目的で使うべきではない。分散分析でも調べられそうな研究課題をわざわざ共分散分析を用いている論文は、調査デザインやデータ採取の過程に問題がなかったか確かめるべき。
・共分散分析を用いた場合、共変量(covariate)は、従属変数と直線の関係にあり、かつそれぞれの独立変数との回帰直線の傾きが同じである(平行している)場合に使用できる。よって、使用できるか平行線の検定が必要である。   (平井、長橋)

ページトップに戻る

ご意見やコメントがあればこちらまでお寄せください。