2007年度 研究会トップに戻る

4/20  5/11  5/18  6/1  6/22  7/13  7/26  8/24  9/14  9/28  10/13  11/30 
 12/21  1/11  1/25  2/8  2/29  3/14  2008年度の資料はこちら

Glass, G. V., & Hopkins, K. D., (1996). Statistical methods in education and
   psychology
. Boston, MA: Allyn & Bacon.

2007/04/20 (Ch. 1-3, pp. 1-48)
                                   
1. Introduction (p. 1)
1.1 The "Image" of Statistics (p. 1-2)
■ 統計的な概念や方法を研究することで、数字についてすぐ信じ込む性質を減らし、量的な情報を賢く使えるようになる。統計方法の発達は2つの全く異なる影響を及ぼす。1つは記述統計に関わることであり、もう1つは確率的な推測統計に関わることである。2章から8章までが記述統計、そして9章以降で推測統計について触れる。

1.2 Descriptive Statistics (p. 2)
■ 記述統計には、表にして表すこと、描写すること、データの記述を含む。これらは身長やテスト得点などの量的なものも、性差や大学の専攻などカテゴリカルデータのような質的なものも扱うことができる。

1.3 Inferential Statistics (p. 2-3)
■ 小さなサンプルデータから全体を推測することを含む。つまり、サンプルから母集団の情報をつかむことが推測統計の目的である。サンプルの記述的特徴が、誤差を知ることや推測統計の技術によって母集団全体に一般化することができる。
■ 推測統計においては、実験のデザインと分析が重要である。これらによって、変数間の因果関係を評価するからである。

1.4 Statistics and Mathematics (p. 3-4)
■ 統計の原理は応用数学の一部であるが、通常考えられているほどは、数学の知識を必要としない。
■ この本を使うにあたって、一度だけではなく何度も読み、且つ各章を完全に学んでいく必要があるだろう(1つの章に書いてあることが、次の章では前提になっているため)。各章の最後にMastery Testがあるため、これを活用すると良い。また、先にMastery Testを見ることで、その章における心の準備ができるかもしれない。

1.5 Case Method (p. 4-5)
■ この本では、CHAPMAN (10年間、200名の大人がいくつかの変数について調べられたコレステロールについての研究)、HSB (600名の高校生についてのデータ)、EXERCISE (40人に対する運動と喫煙のデータ)の3種類のデータを用いることによって、理想的な実習が可能である。

1.6 Our Targets (p. 5)
■ この本では、量的に表現される情報についての一般的なliteracy、統計の「消費者の知識」、統計のコマンド、より高度な研究に十分な統計方法の知識を得ることができるであろう。

2. Variables, Measurement, Scales (p. 6)
2.1 Variables and Their Measurement (p. 6)
■ 記述統計・推測統計は「変数」を用いる。変数とは、観測対象における1つ以上の特徴である(人の年齢など)。統計は、観測対象を描写するのに用いられる。

2.2 Measurement: The Observation of Variables (p. 6-7)
■ 変数が統計的に扱われる前に、観測されなければならない。つまり、測られたり、量で表されたり、分類されたりしなければならない。測定とは、数で表される観測である。測定とは、ルールに基づいて数を割り当てることである。測定は、できるだけ正確で妥当でなければならない。

2.3 Measurement Scales: Nominal Measurement (p.7)
■ 伝統的に、4つの測定(変数)があり、それぞれをここで定義し、統計的な示唆と共に扱うことにする。
■ 名義変数は最も初歩的な形式である。ある分類に属するものが、その特定からは同じであるように分けることである。例えば、0を女性、1を男性とするようなことである。もし名義変数のみを用いるのであれば、その数の特性しか用いることができない。つまり、1は2や4とは違う、ということである。
■ これ以後の変数では、サイズで順番が付けられること、加減できること、乗除できること、という特性が加えられていく。

2.4 Ordinal Measurement (p. 7-8)
■ 順序変数は、ある変数の程度や量を区別できるときにのみ用いられる。例えば、ランク付けをするときである。パーセンタイル順位も、順序変数の1つである。

2.5 Interval Measurement (p. 8)
■ 間隔変数では、観測対象の差を数で表すことができる。例えば、90度と100度の差は50度と60度の差と同じである。しかし、100度は50度の倍ではない。間隔尺度は、0とは恣意的なものであり、その特性が全く無いことを示すわけではない。
■ 間隔変数は順序変数に変換できるが、その逆は通常はできない。

2.6 Ratio Measurement (p. 8-9)
■ 比率変数と間隔変数が異なる点は、ゼロがその特性が無いことを意味する点である。比率変数は間隔変数でもある。従って、AがBの2倍、などと述べることができる。数の比率に意味があるため、比率変数と名づけられている。

2.7 Interrelationships Among Measurement Scales (p. 9-10)
■ 変数のレベルを特定することは常に簡単であるわけではない。例えば、IQが130の人はIQが100の人の30%分頭が良いわけではないし、IQが70と100の人の差と、100と130の人の差が同じではないだろうが(つまり、間隔尺度には当てはまらない)、IQは順序尺度ではない。なぜなら、もし順序尺度であるならば、順序のみが報告されるだろうからである。
■ また、テストで100%の点を取った人は50%しか取れなかった人の倍、能力があるのだろうか。100%取った人のほうが50%とった人よりも能力がある、ということしかいえないであろう。
■ 以前は、測定尺度の重要性が誇張されすぎていた。しかし、尺度はどのように結果を解釈すればよいかということについての結論をもたらしてはくれない。

2.8 Continuous and Discrete Variables (p. 10-11)
■ 体重や年齢などのいくつかの変数は連続変数であり、教室にいる子供の数などは離散変数である(小数点を使えない)。連続変数を正確に示すことは不可能である(小数点の関係などのため)。

2.9 Chapter Summary (p. 11)
■ 変数とは観測対象が持つ特性である。測定とは観測対象に数を当てはめることである。これらには、名義変数、順序変数、間隔変数、比率変数が含まれる。これらの尺度は測定方法によってのみ決まるものではなく、与えられた数の解釈によっても決まる。

2.10 Case Study (p. 11-12)
■ CHAPMANのデータで、年齢、心臓圧縮の血圧、心臓拡張の血圧、コレステロールレベル、身長、体重、動脈血栓(0 = No, 1 = Yes)、ID numberを変数とした。それぞれがどの尺度であろうか。年齢、身長、体重、血圧、コレステロールレベルは比率変数、case numberは名義変数である。動脈血栓は、名義変数もしくはカテゴリカルな変数である。
■ どれが離散変数であろうか。ID numberと動脈血栓のみが離散変数で、その他は連続変数である。

3. Frequency Distributions and Visual Displays of Data (p. 15)
3.1 Tabulating Data (p. 15)
■ 数字を順番に並べることは助けにはなるが、分布の最も重要な特性を描写することはできない。分布の特性は、観測対象を等質に分けることによって明らかになる。その分ける数は恣意的ではあるが、10以上が使われることが多い。このようにグループ化して並べることを、grouped frequency distributionと呼ぶ。

3.2 Grouped Frequency Distributions (p. 16-18)
■ 頻度分布を分けるには、次の5つの手順を踏む。
(a) 範囲を知る
・最も大きな観測数値と小さい観測数値の差が範囲である。
(b) グループの数を決める
・これは恣意的である。但し、間隔が20や30にならないようなときには、観測数がグループ数の10倍以上になるようにした方がよい。但し、グループ数が多すぎると値が逸脱し、グループ数が少なすぎると分布が粗くなりすぎる。
(c) 間隔の制限を決める
・範囲を理想のグループ数で割ると、大まかな間隔を決めることができる。全ての数値が、どれか1つにあてはまるようにしなければならない(120-140, 140-160、とするのではなく、120-139, 140-159とする、など)
(d) 観測数をグループ単位に合わせる
・それぞれの間隔について、各観測を合計するような伝統的な "picket fence" の方法でも良いし、観測数が多い場合にはTukey (1977) の方法も有効である。最初の4つは四角になるように点で表し、次の4つはそれらの点が辺になるようにつなぎ、次の2つを対角線にするようにつなぐことで、10を表すことができる。
(e) それぞれの合計を数える

3.3 Grouping and Loss of Information (p. 19)
■ statistical summaryは、全てを描写しない。グループ化することによって情報が失われる。グラフについては、使いやすさや分かりやすさと、情報の損失のトレードオフが起こる。

3.4 Graphing a Frequency Distribution: The Histogram (p. 19-20)
■ 分布をグラフ化するときに最も良く使われる3つの方法は、ヒストグラム、頻度多角形(折れ線グラフ)、度数分布曲線である。
■ ヒストグラムは棒によって表され、棒の長さがその範囲に含まれる頻度を表す (Figure 3.1)。これは、頻度だけではなく割合を表現するのにも用いられる。観測数全体で割れば、割合が算出される。割合のヒストグラムの方が大抵好まれる。なぜなら、200人中6名、というよりも3%と言ったほうが意味があるからである。

3.5 Frequency and Percentage Polygons (p. 20-22)
■ 頻度多角形はヒストグラムと似ているが、観測値の始点と終点のゼロの部分を付け加える。頻度多角形では、それぞれの間隔の中心が点で表され、それぞれが結ばれる (Figure 3.3)。ヒストグラムと同様に、左側が小さい値で右側が大きい値である。もし名義変数やカテゴリカルな変数を用いるのであれば、それぞれの数が連続していることを仮定する頻度多角形はmisleadingであるため、ヒストグラムの方が望ましい。

3.6 Types of Distributions (p. 23-24)
■ 分布の形を表す特別用語がある。p. 23の分布Aは正規分布であり、左右対称のつりがね型の曲線である。多くの変数はほぼ正規分布する。正規分布については6章で扱う。
■ カーブBは左右対称であるが、2つに分かれている (bimodal) であるため正規分布ではない。例えば、人間の身長をグラフにすると、女性の平均身長と男性の平均身長という、2点で山ができるであろう。もし2つの山の大きさが異なっていた場合、大きい方の山をmajor mode、小さい方の山をminor modeと呼ぶ。2つしかないものの分布は、特別な形のbimodal分布である。
■ カーブCは長方形であり、左右対称であり、値が全て一定である。もし1つのさいころが1万回投げられたら、1から6までが出る頻度はほぼ長方形の形になるだろう。
■ カーブDとEは、非対称な分布である。これは歪度によって表される。Dはpositively skewedであり、Eはnegatively skewedである。
■ 但し、これらの分布が全て相互排他的であるわけではないので、注意すべきである。

3.7 Cumulative Distributions and the Ogive Curve (p. 24-25)
■ 度数分布曲線は、パーセンタイルを表すのに有効である。累積的、というのが度数分布曲線の原理である (Figure 3.6)。

3.8 Percentiles (p. 25-26)
■ パーセンタイルとは、その観測値が何パーセント目にいるか、ということである。では、コレステロールレベルの中央値はいくつだろうか?中央値とは、パーセンタイル順位が50番目ということである。
■ もしパーセンタイル順位を正確に出したい場合もあるだろう。もし40人いてTomが37人よりも上にいるのであれば、Tomのパーセンタイル順位は (37 + 0.5)/40×100で表される。0.5とは、Tomの得点の半分を表している。
■ パーセンタイルは個人のパフォーマンスを解釈するのにはとても有効であるが、推測統計で用いるときには重大な問題がある。例えば、2グループの平均的なパフォーマンスに有意差があるかどうかを調べるときには、パーセンタイル順位ではなく、そのままの得点や標準化された得点を用いる。

3.9 Box-and-Whisker Plots (p. 26-28)
■ これは略してbox plotと呼ばれる。このboxはパーセンタイル順位の25から75位を表し、boxの中の線は中央値を表す。2本の線は、外れ値が無い限りは観測値の上限と下限までを表す。この線は、boxの長さの1.5倍が限度であり、それ以上離れたものは外れ値として点で表す。
■ box plotは2つ以上の分布を比較するときに有効である (Figure 3.8)。これによって、私立の方が公立よりも得点が高い、公立のほうが得点のばらつきがある、公立学校の生徒でも私立の生徒と同じくらい高い得点の学生がいる、公立の方が低い得点の生徒がずっとたくさんいる、ということが分かる。

3.10 Stem-and-Leaf Displays (p. 28-30)
■ stem-and-leaf displayという方法もある。合計ではなく、観測値の最後の値を用いる (Figure 3.10)。縦の線が「幹」であり、最後の数値が「葉」である。

3.11 Time-Series Graphs (p. 31)
■ time-series graphを用いると、潮流や変化を、他の表現方法ではできない方法で描写することができる (Figure 3.11)。

3.12 Misleading Graphs: How to Lie with Statistics (p. 31-37)
■ グラフや表は、真実を伝えるというより、宣伝として使われうるため、misleadingになりうる。

(a) Distorted Representation
・ピクトグラフを用いて、頻度を1つの絵だけで用いることで、本来は長さのみが頻度を表しているのにも関わらず、見ている人は面積が頻度だと思ってしまう。
(b) Misleading Scaling and Calibration
・Figure 3.12Cのような場合には、始点が恣意的である。比率尺度の場合には、始点は0であるべきであるが、誇張されてしまっている。
(c) Combination Graphs
・もっとも道を外れた方法である。変数を不適切な方法で測定しているために起こる (Figure 14)。

■ また、グラフに情報を入れすぎると混乱のもとである (Figure 3.15)。

3.13 Chapter Summary (p. 37)
■ 多くの変数は正規分布するが、他の分布の仕方もよくあることである。また、頻度は様々な方法で表される。

                                                                 (森本)

ディスカッション&コメント
2.7において
★ここは特に重要
アンケートのような尺度データについて、SPSSにかけて分析することは妥当なのかどうか、という質問が出た。これについては、Likert Scaleを用いている論文を読んでみよう、という提案がなされた。

―>順序尺度変数なのでノンパラメトリック法による分析をしている場合と、順序尺度であっても、そのデータが正規分布をなし、連続変数とみなしているからであろうか、パラメトリック法を使用して分析している例も多い。その場合、5段階程度のスケールでは正規性を満たしているかは疑わしいが、釣鐘状でなくとも山形に分布していれば頑健性のあるt検定や分散分析を使用できるようにも思われる。いずれにしろ、リッカートスケールの記述統計に、単に回答の頻度だけでなく、平均、標準偏差等の情報がある方が、データを読み取りやすくなるのではないだろうか。

2.10において
テキスト中 (p. 12) にnominal or categorical variableという表現があったが、nominal、categoricalを同義と捉えて良いかどうかについて確認を行った。nominalの定義にはnumbers distinguish among the categoriesとあること、その他でcategoricalが使用されていないことから、この部分では同義として使用されていると結論付けた。

3.2において
Tukey (1977) の観測値の合計方法について、日本人には正の字で5まで数える方法があるので、特にTukey に倣う必要はないとした。

3.4において
polygons (頻度多角形) と折れ線グラフの違いについて話し合った。頻度多角形では、観測値0の幅を設けることによって、線をX軸と交わるようにしているため、最終的に多角形が出来上がるが、折れ線グラフでは観測値があるところから始まるため、多角形にはならないのではないか、と議論した。

3.5において
★ここは特に重要
名義変数を用いるのであれば、それぞれの数が連続していることを仮定する頻度多角形はmisleadingであるため、ヒストグラム (bar chart) の方が望ましい。と述べられている。これまで、pretestの得点とposttestの得点というように、連続性のない得点同士でも線で結んでいたが、線で結ぶ必要がない、もしくは棒グラフの方が適する場合があるのではという議論になった。

3.8において
パーセンタイル順位を正確に出す場合には (n +0.5) / N * 100 という計算式を用いるが、0.5を足すのは目標とする人がちょうど中央に来るように、という意味があることを確認した。

【今後に向けて】
・和書や和文の論文でも統計手法について学ぶ機会を設けても良い
・エクセルを用いてBOXを用いたグラフや、複数の種類のグラフを1つに含める (e.g., 棒グラフとセングラフを合わせる) 方法を実習したいという希望があった。

                                                              (中川、平井)

ページトップに戻る

2007/05/11                       

Chapter 4 (pp. 49-65).
Measure of Central Tendency

4.1 Introduction
■分散の中央 (central tendency) を表現する3つの主要な方法: (a) mean (平均値), (b) median (中央値), (c) mode (最頻値).
■これらの方法は異なる概念を示し、異なる計算方法を使用する。

4.2 最頻値
■最も頻度の高いデータ (得点や観測値) の値。nominal scaleを持つデータ (質的な分類に使用する値やカテゴリー変数) にも使用する事が可能。(e.g., 195名の身長を示した図4.1によれば、34名を含む68"が最頻値となる。これをcrude modeと呼ぶ。また、分類が260-279のような幅を持つ場合、crude modeは270と考えられる。)
■最頻値はnominal variablesを扱うときに役立つ。ただし、得点の幅の二倍以上のnがない場合には役立たない。nが少ない場合、最頻値は明確に現れない場合もある (e.g., 268, 273の両方が最頻値となることも考えられるが、もっとデータを増やすことで、最頻値は270となるかもしれない。)
■最頻値が異なる離れた二点にある場合、bimodal distributionと呼ぶ。この場合、major modeとminor modeに分かれる。

4.3 中央値
■分散の50パーセンタイル (そのポイントより下に観測値の半数が含まれる) を示す。よって、中央値の上下には同数のデータが含まれることになる。データが奇数個であり順位変数の場合、中央値は真ん中の値を指す。一方、データが偶数個の場合、中央に近い値2つの真ん中を指す (e.g., (9+11)/2 =10)。
■raw dataが得られないが、図4.1に示されるように分類されている場合には、全体のデータ数 (N = 192) から真ん中の人 (n = 192/2 = 96) が含まれる区分を選ぶことができる。更に、その区分の中にも複数の人 (n = 34) が含まれている場合には、ちょうど96となる値を計算することができる (計算式4.1)。
■中央値は連続する数値をもち、順位で示せる場合に用いることができる (ordinal, interval, ratio scale of measurements)。

4.4 Summation Notation
■sigma (Σ) で示される。
Σin = 1Xi = X1 + X2 +・・・+ Xn (計算式 4.2, p. 53)

4.5 平均値
■averageはmedianを示すこともあるため、混乱を防ぐためにもmeanを使用したほうが良い。nominal variableに使用しない。
■Xバーで示す。
Xバー = ΣiXi / n (計算式 4.3, p. 53)
4.6 More Summation Notation
■各データを何倍か (C倍) にした時の合計 (計算式4.4, p. 54)
各データにある値 (C) を足した後の合計 (計算式 4.5, p. 54)

4.7 Adding or Subtracting a Constant
■定数 (c) を各データに加えた場合、平均値はXバー + c, 定数 (c) を各データから引いた場合、平均値は Xバー - c

4.8 Multiplying or Diving by a Constant
■各データに定数 (c) がかけられている場合、平均値もc倍される (cXバー)。逆にデータがcで割られている場合、平均値もcで割られた値となる (Xバー/ c)。

4.9 Sum of Deviations
■観測値から平均値を引いた値 (Xi - Xバー) を偏差または偏差値と呼ぶ。n個の観測値がある場合、全ての偏差の合計はゼロになる。(※偏差と偏差値は違うような気がしますが?)

4.10 Sum of Squared Deviations
■平均値からの分散を二乗した値の合計は、他の値からの分散を二乗した値の合計よりも少ない。(least squares criterionとなる)
(※最小二乗法: 重回帰式を求める際、実測値と予測値との差の二乗和が最小になる予測値を求める方法を呼ぶ。)
■絶対値を使用した場合には、偏差の二乗和は平均値からではなく、中央値からの場合に最小となる。

4.11 The Mean of the Sum of Two or More Scores
■一人の受験者がk個のテスト (例えば中間テストと期末テスト) に解答している場合、n人の受験者一人ひとりに対しk個の合計点が出されている場合の平均点は ΣkXバーk (計算式4.7, p. 56) である。
■それぞれのテストの平均点が別に出されている場合 (40点、45点、65点) には、平均点の合計がテスト全体の合計と考えられる (40+45+65 = 150点)。

4.12 The Means of a Difference
■プリテスト、ポストテストの得点の伸びを比較したい場合、単純にプリテストの平均値 (97点) をポストテストの平均値 (104点) から引く。104 - 97 = 7点
4.13 Mean, Median, and Mode of Two or More Groups Combines
■複数 (j個) のグループの平均値はそれぞれのテストの合計点を算出 (Xバー * n) し、合計し、n. (= n1+n2+n3…nj) で割るという単純な計算式 (計算式4.9, p. 57)
■一方、中央値や最頻値の計算にはraw dataが必要である。

4.14 Interpretation of Mode, Median, and Mean
■modeは最も多くのデータがある値なので代表的な値といえる。
■medianは観測値を二分する値であり、観測値と中央値の距離の合計は、観測値と他のどの値との距離の合計よりも小さくなる。
■meanは分散の重心となる値である。観測値と平均値の距離の二乗和は、観測値と他のどの値との距離の二乗和よりも小さくなる。
4.15 Central Tendency and Skewness
■正規分布のようにunimodalであり、左右対称の分散の場合、平均、中央値、最頻値は一致する。
■positively skewed distributionの場合、平均値は中央値や最頻値よりも大きくなり、negatively skewed distributionの場合は逆になる。skewed distributionの場合、中央値は平均と最頻値の間に位置する。
■unimodalでやや左右非対称となる場合、中央値と最頻値の距離は、中央値と平均値の距離の2倍となる。 Mode ≒ 3(Median) - 2 (Mean)

4.16 Measures of Central Tendency as Inferential Statistics
■母集団から抽出したサンプルの結果から母集団の傾向を予測するのをinferential statisticsと呼ぶ。母平均μ (ミュー) や母分散のような母集団の未知数のことを母数という。母数のことをパラメータともいう。
■サンプルの結果 (Xバー) とパラメータ (μ) との差をsampling errorという。
■inferential statisticsでは、sampling errorが最も小さくなる平均値が使用される。
(もしmedianを使用して、meanと同等のsampling errorに抑えたい場合には、50%以上多くのデータを取る必要がある。)

4.17 Which Measure is Best?
■答えは1つではない
nominal scaleにはmode
既にある値から更なる統計処理が可能なのはmean
skewed distributionの場合にはmedian

4.18 Chapter Summary
4.19 Case Study
4.20 Suggested Computer Exercise
省略


Chapter 5 (pp. 66-79)
Measure of Variability

5.1 Introduction
■統計的において大切なのは中央の値 (central tendency) と分散 (variabilityもしくは均質性) である。本章ではvariabilityを示す値として使用されるrange, semi-interquartile range, variance, standard deviationについて説明する。

5.2 The Range
■最大値と最小値の差。ただし、数個のoutlierによって極端に幅が広くなってしまうので注意が必要。

5.3 H-Spread and the Interquartile Range
■全体を100%としたとき最初の25%に達する値をfirst quartile, 50%になる値をsecond, 75%になる値をthirdとして、third quartileからfirst quartileの値を引いた値 (range) をinterquartile range (またはH-spread) という。この値を二分割したのがsemi-interquartile rangeと呼ばれる (計算式5.1, p. 67)。
■Md±Q にデータの中央半数が含まれる。Mdの代わりにmidhinge (Q1 + Q3) / 2を使用すると、midhinge±Qにもデータの中央半数が含まれる。

5.4 Deviation Scores
■H-spreadやsemi-interquartile rangeは全ての得点を含むわけではないので、個々のデータに左右されにくい。

5.5 Sum of Squares
■それぞれの値の偏差を二乗し、それを合計した値をsum of squaresと呼び、ΣiXi2で示す。(計算式5.2, p. 68)

5.6 More About the Summation Operator, Σ
■より複雑な計算式 (例えば、観測値に定数を足し、それを二乗した値の和を計算する場合) を示している (計算式5.3, p. 68)。

5.7 The Variance of a Population
■分散に母集団のデータN個全てが含まれている場合、その分散をσ2で示す (計算式5.4, p. 69)。
■ただし、この計算式は、母集団から抽出したサンプルである場合 (データがn個の場合) には使用できない。

5.8 The Variance Estimate from a Sample
■母集団の分散はμを用いた計算式にて算出するのが理想的だが、μは未知数であるため使用する事が出来ない。
■Xバーからμを推定することにより、sum of squaresが実際よりも小さくなってしまう。そこで、sum of squares, Σi(Xi - Xバー)2 をnよりも小さい値、n - 1 (自由度) (ν, ニュー) で割るという手法がとられる (計算式5.5, p. 70)。

5.9 The Standard Deviation
■標準偏差はパラメータをσで示し、サンプルからの予測をsで表す。これは分散 (σ2、s2) の平方根である。

5.10 The Effect of Adding or Subtracting a Constant on Measures of Variability
■平均値Xバーとなるデータ群に対し定数cを加えた場合の平均値はXバー+ c である。その場合の偏差は (Xi+ c) - (Xバー + c) = Xi - Xバー となるため、元々の偏差と変わらない。そのため定数を加えたり引いたりしても、分散 (range, Q, sum of squares) にも影響を与えない。

5.11 The Effect of Multiplying or Dividing by a Constant on Measures of Variability
■定数cがかけられていた場合にはデータの平均はcXバーとなる。したがって、sum of squaresはΣi (cXi - cXバー)2 となる。これを計算すると、c2Σixi2 (p. 71) となる。つまり、元々の分散定数s2 に、定数の二乗c2をかけた結果c2 s2 が、定数をかけた場合の分散となる (計算式5.6, p. 72)。
■標準偏差は分散の平方根であるため、√c2 s2 = |c| sとなる (計算式5.7, p. 72)。
※分散は正であり、標準偏差は負にできないので、絶対値とする。
■もしc = 1/s であれば、√c2 s2 = √(1/s)2 s2、= 1 となる。
■定数cで割った場合には、1/cをかけたのと同様の結果となる。

5.12 Variance of a Combined Distribution
■ことなるデータ群を例えば元のデータが 3, 3, 3, 3と5, 5, 5, 5の場合、それぞれの分散はゼロだが、合わせた場合の分散はゼロにならない。異なるデータ群を合わせたJ個のサンプルの分散を計算する場合には、計算式 5.8 (p. 73) を使用する。

5.13 Inferential Properties of the Range, s2, and s
■sampling errorはサンプル数が増すほど減少する。このような性質はconsistencyとして知られる。全てのsample statisticsはこの性質を持っている。

Expected Values and Unbiasedness
■サンプルの分散s2はunbiasednessを持つことが望ましい。つまり、偏りのないサンプリングが重要。理想的なのはs2がパラメータσ2のunbiased estimatorとなることであり、その場合にはsampling errorはゼロとなる。そのため、サンプルからの予測値 E (s2) がパラメータσ2と一致する計算式5.9 (p. 74) が成り立つ。
■サンプルがunbiasedになるための数は重要となる。sはσを低く見積もる傾向にあるものの、そのbiasは少ない。例えばn = 6で5%であるし、n = 20となると1%となる。
■rangeはデータ数に影響を受けやすいが、分散s2はデータ数に依存しない。※ただし、少ないデータ数でもデータ数が多い場合と同じように算出されるというわけではない。
■表5.1にサンプルサイズによって、期待値がどのように変化するかが示されている。
■Rangeはs2やsの代替としてではなく、補足的なものとして使用されることが望ましい。

5.14 Chapter Summary
5.15 Case Study
5.16 Suggested Computer Exercise
省略
                                                              
(中川)

・ 最頻値を出すためには、分類数×2以上の人数が必要(図4.1の場合、分類の数が13あるため、26名以上が必要となる。
・ 4.9での偏差(値) (deviation, or deviation score) とは、日本で言う偏差値とは異なる。日本の模擬試験等でよく使っている偏差値は、数学・統計上のT-score(T=50+10z)に相当する。
・ 5.8
   は、サンプル数nではなくn-1(自由度)を用いる理由は、母集団の分散に近くなるようにするため。特にサンプル数nが小さいと n で偏差の2乗の和を割るのと n-1で割ると分散がかなり異なることになる。つまりnで割ってしまうと母集団の値のばらつきを小さく見積もってしまうためにn-1で割る。それゆえに、この分散の出し方を不偏分散(unbiased variance;the variance of a population estimated from a sample)としている。しかし、人数が大きくなればなるほど、nとn-1の違いは微々たるものになるのでどちらを使ってもあまり変わらない。母分散を推定するために、通常の統計ソフトはn-1を使用している。
・ 5.12で、異なるデータ群をあわせるときというのは、raw dataが使えない場合に、結果を合わせたい場合に使用する。おそらく、raw dataを用いた場合と、ほぼ同じ結果なるのだろう。
                                                              (森本、平井)

ページトップに戻る


2007/05/18

6.1 The importance of the normal distribution
■ 正規分布はガウス分布やnormal probability curveとしても知られ、統計において最も基本的で重要な分布である。本章では、標準化された得点を用いて、個々やグループのパフォーマンスを描写するのに使われ、またこの後の章でも用いられる。尖度や歪度についても扱う。

Historical Background
■ 正規分布についての研究は、少なくても17世紀から始まった。ある1つのものの重さが測られるときに、観測される重さは同一ではないが、十分な回数を経ると観測の分布が一定のパターン(今で言う正規分布)になることがわかっていた。この分布は、
■ 最初は "normal curve of errors" と呼ばれていた。

6.2 God loves the normal curve
■ 測定誤差以外の観測変数も正規分布(もしくはほぼ正規分布)になることが分かった(コインを10回投げて、表が出る確率など)。正規分布では平均値と最頻値は同一である。Figure 6.1のグラフは左右対称でほとんど正規分布であるが、これは測定誤差によるものではなく、偶然の法則によるものである。
■ どんな実証的な観測変数も完全な正規分布にはならない。なぜなら、観測変数には間があり、連続しているわけではないからである(4と5の間には4.5などが無い)。
■ 19世紀後半に、様々な観測変数は正規分布に大変近くなることが示された(例:Figure 6.2)。ほとんどの変数は正規分布に類似するが、完全な正規分布にはならない。変数自体は正規分布になっても、観測変数は完全な正規分布にはならない。どんなものにでも測定誤差が生じるからである。この誤差は大抵はとても小さいため、実際には無視することができる。推測統計において正規分布が重要視されているのは、その数学的特性のためである。他のどんな分布も、このような特性は持たない。
■ しかし、良いデータは正規分布でなければならないわけではなく、正規分布をなさない変数もたくさんある(例:年収、政治への信念)。
■ 正規分布は全て、山が1つで、左右対称で、μ±σのところにpoints of inflection(カーブが切り替わるところ)があり、端の部分は0に限りなく近づくが0にはならない。

6.3 The standard normal distribution as a standard reference distribution: z-scores
■ テストで42点だということよりも、平均で1.5標準偏差分上であるということのほうが、分布の他の得点とより関わる。標準偏差で表される得点のことをz-scoreという。例えば、IQの平均が100で標準偏差が15の場合、IQ130とはz-scoreが2ということである(数式6.2)。
■ つまり、z-scoreは平均からどれくらいの標準偏差分、上か下に離れているかを示している。正規分布ではほとんどの場合、平均からどれくらいの標準偏差離れているかを知りたい場合が多い。これを知ることができれば、ある得点間については、standard normal curve (AppendixのTable A)を見ることによって分かる。このカーブは、定数が加減乗除されても変わらない。
■ どんな得点でも、平均が0、標準偏差が1の得点に変換することができる。数式6.3やFigure 6.3は、標準得点の式やグラフである。

6.4 Ordinates of the normal distribution
■ カーブの縦座標を知りたいときには、Appendix AのTable Aに載っている。z = 0のときが、最も高い。

6.5 Areas under the normal curve
■ 分布の割合、つまりあるz得点より下にいる割合(=パーセンタイル順位)を知る必要があることが多い。その場合、得点を標準化してTable Aから読み取る。

6.6 Other standard scores
■ そのままの得点よりも、標準化されているほうが解釈がしやすい。標準化されている得点では、平均と標準偏差が一定だからである。これを標準得点という。

6.7 T-score
■ T-scoreは標準得点だが、平均が50で標準偏差が10である。T-scoreが30だったらパーセンタイル順位は2位で、70だったら98位である。Figure 6.5に、z-score, T-scoreや他の標準化された得点の関係が掲載されている。
■ では、なぜパーセンタイルではなく標準得点を用いるのだろうか。なぜなら、パーセンタイルは平均や相関には使えないためである。パーセンタイル順位で90位と95位を比べた場合と50位と55位を比べた場合では、違いが3倍以上にもなる。標準得点では、このようなことが起こらなくなる。

6.8 Areas under the normal curve in samples
■ 平均や標準偏差がサンプルから推定されたものだった場合、Table Aの値は正確ではなく「約」である。この「約」の程度は、どのくらい平均や標準偏差が正確に推定されているかによる。サンプルが100以上あれば、真のz-scoreとは0.1以下しか違わないと考えられ、ほとんどの場合はこれで十分である。

6.9 Skewness
■ 完全に分布を描写するには、中央化傾向やvaraiabilityだけではなく、非対称性の度合いや歪度も必要である。歪度を測定するには2つの方法がある。もしpositively skewedであった場合、平均が最も大きい値で、最頻値は最も小さい値である。Negatively skewedの場合は逆の傾向になる。
■ Figure 6.6は様々な歪度を示している(標準得点)。歪度が変わると、平均値、中央値、最頻値の違いは大きくなる。Karl Pearsonによって、歪度を解釈する6.6の式が示された。この場合、Ωは標準偏差で表した、平均と最頻値の距離である。もしΩ= .5だったら、平均値は最頻値よりも0.5標準偏差分上にある。
■ 推測統計で用いられる際には、この式が修正され、最頻値ではなく中央値が使われる(sampling errorが中央値のほうが少ないため。平均値と最頻値の違いは平均値と中央値の違いの約3倍になる)。これは、6.7式で示されている。
■ γ1はもう1つの歪度を測定する方法であり、推測統計ではこちらが好まれる。
■ あまり普及してはいないが、分布の形を示すために、研究者は歪度の度合いを示すべきである。

6.10 Kurtosis
■ ここまで、中央化傾向、variability、対称性を見てきたが、4つ目の特性は尖度である。正規分布で予測されるよりも、極端な得点が多いのか少ないのかを知りたいときには、尖度が用いられる(6.9式)。
■ Figure 6.7には平均とSDが同じである3つの左側の分布があるが、これらは負の尖度である。これらを尖度が緩い (platykurtic)、という。このような場合には、正規分布よりも、極端な得点が少ない。
■ 一方、右側の分布では尖度が高く、leptokurticと呼ばれる(正規分布では尖度は0である:mesokurtic)。歪度が高い分布は尖度も高くなる傾向がある。
■ 尖度は中央化傾向、variability、尖度よりも注目されないが、尖度はある統計的テストの正確さを評価するときに重要となる(13章にて:信頼区間)。

6.11 Transformations
■ 素点を正規分布に近づける分布になるように変換する場合がある。ルートや逆数にしたり、Logを取ったりすることで、尖度が少なくなることがある。このような変換は、2つの変数間の線形で無い関係を線形にする時もある(8章にて)。Figure 6.6では変換することによる分布の変化を示している。
■ 逆数にすると正規分布が再生され、二乗すると正規分布になる。ルートやLogにすると、Figure 6.6の上の正規分布になる。従って、負の歪度が減る。このように変換することによって、正規分布が必要となる統計を行うことが出来る。

6.12 Normalized Scores
■ もしある変数が正規分布することを仮定されているにもかかわらず、観測したものが正規分布していない場合には、観測された分布を正規化することもある。この変換は単調(順番は維持される)が、線形ではない。
■ 正規化された得点はt-scoreのscaleで表される。元の得点をパーセンタイルに直し、そのパーセンタイルをt-scoreに直すことによって行われる。

6.13 Chapter summary
■ 多くの社会的・行動科学的な変数は正規分布、もしくは正規分布に近くなる。推測統計でも同じである。正規分布は左右対称、山が1つ、そして釣鐘型である。z-scoreが良く知られており、これはTable Aで値を参照できる。t-scoreもある。また、歪度や尖度は、正規分布とは違うことを示すものである。
                                                              (森本)

<ディスカッション&コメント>
・ 正規分布が"normal curve of errors"と呼ばれていたのは、同じものを何度も測ったときの誤差を含んだ値による正規分布だったからであろうか。異なるものを測った正規分布では"error"という語が消えている。
・ 6.4に関して、式の中の 'u'(ユー)は縦座標(ordinate)で、X軸からの高さを指している。
・ 実験のサンプル数が100以上であれば、母集団の平均と分散からの真のz-valueと、サンプルからのz-valueのずれが小さくなることから、サンプル数100以上が一つの目安になることがわかった。
・ 6.9のΩ(オーム)が0(ゼロ)のとき正規分布する。
・ 6.9の6.7式に関して、「平均値と最頻値の違いは平均値と中央値の違いのだいたい3倍」なので式で「3」を掛けているが、荒い式だと思ったが、平均と中央値と標準偏差があれば簡単に歪度を算出できる良さがある。
・ 6.10でのγ1は歪度、γ2は尖度をあらわしている。尖度が緩い場合は、γ2は負の値になる。
・ 4th rootに関しての例)16の4th rootは2である。(2*2*2*2=16)
・ 尖度や歪度の値がどのくらいになると正規性が問題となり、データの変換(Transformation)が必要になるのであろうか? 実際は、外れ値と欠測値を除き、ある程度のサンプル数があれば、問題になることは少ないが、かなり歪んでいた場合や、2つの集団の分布の1方が高い正の歪度、もう一方高い負の歪度の場合は問題となるかもしれない。SPSSで様々な場合のデータ変換が可能で便利だった。
 どれだけ対称から歪んでいるか、正規分布から逸脱しているかをz-distributionで見る方法があるが、これもサンプル数が多いときは実際のデータの分布を見て判断した方が分かりやすい。(Tabachnic & Fidell, 2001, p. 73- 90が参考になる)
z = Skewness / Std. Error of Skewness 
z = Kurtosis / Std. Error of Kurtosis
                                                              (平井、鳴海)

ページトップに戻る

2007/06/01

Chapter 7.
Correlation: Measures of relationship between two variables

7.1 Introduction
・ 「相関」は2つの変数の関係を示すことに用いられる。
・ もし変数Xの得点が低くなると変数Yの得点も低くなるという場合には「相関がある」という。この相関の強さはstrong, low, positive, moderateなどの用語で示される。
・ 2変数の関係や結びつきはcoefficient of correlationによって、その度合いや方向性が表される。

7.2 The concept of correlation
・ coefficient of correlationはKarl Pearsonによって考案された、相関の度合いを示す数値で、rやρ (rho, 母集団に使用される)で示される

7.3 Scatterplots
・ 散布図を用いることにより、2変数の関連の性質が分かる。
・ また、算出されたrが本当に2変数の関係を集約しているかどうかを確認することができる。
・ 図7.1は完全な正の相関を示している (r = 1.00)。また、図7.2は完全な負の相関を示している (r = -1.00)。ただし、これらの値を示すのは非常に稀。
・ 図7.3は変数間に相関がない (r = 0.00) 状態を示している。

7.4 The measurement of correlation
・ Pearsonの相関係数は2変数の線形的な相関の度合い (magnitude) と方向 (direction) を量的に示している。また、名義変数以外の変数に使用できる。
・ rは -1.00から、0を通り、+1.00までの値で変化する。
・ この値を用いることにより、変数間の関連の強さや方向性を比較することが可能となる。

7.5 The use of correlation coefficients
・ 性別、GREの得点、コース成績とT-scoreの関連など、相関係数を例に挙げている。

7.6 Interpreting r as a percent
・ 相関係数は直接パーセント (percentage) として扱うことは出来ない。しかし、標準偏差 (standard deviation) やstandard-score units に対し相関係数を用いる場合にはパーセントとして解釈する事が可能である。
・ 標準偏差で示される場合、相関係数には、Y (the predicted variable) の平均値と個人の値との距離と、X (the predictor) の平均値と個人の値との距離の比率である。つまり、r = .60である場合、個々のデータはXの平均値のから距離に比べYの平均値からの距離はその60%となることを示す (e.g., Xとの距離を100とするとYからの距離は60となる) 。
・ 一方、1 - r は変数Xから変数Yが予測される場合の平均値までの距離である。

7.7 Linear and curvilinear relationships
・ rの値は変数XとYとの線形の関連を示している。
・ しかし、散布図を見ると2変数間の関連が曲線形 (curvilinear) の場合がある。この場合、rは変数間の関連を低く推定してしまう (図7.4や図7.5Bのような場合)。
・ 散布図を見て、線形かそうではないかを確認することが重要である (曲線の場合には8.27にある測定方法を用いる)。ただし、標本数が少ないと判断が出来ない。
・ ほとんどの場合、関連は線形を成す。しかし、天井効果や床面効果がある場合には線形にならない (図7.5A)。
7.8 Calculating the Pearson product moment correlation coefficients, r
・ 2つの変数の標準偏差sxとsy、と共分散 (covariance) sxyが分かれば、ピアソンの相関係数が算出できる。共分散は7.1の計算式で算出可能 (p. 112)。
・ ピアソンの相関係数は7.2の計算式を用いる (p. 112)。

7.9 A computational illustration of r
・ 手計算でいくつか試してみることを薦めます。
・ XとY間の共分散の計算式はよりシンプルにすると7.3 (p. 113) である。

7.10 Scatterplots
・ outliersがないかどうかを確認する上でも散布図をみることが重要である。rの値は数個のoutliersによって大きく歪んでしまう。
・ ただし、outliersは全体的な傾向と異なるからという理由だけで取り除くべきではない。図7.5Bのように曲線形になっている場合、それ自体がデータの性質なので、そのような場合に無理に線形にするべきではない。

7.11 Correlation expressed in terms of z-scores
・ z-scoreで示される分散をもつデータの標準偏差は1となることから、XとYがz-scoreで示される場合には7.4の式 (p. 116) が成り立つ。また、この場合、r (相関) と共分散の値は1つとなる (計算式7.5, p. 117)。X, Yの二つのz-scoreがN人全てのデータで同じ場合、ρ = 1となる。

7.12 Linear transformations and correlation
・ XやYの値の変換 (加算、減算) はz-scoreを変化させないため、相関係数に影響を及ぼさない。例えば、線形変換 (linear transformation) と呼ばれるケース (X' = aX + b, aが正) においてz-scoreには影響がないことから相関係数も変わらない。
・ したがって、XとYの相関係数は素点、z-score、T-score、その他の線形変換後の値で算出しても同じ結果となる。

7.13 The bivariate normal distribution
・ 相関の解釈は正規分布や二変数 (bivariate) の正規分布と強い関連を持つ。変数Xの値が変数Yの値とどのような関連を持つかという二変数の関連を示すのが相関である。
・ Bivariate frequency distributionはX、Y、頻度 (同じXとYの値を持つデータ数) の3つの側面を持っている。
・ 図7.8のように、頻度は高さで示される。
・ bivariate normal distributionは三次元を成し、XとYの相関が高くなるほど、釣鐘型は尖度を増す (※increasingly elongatedと述べられているが高さが増し尖度が高くなるということでしょうか?) (図7.9)
・ bivariate normal distributionには以下の特徴がある。 (1) Xのそれぞれの値に対し、Yの値の分散は正規分布を成す (逆もいえる)。(2) Yの平均値 (Y-means) と様々な値のXが重なる値は直線となる (つまり、線形関係にある)。また逆のことがXの平均についても言える (※これは図7.11のようなことを述べているのでしょうか?)。(3) 散布図が等分散性を持つ。つまり、Yの値の分散はXの値に対して均等であり、逆にXの値の分散は全てのYの値に対し一定である。
・ 標本数が多くなることによって、図7.9のようなスムーズな3次元の曲線が描かれる。

7.14 Effects of variability on correlation
・ 標本の不均一性はrに大きな影響を与える。
・ 測定したい側面以外が均質である場合、観測値が多様であるほどrの値が大きくなる。例えば、あるテストの受験者全体の結果から標本を抽出した場合 (range restrictionを行った場合)、全体の値に比べて低い値が算出される。
・ 図7.11の全体から一部を取り出した場合 (ρ1) には全体 (ρI) に比べ値が小さい。

7.15 Correcting for restricted variability
・ ある集団の相関 (ρI) とXの標準偏差 (σI) と、新しい集団の標準偏差 (σ1) が分かっていれば、新しい集団の相関 (ρ1) も算出することができる (計算式7.6, p. 122)。
・ ただし、計算式7.6の目的はrの値がrestrictedやexaggerated variabilityの結果算出されたものかどうかを明らかにすることである。このことにより、結果の解釈が適切になる。
・ データの不均一性やrXYの低下は標本の抽出によって起こるとは限らない。サンプルに偏りがある場合にも起こる (例えば、高校卒業の成人のIQと読解力の関連は、一般的な成人の結果にあてはまらない)。

7.16 Effects of measurement error on r and the correction for attenuation
・ measurement errorによってrの値は大きく影響を受ける。(それがあることによって値が低くなる)。これはreliability of coefficientsによって測定できる。
・ この信頼性係数はある変数のtwo parallel measures (例えば、同じ項目を二度評価した結果同士の相関など) の相関で示される。
・ もし、変数Xの信頼性が .90であれば、10%の分散がmeasurement errorによるものであると解釈できる。変数Xのparallel measuresの結果はrXXで示される。もし、ある変数Yの信頼性 rYYが .00のように低い場合、その変数を他の変数から予測することは不可能である。
・ 変数XやYのmeasurement errorが大きくなるほど、相関も低くなる。言い換えると、変数が正確に測定されていれば、相関も高くなる。また、テスト項目が多くなるほど、信頼性が高くなる。
・ 以上のようなことから、相関の解釈においてそれぞれのテストの信頼性を知ることが望ましい。

・ 変数にmeasurement errorが含まれない場合の相関係数を推定する方法をcorrection for attenuation (希薄化の修正) と呼ぶ。希薄化の修正にはそれぞれの変数XとYの信頼性係数と相関係数が必要である (計算式7.7, p. 126)。rX∞Y∞は未知の変数を既存の値に基づいて推定する値である。テストの信頼性 (計算式の分母) が実際よりも低く推定されている場合、このrX∞Y∞は実際よりも高く推定されてしまうことに注意する。
・ 例えばMC形式とessay形式で同じ内容を行ったところ、それぞれのテスト項目が少なかったためMCの信頼性 (.50) も、essayの信頼性 (.39) も低かった。二つのテストの相関も.38と低かった。これを計算式に入れると、結果として.86と高い相関になる。

7.17 The Pearson r and magical distributions
・ 変数Xのmarginal distributionとはXの値の頻度の分散を示し、変数Yのmarginal distributionはYの値の頻度の分散を示している。Xが正規分布を成しており、一方Yが歪度の高い分布をしていた場合には、変数間の相関は低くなるように、分布の形が異なるほど、相関 (r) は低くなる。
・ 加算するなどの数値変換をした場合もrにはほとんど影響を及ぼさないことから、変数Xと、それを変換した値X'との相関は非常に高い (ほぼ等しい) といえる。

7.18 The effects of the unit of analysis on correlation: Ecological correlations
・ 複数の分類単位 (school, cities, states, etc.) の集合である観測単位間の相関はecological correlationと呼ばれることがある。それぞれの単位の分析によって、変数間の相関係数が劇的に変化することがある。
・ 例えば同じ値 (データ) に対し、cityやschool districtのように異なる分類単位が用いられた場合、それぞれによって変数間の相関が異なる。そのため、結果の解釈はどの単位が用いられたかによって限定されるべき (用いた単位内についての解釈に留めるべき)。

7.19 The variance of a sum
・ 二つ以上のデータの統合をした場合 (X + Y)、その分散や標準偏差はどのようになるかを計算式7.8 (p. 128) に示している。
※合計の分散 = (Xの分散) + (Yの分散) + 2(XとYの共分散)
・ もしXとYが完全に独立している変数同士であれば、単純に
※合計の分散 = (Xの分散) + (Yの分散) となる
・ 3つの変数の合計を用いる場合には
       ※合計の分散 = (Xの分散) + (Yの分散) + (Zの分散) + 2(XとYの共分散) + 2(XとZの共分散) + 2(YとZの共分散)
・ 4つ以上になった場合にも上記の計算式に足していけばよい。

7.20 The variance of a difference
・ XとYの値の差を用いる場合、分散は計算式7.11で算出される (p. 129)。
・ 2変数 (X、Y) の相関は二つの値の差が小さくなるほど高くなる。

7.21 Additional measures of relationship: The Spearman rank correlation, rranks
・ 順位変数 (rank) を用いる場合、順位の数に関係なく、同じ数のサンプルが含まれればrranksとして算出できる。
・ 順位変数を用いることでoutlierの影響がrのときに比べて小さくなる。
・ XとYの2変数がどちらも順位変数で同順位 (タイ) が含まれていなければ平均も分散も同じであるため、あとはペアの数nによって値が決定する。Diはi番目のケースにおける順位の違いを示している。計算式7.12 (p. 130)。
・ 同順位が含まれない場合rranksはrと等しく、同順位が含まれる場合rranksはrと異なるものの、ほとんど同じである。

7.22 The phi coefficient: Both X and Y are dichotomies
・ イチゼロのような二進法のデータで算出するPearson product-moment coefficientはphi coefficientと呼ばれ、rφはφで示される。
・ pxをXにおいて1であった人の割合とすると、qxはXにおいて0であった人の割合であり、1 - pxである。また、pYをYにおいて1であった人の割合とすると、qYはYにおいて0であった人の割合であり、1 - pYである。これらを念頭におくと、相関の計算式は7.13 (p. 132) のように代数を用いた式で示される。
・ 割合に焦点を当てない場合にはcontingency table (表7.7) を使用する事ができる。表に示されるように、それぞれのセルがa, b, c, dで示されている。この際、px = (b + d) / n, pY = (a + b) / n, pXY = b / nとする。これを用いた計算式が7.14 (p. 133) となる。
・ rφの正の値は、Xにおいて1であった人はYにおいても1の傾向が高いということを示している。この値は絶対値1を最も高い数値 (pxとpYが同じであった場合) とする。

<ディスカッション&コメント>
・ 7.6でのstandard-score unitsは、標準化した得点のこと。
・ 7.6では、なぜYの平均値からの距離はXの60%になるのだろうか。r = .60であれば、Xの値の±40%の値をとると考えられそう(つまり、YはXの値の60%もしくは140%になるのではないか)。
->相関係数は、YとXが同じ単位(標準偏差の単位)で見ると、Yの平均からの距離とXの平均からの距離の比を表しているので、r=.6なら、Xが1.0平均から離れているとするとYは平均から.60離れている関係にあることを表す。よって、YはXの値の60%の値を表し、140%の関係にはならな。
・ 7.13のelongateは、尖度が増すのではなく、引き伸ばされて尖度が下がる(比較的平らになる)ということ。
・ 7.16の希薄化の修正の部分は、2つのテストが同じ能力を測定していることが前提なわけではない。偏相関と希薄化の修正の区別をしっかりと行おう。                  
  ―>希薄化の修正に関して、信頼性の低いデータは測定誤差(誤差分散)が大きいことを意味する。その誤差が多いデータ同士で相関を取ると、一貫性のない誤差と誤差との相関は通常ゼロであるから、その誤差が多く含まれたデータ同士の相関係数は、当然、実際の相関よりも薄まり低い値が生じる。これを、希薄化という。相関係数をより真の相関に近づけるために、
希薄化の修正公式:  があるが、

実際は修正した相関係数を報告している論文は非常に少なく個人的にもほとんど使わない。以前、希薄化の修正を行うと、修正された相関がもとの相関係数よりはるかに高くなり、解釈に困ったことがある。
 α係数などの信頼性係数は、真の値の下限値を取るため、つまり公式の分母を実際より低い値を代入するので、修正された相関は1以上になることもあると学んだことがある。そこで、希薄化の修正をしなければならないほど低い信頼性係数が出たときは、それ以上の分析をするより、まず信頼性のあるデータを集めることが先決ではないか。もし、この公式で修正した場合、修正前と後の相関係数を報告するだけでなく、2つデータの信頼性係数および、どのような方法でその信頼性係数を得たかなども報告するべきだと思う。
 この希薄化の修正公式は、基準テストを選ぶ一つの目安にするのに有用だと当時使用したテキストにある。(Allen, M. & Yen, W., (1979). Introduction to measurement theory. Waveland Press, Inc.)
                                                                  (平井、森本)


ページトップに戻る

2007/06/22  後半の8章はこちら

7.23 The point-biserial coefficient
■1, 0データのような2値の変数が連続変数と相関を持つ場合、point-biserial correlation coefficient (rpb) を算出できる。Yを連続変数、Xを1, 0の変数とした場合 X = 1の人 (n1) の平均点をY1バー、X = 0の人 (n0) の平均点をY2バーとして、計算式7.15 (p. 134) で算出する。n1= n0の場合、計算式7.16が成り立つ。

7.24 The biserial correlation
■2値の変数X が元々は正規分布が仮定される場合 (例: 合格・不合格という2尺度だが、実際は2値以上にできる場合)、biserial correlation coefficient (rbis) を算出できる。この際、計算式7.17 (p. 135) を使用する事ができる。この計算式に含まれるuは、p = n0 / n. の場合の数値をTable Aから読み取った数値。
■ただし、rbisはrを推定するものであり、rpbのように実際に観測されたデータの関係を示すものではない。この係数は、他の係数と異なり、-1以下や +1以上の値となる場合もある。このような値をとる場合には、Yの値が正規分布を成しているという仮定が誤っている場合やsampling errorがあった場合 (nが少なすぎる場合) がある。※データ数が100以上の場合、より正確な相関がでる。
■また、Xの素点が正規分布でない場合や、変数間の関連が線形ではない場合にも、rbisとrとの間には .2程度の違いがある場合もある。

7.25 Biserial versus point-biserial correlation coefficients
■rpbとrbisは計算式7.18を使って等化することができる。
■この場合、ルートの値が最低1.25ないとならない。つまり、rbis ? 1.25rpbとなることから、rbisはrpbよりも25%以上大きくなる。

7.26 The tetrachoric coefficient
■変数XとYの両方が正規分布をなすデータを2尺度に変換したものの場合、tetrachoric correlation coefficient (rtet) を算出することができる。 (例: 変数X = マリファナの合法化に賛成かどうか、変数Y = 中絶の合法化に賛成かどうかのように、実際には賛成・反対の度合いがいくつもあってグレイゾーンがあるような場合) 。計算式7.19 (p. 137) を用いる。計算式中のa, b, c, dは各セルに含まれる数を示している。ux, uyの値はTable Aを参照する。
■rbisと同様に、それぞれの変数の正規性が成り立ち、変数間に線形の関連があることを仮定しなければならない。※データ数が400以上あればより正確な値がでる。

7.27 Causation and correlation
■2変数間に相関がある場合でも、その変数間に因果関係があるとは必ずしもいえない (例: 一人当たりの本の数と、退学者の数の間の相関)。
・因果関係があるような変数間であったとしても、相関係数だけからはXがYを引き起こしているのか、その逆なのかを述べられない (例: 不安がテスト結果を悪くするのか、悪いテスト結果を取るような成績の生徒の不安が高くなるのか分からない)。
・第3の変数が介在して2変数間に相関関係を生み出していることもある (例: 礼拝へ参加する回数と児童の正直さの間には、家庭における教育が影響している)。
・1つの結果を生じさせる要因が1つに絞られる場合は稀であり、大抵の場合には様々な要因が複雑に影響している。

Zero Correlation and Causation
■正の相関がある場合にも因果関係が証明されないように、相関係数がゼロの場合でも二つの変数間に因果関係がないとは言えない (例: テストの成績と学習した時間の間の相関、頭脳明晰な生徒は時間数が少なくても良いなどの要因がある)。統制された実験を行うことで因果関係を検証できる。

Negative Correlation and Causation
■負の相関があった場合であっても、正の直接的な因果関係の可能性を消すものではない。(1000名の人の体重の測定結果と、最近飲んだジュース10本のうち、ダイエット飲料は何本であったかという問いの結果に負の相関があったとしても、ダイエット飲料を飲むことで体重が増えるとはいえない。)

以上のことを鑑みると、相関係数から因果関係を解釈するのは危険であることが分かる。


7.28 Chapter Summary
■相関の度合いを示す数値で、rやρ (rho, 母集団に使用される)で示される
■rは -1.00から、0を通り、+1.00までの値で変化する。
■2変数間の関連が曲線形 (curvilinear) の場合がある。この場合、rは変数間の関連を低く推定してしまう
■散布図を見て、線形かそうではないかを確認することが重要である
■XやYの値の変換 (加算、減算) はz-scoreを変化させないため、相関係数に影響を及ぼさない。例えば、線形変換 (linear transformation) と呼ばれるケース (X' = aX + b, aが正) においてz-scoreには影響がないことから相関係数も変わらない。
■したがって、XとYの相関係数は素点、z-score、T-score、その他の線形変換後の値で算出しても同じ結果となる。
■相関の解釈は正規分布や二変数 (bivariate) の正規分布と強い関連を持つ。散布図を確認すること。
■順位変数 (rank) を用いる場合、順位の数に関係なく、同じ数のサンプルが含まれればrranksとして算出できる。
■順位変数を用いることでoutlierの影響がrのときに比べて小さくなる。
■イチゼロのように2尺度の変数が連続変数と相関を持つ場合、point-biserial correlation coefficient (rpb) を算出できる
■biserial correlationの算出には、もともとのデータの正規性が重要である。
                                                              (中川、平井)

<ディスカッション&コメント>
・point-biserial correlation (点双列相関)とbiserial correlation(双列相関)は良く似ているが、点双列相関は実際の観測データ同士の相関であるのに対し、双列相関は推定相関である。
・点双列相関係数は、例えばそれぞれの項目の 1,0のような2値 データとそのテスト総得点との相関係数を指す。
・双列相関係数は、連続したデータYと背後に正規分布を仮定した2値データXとのピアソン積率相関の推定値である。例えば、男女のように2値以上にできないデータではなく、合否を2値より細かい尺度にし、さらに広範囲にデータを集めれば正規分布を仮定できる。これを背後に正規分布を仮定するという。このように正規分布を仮定したXと、Yとの相関はどうなるかを推定した係数が双列相関係数である。
 当然、点双列相関や双列相関が高ければ、その項目は、総得点にプラスに寄与していることになるので、弁別力(または識別力ともいう)のある項目といえる。それゆえ、弁別力の一つの指標となる。基準はどの程度の弁別力のある項目を使用したいかによるが、r
pb = .2 から .3をcutoff pointとする場合が多いようだ。これらの相関がネガティブな場合は、その項目が、総得点にマイナスに寄与しているだけではなく、まったく別のものを測定しているかデータの入力ミスの可能性がある。そのために、例えば、項目応答理論(IRT)の分析ソフトであるBILOG-MGでは、点双列相関や双列相関の両方が算出され、双列相関が-0.15よりさらに大きいマイナスの数値であれば、IRT分析からはじき出してしまう。
 このように、2値データの背後に正規性を仮定しているため、もし、連続したデータであれば正規分布になるであろうデータ数が(少なくとも無作為に100以上)あればあるほど、r
pbの値はより正確な推定値になる。そのため、サンプル数が少ない場合のrpbは低い推定相関係数しかはじき出さない
・tetrachoric coefficientは、因子分析の背後にあるものについても使用可能であるらしい(この相関係数もデータの背後に正規分布を仮定している。)
・最後の注意点の部分において、相関係数から因果関係を解釈するのは危険と書いてあるが、しかし、相関からしか因果関係を見られない研究もあるのでは。その場合、どうすればよいのだろう。注意深く解釈を行えば、良いような気もする。また、「相関=因果関係ではない」と言い切ってしまうことに対しても、違和感を覚える。
                                                              (平井、森本)



Chapter 8
(pp.152- )
本章では、基準測定を予測するために相関を使用することを主な焦点とする。回帰は通常予測される変数が順序尺度、間隔尺度、比率尺度である時に使用する統計手法である。

8.1 回帰分析の目的(purposes of regression analysis)
・統計手法により、2つ以上の独立変数から従属変数を正確に予測することが可能になる。
・因果関係は不要かつ仮定しなくてもよい(因果関係は予測とは別問題)。
・相関が低ければ低いほど、誤差の範囲は広くなる。
・一つの独立変数(X)から連続従属変数(Y)を予測する線形回帰から取り扱う。

8.2 予測効果 (The regression effect)
・r = 1.0あるいは r = -1.0でない限り、XからのYの予測はすべて平均値に向けて回帰する。つまり、予測されるYのパーセンタイル値はXのパーセンタイル値よりも50に近くなる。
・図8.1→回帰効果の有名な図解(図参照)
・XとYの周辺分布に使用される計算方法は、Tukeyのものと同じ。
・XとYはそれぞれSxとSyとほぼ等しく、両変数は標本誤差を差し引いた場合に正規分布するようである。

8.3標準zスコアで示される回帰方程式(The regression equation expressed in standard z-scores)
・統計的に回帰現象を説明するための理論的にもっとも勧められる方法はXとYをz-scoreとして示す場合にある。
・式8.1参照

8.4 回帰方程式の利用(Use of regression equations)
・回帰方程式の目的は既にあるサンプルによる結果に基づいて新しいサンプルの予測をすること
・直感的かつ概念的目的としては、回帰と予測はz-scoreの観点で論じられる。
・実用的応用としては、Xの観測値からraw scoreのYを予測する回帰方程式を用いる方が利便性が高い。

8.5 デカルト座標(Cartesian coordinates)
・この座標は、1組の数(X,Y)であらゆるポイントの特定が可能になるように面を区画する手段。
・座標(0,0) → X軸とY軸が交差する点。(例:図8.2参照)
・座標面のいかなる直線も単純な方程式で完全に表すことが可能。(図8.2では、Y = .5X+1)
・直線を表す一般的な方程式: Y = bX + c (Yを予測するためのXの線形変換)

8.6 Estimating Y from X: The raw-score regression equation
・独立変数Xから従属変数Yを予測する方程式を得るには、XとYの相関および両変数の平均とSDが必要。
・最小自乗(二乗)法により、回帰方程式をたてる。(式8.2〜式8.2B)
XバーYバーと の交点は回帰直線上に位置し、いかなる座標を表す回帰直線もr値にかかわらず( )を通過する。

8.7 推測誤差(Error of estimate)
・XからYを推測する際に誤差が生じるので、予測値が実際の観測値と一致することはまれ
・式8.3:残差=i番目の人についてXからYを予測する際の誤差=観測値Y−予測値Yハット)
・残差が正の値→観測値 > 予測値
・回帰直線をはさみ、上部のscore:正の残差、下部のscore:負の残差

8.8 決定係数・寄与率(Proportion of predictable variance, r^2)
・表7.3の目的は、Xから説明できるYの変動の割合.
・観測値Y、予測値は等分散で残差の平均は0。
・観測値Yの平方和+残差の平方和=観測値の総平方和  (式8.4)
・回帰方程式により説明できるYの母分散の割合  (式8.5)
・説明できない(予測できない)Yにおける変動の割合  (式8.7)

8.9 Least-squares criterion
・残差の平方和が最小になるようにbおよびcを定める。
・最小自乗法は利便性が高く、推測統計学では好まれるがある状況下では、他の方法が優位な場合もある。
・他の方法では、回帰直線はmeanではなくmedianが使用される。median回帰直線は容易に算出できるが、最小自乗法と比較するとサンプリング誤差が生じやすい。
・式8.2のb,cにより、XとYの散布にかかわらず残差の平方和を最小にした直線を得ることができる。
                                                              (多尾)

<ディスカッション&コメント>
・regression effectは、regression to the mean(平均への回帰)と呼ばれることのほうが多いような気がする。
・図8.1からも読み取れる通り、平均身長よりも父親の身長が低い場合、予測される子供の身長は、父親の身長自体よりも高くなる(平均値に近づく)。一方、平均身長よりも父親の身長が高い場合、予測される子供の身長は、父親の身長自体よりも低くなる(平均値に近づく)

                                                              (森本)

ページトップに戻る

2007/07/13

Chapter 8:8.10 〜 ( pp.161 〜 )  

8.10 等分散性と推定の標準誤差 ( Homoscedasticity and the standard error of estimate )
pp.161
●等分散性=Xの値それぞれに対するYの値の分散が等しくなる状態。
●純然たる等分散性とは、二変数データの母集団の特性であり、サンプル数が小さい場合にはXの2つの値に対するYの分散がまったく等しくなると考えるべきではない。
●図8.4:SATの成績からGPAを予測
●図8.4の箱図から回帰直線:箱(column)の平均を結ぶと描かれる線は大きく直線から外れることはない(関係が線形であることが分かる)また、箱の大きさはほぼ同じであり、等分散性を示している。
●XからYを正確に予測する1つの方法は、残差の分散である。
●推測誤差の分散は、 と表され、同じXの値を持つサンプルのYの値の分散を示す。
●式8.8 ← パラメータ /式8.10 ← 統計的。推測誤差分散の平方根=標準推測誤差
●図8.5:標準推測誤差を用いて予測値 の周囲に区間設定(この区間内に実測値が存在)。
●予測式が大きなサンプルについて適用される場合、正規曲線のもとで区間推定する方法をとる。

8.11 Regression and pretest-posttest gains pp.164
●経験豊かな研究者であっても予測効果の影響を正しく解釈することは困難。
●pre-/post-testと2回測定を行なった場合、post-test(2回目)の得点は、平均値に近づく傾向がある。pre-/post-testを行なって、成績が伸びていると、処置に効果があったと一般に解釈するが、平均より下の群を対象に行なった場合には、post-test(2回目)では平均値に近づく(回帰現象)ために少し上がる。その程度の上昇であれば回帰効果であるから、処置に効果があったと考えるべきではない。例:図8.6
⇒pre-/post-testそれぞれの母平均=100、分散=等しい(つまり、「処置に効果なし」)。
●標準推測誤差を用いれば同じpre-test得点をもつ人のpost-testのSDが分かる。
例:1回目のテストで70の人たち ⇒ 2回目では82となる(SD=12)
●正規曲線から、70の人たちのうち84%が回帰し、そのためにpost-testでは得点が伸びる。
●回帰現象は、処置・練習効果がなくても起こり、著しい伸張と思える結果でもそれは単に回帰現象、回帰効果によるものであることがある。
●「対応有り・繰返し有り」の分析においても通常回帰効果の影響を受ける。
●母平均から外れているサンプルを選び、1回目と2回目の得点を比較している研究および対応のあるデザインの研究には注意が必要である。


8.12 部分相関 ( Part correlation, semi-partial correlation )
●得点の伸びや変化を測るためには、pretest(X3)からposttest(2)の得点を予測し、伸びを測るものとして偏差SD(X2− 2)を用いるとよい。
●この偏差は残差であり、residual gainと呼ばれ、e2.3と表す(図8.7参照)。
●e2.3とX3の相関は常に0。学習程度の測定において、e2.3には、「学習の程度は初めの得点とは相関関係にない」という特徴を持つ。
●X1(IQ)と残差e2.3との相関は部分相関であり、pretest X3から予測できるposttest 2の部分を取り除いた後のX1(IQ)とposttest X2との相関である。
●部分相関を算出する必要は、直接はないが式8.11により得られる。

8.13 偏相関 ( Partial correlation )
●X1およびX2と「固定した」X3との相関が偏相関、つまり残差e1.3とe2.3の相関である。
●部分相関の場合と同様に、偏相関を得るための残差算出は不要(偏相関係数は直接r12、r13、r23から式8.12を用いて算出可能)。
●偏相関の解釈には注意が必要(例pp.168-169):変数の関係が線形でかつ等分散性を持つならば、偏相関係数は「一定にした」X3(年齢)とX1( reading ability )およびX2( visual perceptual ability )との相関係数に等しい。
●例(表7.11):コレステロール値(X1)と心臓発作(X2)の相関はr=.18ではあったが、どちらの変数も年齢(X3)と相関がある。同じ年齢の人についてコレステロール値(X1)と心臓発作(X2)の相関を見る(年齢の要因を取り除く)と、実際の相関はr=.08となる。

8.14 二次の偏相関 ( Second-order partial correlation )
●1つの変数による影響を取り除いた場合の偏相関係数 ⇒ 一次の偏相関係数
 ⇒2つの変数による影響を取り除いた場合の偏相関係数 ⇒ 二次の偏相関係数
●二次の偏相関:2つの変数X3,X4を予測子とした重回帰から予測された後のX1の残差とX2の残差間の相関
 ⇒例:コレステロール値(X1)と心臓発作の相関(X2) ⇒ 年齢(X3)と身長(X4)を固定して

8.15 重回帰と重相関 ( Multiple regression and multiple correlation )
●重回帰:m個(2つ以上)の独立変数からYを予測する場合に最も一般的に用いられる統計手法(式8.14)。
(例)大学のGPAを予測←高校のクラス内順位とSATもしくはACTの成績
●重回帰の目的:最大の精度で独立変数(m個)を合成して変数Yを予測すること
●単(一変量)回帰:1つの独立変数を用いる。最小二乗法によりbとcの値は残差平方和が可能な限り小さくなるように選ばれる。
●bとcは予測値と観測値間の相関が最大になるようにm個の予測子を重みづけする。
●予測値と観測値間のPearson積率相関は、m個の独立変数の重み付けがどれ程の精度で充足変数を予測し、相関関係を持つかを測る。⇒このPearson' rは重相関と呼ばれる。
●式8.14における回帰係数と切片は予測値を提供するだけでなく、Y間の最大の相関を提供する。
8.16 The standardized regression equation
●すべての変数が標準z-scoreで表される場合、raw-score回帰式(式8.14)は単純化される。
●標準化回帰式では、全ての変数は平均=0、標準偏差=1の標準得点に線形変換される。
●式8.16の回帰係数は"beta weights"や標準化回帰係数、あるいは標準化偏回帰係数と呼ばれることもある。
●変数の全ての組み合わせにおける相関が回帰式を得るには必要。
●raw-score回帰式は予測するにはより都合がよいが、raw-score回帰係数の差違は独立変数のSDに大きく左右されるので比較できない。しかし、beta 係数にはこの問題点はない。
                                                                            (多尾)
<ディスカッション&コメント> 
・ 8.11に関して、「その程度の上昇であれば回帰効果であるから」とあるが、具体的にどの程度の上昇かが不明であった。
・ 部分相関と偏相関が混乱し、違いをクリアーにするのが難しかった。
                                                                     (鳴海)


ページトップに戻る

2007/07/26

8.17 The raw-score regression equation
■ RR (reading readiness) testで55点で、IQが120の生徒の予測される平均のreading gradeはいくつだろうか。これらの点数を標準化し、8.16での式に代入すると計算できる。しかし、raw scoreでの回帰式 (式8.14) を使用すると、このような標準化は必要なくなる。
■ 式8.18Aでは、raw scoreでの回帰係数とβの重み付け(β weights)は、標準偏差であるsyとsmが等しければ同じになる。
■ 標準化された回帰式と比較すると、raw scoreでの回帰式のほうが便利である。しかし、全ての変数が標準化されている場合には、独立変数への寄与を評価するには、β weightsはより便利である。

8.18 Multiple Correlation
■ 予測が2つ以上の独立変数から行われているときのYと?の相関をmultiple correlationと言い、式8.19から算出できる。2つの独立変数間に相関が無いときには、multiple correlationはより大きくなる。もし2つの独立変数間の相関が1であるときには、両方の独立変数を用いても、予測はより良くならない(図8.8参照)。従って、重回帰分析を行うときには、独立変数と従属変数が高い相関であり、かつ独立変数同士の相関が低いことが望まれる。
■ めったに無いことではあるが、従属変数と相関が無い独立変数がmultiple correlationを高めることがある。これは、他の独立変数での無関係な変数を抑制することによって起こる。このような場合、この変数はsuppressor variableと呼ばれる。

8.19 Multiple Regression Equation with Three or More Independent Variables
■ 3つ以上の独立変数がある回帰係数の計算は、理論的には複雑ではないが、手計算で行うと時間がかかってうんざりする。しかし、実際にはコンピュータープログラムで行うので問題ない。

8.20 Stepwise Multiple Regression
■ 8.18では、additional predictorが独自に寄与するのであれば効果的であることに触れた。多くの場合、stepwise 回帰分析を行う。この方法では、最も寄与する独立変数が最初の段階として選ばれ、その独立変数だけによる回帰係数やstandard error of estimateなどが計算される。次の段階として、最初に投入された独立変数による予測を省いた中で、最も寄与する独立変数が投入される。

8.21 Illustration of Stepwise Multiple Regression
■ 「生徒の年齢、性別、社会経済的階級、reading readiness、IQから、第一学年末の読解パフォーマンスはどの程度正確に予測できるか」という問いに対して、表8.3は相関、平均、SDを示している。
■ 表8.4がstepwise multiple regressionの要約である。表8.3でSESの方が性別よりY(予測変数)との相関が高いが、表8.4のStep 3では性別が選ばれている。これは、SESの変数よりも性別の方が、先の2つの独立変数を補完しているためである。つまり、二次の偏相関では性別の方が相関係数が高い。

8.22 Dichotomous and Categorical Variables as Predictors
■ 性別のようなイチゼロデータでも、数値のコーディングがなされていれば独立変数として用いることができる。もちろん、このコードは点双列相関係数が解釈される前に行わなければならない。
■ 3つ以上のカテゴリーがある名義変数は、独立変数として用いるためにはJ-1のdichotomies (dummyやindicator variablesと呼ばれることもある)に分解なされなければならない。例えば、3つの民族グループがあったとしたら、2つの独立変数が必要である。つまり、「民族グループAに属していますか?」と「民族グループBに属していますか?」というものである。これら両方にNoとコーディングされていれば、民族グループCに属しているということになる。

8.23 The Standard Error of Estimate in Multiple Regression
■ 表8.4で、CAを用いることでの予測率の上昇はほとんど見られず、また標準誤差は増えている。最も良い3つか4つの変数が投入された後は、回帰係数はほとんど変化しない、というようなことは良く起こることである。

8.24 The Multiple Correlation as an Inferential Statistic: Correlation for Bias(よくわかりませんでした)
■ 回帰係数は、Yと?の相関が最も高くなるように決定されるが、このような処理の際にfitting errorが表れる。この誤差を取り除く方法として、式8.21が最も広く使用されている(SPSSでの修正もこの値らしい)。
■ ここで算出されたRは表8.4で算出されたものよりもやや低い。nの値が小さくなるほど、そしてmの値が大きくなるほど大きく修正されてしまうため、式8.22を用いれば、式8.21は必要ない。
■ もし式8.21を用いるのであれば、全ての独立変数を投入してから行うべきである。

8.25 Assumptions
■ 回帰においては、以下の前提が必要である。
1. Y scoresは独立で、回帰直線の全ての点で正規分布しており、また残差も正規分布していること。
2. ?がX軸上にありYがY軸上にある場合、Yと?の間には線形な関係がある。
3. 残差の分散は全ての?に対して同じである。これをhomoscedasticityと呼ぶ。

8.26 Curvilinear Regression and Correlation
■ 大抵の認知的・心理運動的な変数は線形である。しかし、もし線形ではないときには変換するべきである(8.28で扱う)。もしこの変換が失敗だった場合には、より複雑な回帰式を用いるが、大抵のコンピュータープログラムには、このような回帰式を扱うプログラムが含まれている。

8.27 Measuring Nonlinear Relationships Between Two Variables: η
■ ピアソンのrは線形関係しか描写できないが、もし線形でない場合にはどうすればよいだろうか。Figure 8.9では、40歳までは上昇し、それ以後は下降していることが分かる。式8.23では、2変数の関係(線形・非線形)をηで表すことが出来る(η2は相関比と呼ばれる)。rとは異なり、ηは常に正の値である。ηY.XはYがXから "best-fitting" line(直線・曲線)によって予測される程度であり、ηY.XとηX.Yは通常異なる。

8.28 Transforming Nonlinear Relationships Into Linear Relationships
■ 非線形な関係は、線形に近い関係に変換可能である(Log、二乗、三乗など)。

8.29 Dichotomous Dependent Variables: Logistic Regression
■ 重回帰分析は数が連続している場合のパフォーマンスを予測するものであるため、変数がイチゼロや名義変数である場合にはその前提が満たされない。Logistic regressionの前提は重回帰分析の前提と大変類似しているが、logistic regressionは従属変数が独立変数の線形関係であることを前提としない。
■ Logistic regressionは重回帰よりも前提が少ないが、概念は重回帰分析を同じである。

8.30 Categorical Dependent Variables With More Than Two Categories: Discriminant Analysis
■ 従属変数が2つ以上の名義変数であることは、あまり見かけないが、判別分析がこのような場合に最も広く用いられる。Discriminant scoreに基づいて、あるカテゴリーになる確率がそれぞれ計算される点で、重回帰分析とは異なる。

8.31 Chapter Summary
■ 得点は1-rのSD unitで平均に回帰する。?とYの差は残差やerrors of estimateと呼ばれ、標準化されたものがstandard error of estimateと呼ばれる。
■ 回帰直線はleast squares criterionによって決められる。バイアス(誤差?)は独立変数が多くなり、またサンプルサイズが小さくなるほど大きくなる。
■ Stepwise multiple regressionでは、従属変数と最も相関係数が高かったものが最初に投入される。
■ 2つの変数間の関係が線形ではなかった場合には、ηを用いると良い。
                                                                         (森本)

*ディスカッション&コメント
r2は説明率であり、相関係数とは異なる。
重回帰分析を行なうときには、独立変数と従属変数が高い相関であり、かつ独立変数同士の相関が低いことが望まれるが、それは次のような理由による:独立変数同士がr = .90以上なら互いに阻害する可能性もあるために、重回帰分析からは外す。
二次の偏相関 = partial correlation
Logistic Regressionを用いるのは、従属変数が0.1の時。
                                                                 (多尾)


ページトップに戻る


2007/08/24


Chapter 9 (pp.199-221)

9.1 Introduction
●確率値から推測する方法が発展しているが、「推測」の成否は"extremely unlikely"から"almost certain"まで幅広い。
●確率理論は複雑であるが、仮説の検証や区間推定の統計データを解釈するには確率を理解し得る直感が必要となる。

9.2 Probability as a mathematical system
●標本空間 ( sample space ):実験あるいは観察の結果起こる可能性を点(標本点)で表したときの全ての点の集合(event spaceとも言う)。
●事象 ( event ):観察し得る結果。通常アルファベットの大文字で記す。
*例:つぼの中に白いボールが6個と黒いボールが3個
⇒標本空間=9点。1つボールを取り出すと「白いボール」である結果=事象
●事象Aが起こる確率はP(A)で表す(いかなる事象も値は0から1)。
●事象Aと事象Bが互いに排反(共通の点を含んでいない)であるとき、事象Aあるいは事象Bが起こる確率は、各事象が起こる確率の和 [ P(A or B) = P(A) + P(B) ]
⇒ 表示:A∪B(カップ、ユニオン、結び)

9.3 First addition rule of probabilities(加法定理:和事象、積事象)
●互いに排反である事象A, Bの場合、事象Aあるいは事象Bが起こる確率はP(A∪B)
⇒P(A∪B) = P(A) + P(B)
●互いに排反でない事象A, Bの場合・・・
*例:3回連続でコインを投げるor 3つのコインを一度に投げた場合、8通りの結果が等しく可能。
事象A = Heads on flips 1 and 2
事象B = Heads on flips 2 and 3
事象Aと事象Bが(同時に)起こる確率は?

9.4 Second addition rule of probabilities
●ベン図9.1(p.203) =2つの事象は互いに排反でない(共通の標本点がある)。
●ベン図9.2(p.204) =2つの事象が互いに排反である。
●P(A∪B)を求める場合の式9.5(p.203)
⇒事象A, Bが互いに排反でない場合、各事象の共通点P(A∩B)を2回重複して加えていることになる。intersection(交点)の重複を避けるために、除く。
●大数の法則:確率理論の適用に重要

9.5 Multiplication rule of probabilities(乗法定理)
●式9.6(p.205)
⇒P(A)である事象Aが、独立したr回中にr回起こる確率
●事象の独立性は、統計学と確率において重要な概念である。

9.6 Conditional probability(条件付き確率)
●式9.7(p.206)
⇒P(B?A) = 事象Aが起こった、という条件のもとで事象Bが起こる確率。
注:P(A?B) = 事象Bが起こったという条件のもとで事象Aが起こる確率であり、
P(B?A) ≠ P(A?B)である。
●ベン図9.1から
*例:p.207, 2nd paragraph

9.7 Bayes's theorem(ベイズの定理)
●式9.7はベイズの定理(さまざまな条件付確率間の関係を示す)の最も単純なversion。
●事前確率が正確であれば、ベイズの定理により正確な結果(所望の確率)が得られるが、この事前確率を得ることが実際は困難であり、統計学者の間では大いに物議をかもしている。

9.8 Permutations(順列)
●考慮対象の事物についての配列順序⇒例:Table 9.2(p.208)
●N個の対象物を並べた場合の順列は何通りあるか?
⇒ N! と表し、"Nの階乗"、"N factorial"と読む。
●N!は1からNまでの数字の積で、N個の対象物の順列数に等しい(0!は数学的に1)。
●N!の値は、Nの数が増えると著しく大きくなる。

9.9 Combinations(組み合わせ)
●N個のものからr個を取り出す場合で、その際に順列は考慮されない。
⇒ r = Nの場合:全ての対象物が取り出され、組み合わせは1つのみ(順列N!はあるが)。
r = 1の場合:N個の中から1つだけを取り出すので、N個の組み合わせがある。
●N個から順列は考慮せずにr個を取り出す組み合わせの数は、N個からr個を取り出す順列数を1つの組み合わせ内の順列数で割った数に等しい。
●式9.10の左辺は「N個からr個を取り出す組み合わせの数」と読み、右辺の分子に式9.11を代入すると式9.12になる。

9.10 Binomial probabilities(二項確率)
●式9.13:N回の独立試行の中でAが起こる確率をpとし、B(Aではないこと)が起こる確率をq = 1-pとすると、N回の試行中に「成功(A)」がr回起こる確率を求める。
*例:(p.211, 3rd paragraph)
Table9.1の赤と緑2つのサイコロを投げて7になる確率は、p = 6/36 = 1/6となる。q = 1-p = 5/6となる。よって、全部で5回投げて、4回7となり、1回だけ7以外の数になる確率は?
●二項展開法( binomial expansion ):一回の試行で事象Aが起こる確率をpとする場合、N回のベルヌーイ独立試行で事象Aが起こる回数の確率が求められる方法。
⇒ 式9.15

9.11 The binomial and sign test
●符号検定:N組の観測結果がある二項分布の"non-parametric"法の一つ。
●ある事象が起こる確率が、式9.15から求めた数値で低いと論拠が弱くなるが、caseを重ねていけば強くなっていく。

9.12 Intuition and probability
●「確率」は賭博事業の関連で進化し、確率理論を利用する人々は、直感では同意しかねる結果を生み出すその理論の仕組みと複雑さに恐れをなした。
●確率は集団内の数が大きくなるに従い高くなるものである。
●問題の事象が起こる確率が独立であるなら、この先その事象が起こる確率は過去のいかなるパターンの結果にも影響されない(条件付確率方程式による:式9.7)。

9.13 Probability as an area(面積)
●連続確率変数から推定される値を線で描くと、ある2つの値とその線で囲まれる部分(面積)は、その変数が2変数間のある値を推定する確率と等しくなる。
●図9.4:0から2の間で、等しい確率でどんな値も取りうる確率変数をXとする。全ての値に対してP(X) = .5である場合の確率密度関数を表している。

9.14 Combining probabilities
●複数の確率(検定結果)を結合 ⇒ Stouffer-method (Rosenthal, 1978)
●個々の検定結果のp値をTable A(p.616)の対応するz値に変換し、それらを合計する。次に、検定の個数の平方根で割る。得たz値に対応するp値をTable Aにより変換する。統合されたp値より、有意か否かの結論を得る。
●上記手法では、p値はそれぞれ独立していなければならない。多重測定を行なう単一の研究内では使用してはいけない。

9.15 Expectations and moments(積率)
●モーメント(積率):ある集団がどのような分布を示すかについて、期待値の観点からその分布の特徴(分布の平均値やバラツキ、ひずみや尖り度)を数値化。
●式9.16:Xが離散確率変数である場合のXの期待値、E(X)を表す。
●E(X) = μとも表す。
●Xが連続変数の場合、代数関数によって確率分布を示すことができる。Xが連続変数である場合、単一のXの値に確率を付与することはできないが、Xはある区間に存在すると述べることはできる。
⇒このことから、式9.16により得られるE(X)の定義は連続確率変数には適用できない。
●図9.5:Xが2〜3の値をとる確率は、曲線と2つの値で囲まれた面積と等しいことを示す。
●連続確率変数の期待値は、積分法によって求められる。表記法は離散確率変数の場合と同じでE(X)あるいはμ。

参考:
宮川 公男 (1999). 基本統計学(第3版)有斐閣
                                                                            (多尾)

ディスカッション&コメント
・ヤーツィー(yahtzee)というゲームの話が出て、確率が賭博事業から進化したのがよくわかった。
・9.14で、複数の結果を結合すると有意になりやすくなったので、それは良いのかどうかわからない。メタ分析に近い方法だろうが、複数の研究結果で有意ではないが有意に近くなっていたのなら、統合するとそれは意味がある差になる、ということなのだろうか?
                                                                     (森本)


ページトップに戻る


2007/09/14

Chapter 10, pp.223-239

10.1 Introduction
■本統計的手法の第一の目的は、サンプルからのデータを用いて母集団についての一般化を行うことである。ここでは、本章以降で根本的に必要となるアイディアを示していく。

10.2 Populations and samples: parameters and statistics
■統計的推論(statistical inference)を用いることの本質は、比較的小さい標本集団(sample)から大きい母集団(population)に関する知識を得ることである。サンプルが適切な方法で母集団から抽出されることにより、母集団の特性が明らかになる。
■母集団に対して計算される値をパラメータ(parameter)、サンプルに対しては統計(statistics)と呼ばれる。
■平均点はサンプルの場合Xバー、母集団の場合はμ、分散に関してはサンプルがs^2、母集団がσ^2と表記される。また、統計rはパラメータрの推定(estimate)である。この推定がパラメータについての情報を提供することになる。

10.3 Infinite versus finite population
■物理的項目(学校数や人数等)は有限であるものの、母集団のサイズは無限であると捉えられがちである。
■しかし、そのような区別を心配する必要はない。サンプルとして抽出された要素の割合が5%より大きくならない限り、有限・無限の両方に対するテクニックは同じ結果をもたらすとされているからである。
■つまり、ほとんどの応用統計的手法は無限の母集団がサンプルとして抽出されるという仮定に基づくものである。

10.4 Randomness and random sampling
■統計的推論の妥当性においては、サンプルがどの程度母集団を代表しているのかということが最も重要なこととなる。
■サンプルがどんなに大きくても、それが代表性(representativeness)の欠如を穴埋めすることはないのである。

10.5 Accidental or convenience samples
■この抽出法はよく使われる手法であるが(例えば街角やメディアによって募る方法)、適切であるとは言えない(代表性に欠ける)。

10.6 Random samples
■代表性に関してはここでも問題になるが、サンプルがランダムに抽出されれば、そのサンプルは母集団を代表する傾向にあるということになる。つまり、ランダム抽出は、ある特定の(母集団とサンプル間の)誤差の範囲内で代表性を保証するものであり、パラメータが特定の可能性を持って落ち着く限度の設定を許容するのである。
■このエラーを推定する能力がランダムサンプリングにおける重要な特徴である。つまり、統計的推論のプロセスはサンプルからパラメータの推定を行うことと、その中でサンプリングエラーの大きさを決定することが含まれる。このエラーは10%以下であるべきと言われている。
■また、ランダムな抽出はシステマティックなバイアスを避けることにもなる。

10.7 Independence
■ランダムサンプリングでは、サンプルとして抽出される個人には、抽出の可能性に個人間で差がない、他人からの影響を受けない等の抽出の独立性が保障されていなくてはならない。
■教育に関する研究分野において、特に対象とするクラスや学校を選択する際にこのような問題に陥りやすいことは留意しなくてはならない。
■しかし、現実的に完璧なランダムサンプリングを達成することは不可能であるのも事実である。

10.8 Systematic sampling
■例えばランダムに選択した番号(ここでは13)から、43、73, 103, …2983というように30番置きの番号を選択していくといサンプルの抽出法をシステマティックサンプリング(systematic sampling)と呼ぶ。
■利点としては実施が容易であること、ランダムサンプリングよりもわずかに正確さが高く、エラーが少ないことなどが挙げられるが、長期的な視野では、推定がどの程度正確なのかということを判断する手段に欠けるということが、欠点として挙げられる。
■しかし、適切に行われれば、少々の差があるものの、両者の手法の結果を一般化することは可能となる。

10.9 Point and interval estimate
■Point estimatesとはパラメータを推定するときに用いられる単一の値である。Interval estimatesとは推定の度合いの正確さを表すpoint estimatesの概念上に立てられているものである。
■E(Xバー)=μはXバーがμのunbiased point estimatesであることを示す。
■Interval estimatesはパラメータの上下限を示すものであり、Point estimatesだけではその推定がどの程度正確なのか知ることができない。


10.10 Sampling distribution
■とある母集団からn人のサンプルを抽出し、Xバーを計算するというプロセスを1000回繰り返したとすると、サンプルの統計(statistic:例えば平均値)の度数の分布(frequency distribution)が1000通り得られることとなる。つまり、Xバーの度数分布が平均値の標本分布(sampling distribution)となる。

10.11 The standard error of the mean
■標本の平均値とパラメータ(μ)からどの程度離れているのか、つまりサンプリングエラーの大きさを算出する場合には式(10.1)を用いる。
■σXバーで表される平均の標準誤差(the standard error of the mean)とは、サンプルの平均(Xバー)におけるサンプリングエラーの標準偏差である。
⇒ランダムに抽出されたサンプルの平均を求めるというプロセスを無限に繰り返した結果、得ることができる標準偏差(σXバー=3.0)。

10.12 Relationship of σXバー to n
■サンプルの数(n)が4倍されると、σXバーは半分になる。
■E(Xバー)=μは、サンプルの平均の期待値はパラメータと同等であることを示す。つまり、統計の期待値は標本分布の平均値である、ということができる。

10.13 Confidence interval
■母集団の平均μを推定するためにはXバーをどのように使えばよいのだろうか。もしn=225の場合、σXバー=1.0となり、標本分布において68%の平均がμから1.0離れていると言うことができる。つまり、サンプルの平均の周辺区間68%にμの値が存在しており、信頼区間.68はXバー+/-σXバーであると言える(10.2)。
■信頼区間としては.95がよく用いられる(10.4)。

10.14 Confidence intervals when σ is known: an example
■100回行うIQテストで、50000人のこどもの平均IDを予測した。
■n=100、σ=15、信頼区間は.95で分析した結果、サンプルの平均は105であり、.95CI=105+/-2.94となった。つまり、σは最低102.6, 最高107.94の間に存在することが分かった。
■より高い正確性を求めるならば、つまり信頼区間を狭めるのであれば、サンプルの人数を増やさなくてはならない。

10.15 Central limit theorem: A demonstration
■中心極限定理(Central limit theorem)とは、無作為に抽出されたサンプルの平均の標本分布が、母集団の形に関わらず正規分布に近づくという理論である。
■中心極限定理の妥当性を示すために、異なる3つの母集団(正規、長方形、歪:μ=100; σ=15)が1から25までのサンプル数によってどのような影響を受け、どのように変化していくのかをFigure 10.3に示した。次の2つの一般性が示されるだろう。
@母集団に正規性が見られなくても、nが上昇するにつれて標本分布が急速に正規性に近づく。
Anの増加に伴い、Xバーの標本分布の変動性(variability)は減少する。しかし、その減少は母集団に正規性が見られなくても式10.3によって正確に説明される。
■例えばPanel Dの左のグラフでは、平均値が10000回繰り返し計算されている。これが1000000回繰り返されるならば、標本分布は完全に正規性を成し左右対称になるはずである。
                                                                             (今野)

ディスカッション&コメント
・有限の集合である場合、サンプル数が母集団の5%(もしくは10%)以下なら有限・無限の区別を心配する必要が無いというのは、サンプルの割合が小さいほど、背後に仮定する母集団が無限に近くなるからであろうか。
・10.6のエラーが10%以下であるべきというのは、何の10%以下であるべきなのだろうか。
・10.8でsystematic samplingの方がrandom samplingよりも正確さが高まるのは、randomだと偏ってしまう可能性があるため。systematic samplingでは、偏る可能性がより低くなる。
                                                                            (森本)



ページトップに戻る


2007/09/28


Chapter 10 後半, pp. 239 - 253

10.16 The use of sampling distributions
■標本分布 (sampling distribution) は母集団からサンプルを抽出する作業を繰り返し行うことによって推定されるが、実際には母集団から一度だけn個のサンプルを収集し、信頼区間 (confidence interval, CI) を推定することが行われている。母集団の平均μが .95CI から外れる可能性は5%であるといえる。

10.17 Proof that (σxバー)^2 = σ^2/n
<計算式の前提>
■平均値μ、分散σ^2を持つ母集団から標本 (X) を繰り返し抽出する場合、標本の平均値は
(X1 + … + Xn) / n となる。Xバーの期待値E (Xバー) は、E [(X1 + … + Xn) / n]
 ここで、標本Xが全て母集団と同じ平均や分散を持っていると仮定すると、計算式は次のようになる: 
 E (Xバー) = (1/n) (μ+μ+ … + μ) = (1/n) (nμ) = μ
■毎回 n = 1 の標本が繰り返し抽出されるとすると、母集団の分布と、標本分布は等しくなる。
(σ^2/n =σ^2/1 =σ^2)
■ランダム抽出されたサンプルの分散について。各サンプル群はランダムに集められているので、無関連であり、相関 (correlation) や共分散 (covariance) の値もゼロである。
■もし、それぞれの数値に定数 (e.g., 1/2) が掛けられると、その分散は元々の数値を使った分散をその定数の二乗した値 (e.g., (1/2)^2) で掛けた値となる。
・・・など

■<計算式10.7> 分散がσ^2の母集団からランダム抽出されたn個のサンプルの平均の分散は、
(σxバー)^2 = σ^2/n
■(σxバー)^2 は、variance error of the mean とよばれる。この平方根の正の値はstandard error of the meanとよばれる。<計算式10.8>

10.18 Properties of estimators
■予測変数 (estimator) はサンプルに基づく統計値であり、母集団のパラメータに加えてエラーの値も含まれる。(よく分からない)
■例えば、母集団の平均μの予測変数は標本の平均値Xバーであるといえる。しかし、平均値以外にも、中央値や最頻値など、さまざまな予測変数を使用できる。ただし、Xバーが最も良いと考えられる。その理由としてunbiasedness, consistency, efficiencyがある。

10.19 Unbiasedness
■推定される母集団にどのような特徴がある場合においても、標本の平均値Xバーは母集団の平均値μのunbiased estimatorである。つまり、母集団の平均が100であるとき、抽出した標本の平均値もほぼ100となるといえる。
■平均値と異なり、バイアスのある値もある。例えば母集団における二つの変数の相関を示すρを推定する場合、標本の相関rは常にρよりも低く算出されてしまう。このような条件をnegatively biasedという。
逆にE (θハット) > θとなることから、θハットは、positively biasedとされる。
■標本の分散はS^2 = (Xi - Xバー)^2 / (n - 1) である。
単純にnで割る方法も考えられるが、(Xi - Xバー)^2 / nはσ^2のとしてnegatively biased estimatorであるため用いられない。ただし、100以上のサンプルがあれば、(n - 1) / n の値は 1 に非常に近くなるので、バイアスは小さくなると考えてよい。
■ n - 1 が使用される根拠は特にないし、n - 1 とすることでunbiased estimatorになることが実証されているわけではない。
■一方、S^2をσ^2の予測変数として使用する事は数学的に証明されている。<計算式10.9、10.10>
■10.9と10.10の計算式に書かれているμとσの差は、s / [4 (n - 1)] である。この計算式から、nが非常に小さな値でないかぎり、バイアスは小さいと考えられる。
■Table 10.2 に、それぞれのestimator がparameter の推定に際し、母集団の分散によってバイアスが生じるかどうかを示している。

10.20 Consistency
■バイアスの有無にかかわらず、一貫性のある結果が産出されるデータであればサンプル数が多くなるにつれてのvalue of the parameterへと近づく。

10.21 Relative efficiency
■バイアスや一貫性よりもefficiencyの方が重要である。このefficiencyとは予測変数から母集団を推定する際の精度を指す。また、efficiencyとは予測変数に関連するサンプリングエラーを指すこともある。
■標本分布の分散をvariance errorとしている。
■例えば母集団の平均μを推定する場合、n個のサンプルの平均Xバーや中央値はunbaiased estimatorといえる。しかし、実際にはXバーの方が良いとされる理由にはXバーの方が、分散が小さいため、精度が高いと考えられるという点がある。
 ・サンプルの中央値の分散の算出方法 <計算式10.11>    ⇒Xバーの2/3程度の精度
 ・サンプルの中央値のstandard errorの算出方法 <計算式10.12> ⇒ Xバーの場合の1.25倍
 ・Xバーと中央値の標本分布についてはFigure 10.5を参照。
■ここで示されたように、平均値を用いた方が精度が高いため、中央値よりも平均値がestimatorとして用いられる。
                                                                                  (中川)

ディスカッション&コメント
・Relative efficiency について、平均値を用いた法が精度が高い(中央値を使用した方が分散が広がってしまうので)ため、中央値よりも平均値がestimatorとして用いられる。
・分散を求める際にn-1が使われる根拠で明確なものはない。
                                                                            (多尾)


ページトップに戻る


2007/10/13


Chapter 11 前半 (pp.255-264)

11.1 Introduction
●大部分の実証的研究(行動科学)では、仮説検定・区間推定が使用され、区間推定での考え方の多くが仮説検定においても中心的な役割を果たす。
●無作為抽出・標本分布・確率を理解することが仮説検定には欠かせない。
●観測標本から母集団についてどのように推測できるか?

11.2 Statistical hypotheses and explanations
●統計的仮説検定の起こり:18世紀初期、John Arbuthnot
●特定の(ある)条件や前提を鑑みると、統計(学)によってある事象の確率を割り出すことはできるが、統計(学)それ自体は本質的に現象の説明や解釈を与えてはくれない。

11.3 Statistical versus scientific hypotheses
●2種類の区別すべき仮説
@科学的仮説:理論的な考えに基づいて大まかに予測される結果に基づく。
A統計的仮説:検定可能な命題とされる詳細な情報に基づいた推測。すぐれた統計的仮説は独創的な洞察力の結果設定される。統計的仮説は未知なる変数の数値についての記述。
●@Aを区別することは重要であり、一般性及び重要性が低く、極些細な事例における統計的仮説も検証することは可能である。
●科学的仮説は、すべて統計的検定を必要とするわけではなく、統計的仮説についてもすべて実用的あるいや科学的利益をもたらすわけではない。

11.4 Testing statistical hypotheses about μ
●統計的仮説は真偽いずれにも推測される。推測統計手法では仮説が論証可能であるか、棄却すべきかに関して誤差が生じる。
●表11.2 →全ての統計的仮説検定に必至の4つのstep:
 @仮説を述べる、A危険率設定(α= .05)、B確率を求める、C検証

11.5 Testing H0: μ = K, A one-sample x-test … 表11.2の実例
 @仮説(H0):養子のIQ平均値は、一般の子のIQ平均値(μ= 100)と同じである。
 A危険率:α = .05 (通例この値)
 B無作為抽出で養子(n = 25)のIQ平均値 = 96.0。
  仮説(H0)=100であれば、確率( p )はμ=100を中心に4ないしそれ以上異なる標本平均となる確率と設定。
 C確率( p ) < α( .05)であれば、仮説(H0):μ=100は.05の有意確率で棄却される。
  → 標本平均 = 96.0の場合はどうなるか?
●national test normsによればσ=15であるので、n=25の時の平均値の標準分布におけるSDは式10.1から3.0。
●式11.1をもとにz値を求め、それを正規曲線表で見ることで標本平均が96.0あるいはそれ以下である確率が決まる(帰無仮説が棄却できない場合。)。

11.6 Two types of errors in hypothesis testing
●仮説が正しいにも拘わらず、この仮説を棄却してしまうこと→第1種の誤り(α)
●仮説が正しくないにも拘わらず、この仮説を採択してしまうこと→第2種の誤り(β)
●仮説を棄却することはその仮説が「正しくない」ということを証明しているわけではない。100%の確信を持って認められる仮説などないのである。

11.7 Hypothesis testing and confidence intervals
●信頼区間はおそらくあらゆる種の推測統計手法に最も役立つ(Tukey, 1960, p.429)
●区間推定により、変数推定の正確度が示される:μについての仮説検定結果について容易に判断を下すことができる。
●.99の信頼区間内に統計的仮説によって特定された変数値が含まれなければ、その仮説は.01に有意確率で棄却されると述べるに等しい。

11.8 Type-U error, β, and power
●仮説(H0)を支持(棄却できない)と判断するのは間違いである(たとえば実際はμ≠100であるのにμ=100であると結論づけて正しくないH0を採択してしまう)
→第2種の誤り

11.9 Power
●もし本当はμ=110であるとしたら?→仮説(H0):μ=100である場合には、μ≠100であるとして仮説は棄却したいところ…。では、H0を棄却できる確率は?
●誤りであるH0を棄却する確率→統計的検定の検出力(power)

11.10 Effect of α on power
●仮説(H0):μ=100、対立仮説(H0):μ≠100を検証する(α=.10)場合は、検出力はα=.05の時より強い。→図11.2
                                                                                  (多尾)
ディスカッション&コメント
・有意性検定では、検証目的で立てた対立仮説と帰無仮説は混同しやすい。「第1種の誤り」は、帰無仮説が真であるのに棄却した(つまり、有意だと判断した)場合、反対に「第2種の誤り」は帰無仮説が棄却できる(つまり、有意差がある)のに、棄却しなかった場合。
統計処理結果を他の人と相談し合うときも、論点が帰無仮説なのか対立仮説なのか、常に確認し合ってないと、誤解を招きやすいので注意したい。
・Power(検出力)も調べておくと、標本数不足が原因で有意性を見落としていないかを見る目安となる。仮に現行の研究で仮説を立証しきれなくても、今後の標本数確保等、調査デザインの改善への参考となるかもしれない。                  (長橋、平井)


ページトップに戻る


2007/11/30

Chapter 11 後半 (pp.264-276)

11.11 Power and the value hypothesized in the alternative hypothesis
■行動学の研究では、パラメータの1つの数値から仮説の検定力を算出するだけで十分である、ということはまずない。通常、いくつかの異なるパラメータの値を用いて検定力を調べる。検定力は、(a) reasonableな、もっとも大きいパラメータ値、(b) practicalな興味から、最も小さいパラメータ値、(c) 最もreasonableな予測や "best guess" な中間の値、によって決定されることが多い。他の値が使用されるときには、Figure 11.4のグラフが構築される。
■実際のμの値と仮定されたμの差が大きくなるほど、検定力は増え1.00の値に近くなる。また、どのようなμの値であっても、サンプルサイズが大きくなるほど検定力も大きくなる。
■通常、現実的な中で最大限のサンプルをとり、そのサンプル数で十分な検定力があるかどうかを決定しなさいと助言されるであろう。もしサンプル数がとても大きくて帰無仮説の検定力が非常に大きいのであれば、そんなに大きなサンプル数を使う必要は無い。但し、信頼区間は大きなサンプル数を使えば小さくなる。
■α = .05のときに検定力は.90以上なのが望ましい。

11.12 Methods of increasing power
■仮説検証の手順では、以下のことが言われている。
 (a) 検定力はサンプルサイズが増えるほど高くなる
 (b) 検定力はαが増える(例:.05から.10に)ほど高くなる
 (c) 検定力は、テストされるパラメータの真の値が仮定されている値よりも離れると高くなる。
■ある条件下では、Type I errorを.10まで大きくして検定力を上げることも考えた方がよい。

11.13 Nondirectional and directional alternatives: Two-tailed versus one-tailed tests
■対立仮説であるH1はnondirectional (two-tailed) にもdirectional (one-tailed) にも成りうる。nondiretionalなものは、μは0ではないが、0より上か下かを言及しないものである。一方、μ > 100という対立仮説はdirectionalであり、調査者はμは100以下にはなり得ないと仮定している。
■この場合、μが100以上になるときのみ帰無仮説を棄却できるため、棄却するためにはsampling distributionの右側に無ければならない (Figure 11.5)。
■Figure 11.3とFigure 11.5を比較すると、directionalな場合の方が検定力が高いことがわかる。
■実験を行う前にdirectionalな対立仮説を用いると述べなければ成らない。directionalな対立仮説を用いた場合、実際のType I errorの確率は.05ではなく.10である。directionalな仮説が正当化される例には以下のようなものがある。
・初期の認知能力の発達はIQを増加させる
・10歳児は8歳児よりもピアノの上達が早いか  などなど

11.14 Statistical significance verses practical significance
■サンプルサイズがとても大きい場合、ほんの少しの違いでも有意な差になってしまうかもしれない。「統計的に差がある」というのは偶然で予想されるよりも差が大きいということを意味するのみであり、その差が大きかったり重要だったりすることを示唆するわけではない。
■有意性検定は非常に頼りにされている。有意性検定を行うときには、信頼区間も報告した方が良いであろう。信頼区間を報告することで帰無仮説を誤って棄却してしまう可能性を減らすことができる。

11.15 Confidence limits for the population median
■母集団の中央値の信頼区間はrandom samplingのnから決定される。

11.16 Inferences regarding μ mean when σ is not known: t versus z
■教育的な目的で、仮説検証の概念や方法はz-testで表されてきた。しかし、もしσの値がわからない場合、t-ratioと呼ばれる (z-ratioではない)。もしnの値が大きければσの値はとても正確になりtとzの差はほとんどなくなる。しかし、nが小さい場合にはtとzはかなり異なる。正規分布とは異なり、t分布は1つだけではない。自由度(v)によってt分布は異なる。

11.17 The t-distribution
■t分布は0を平均としていて最頻値が1つの左右対称な図である。z分布の分散は1だが、t分布の分散は1より大きい(t分布の分散はv/(v-2)であるため)。vが小さいときにはt分布の尖度が大きくなる(つまり平らになる)。従って、そのような場合には5%が|t| = 1.96より大きくなる。
■vがかなり大きいときにはt分布は正規分布と同じになる(Figure 11.6参照)。また、Figure 11.7はtのcritical valueと自由度の関係を表したものである。vが増すとtの値はzの値の近づく。

11.18 Confidence intervals using the t-distribution
■σではなくsを用いた場合の方が信頼区間がやや広くなる。

11.19 Accuracy of confidence intervals when sampling non-normal distributions
■Figure 11.3にある通り、サンプル数が5人でも信頼区間はかなり正確になる。

11.20 Chapter summary
■仮説検証は推測統計で最も良く使われる方法である。仮説検証では観測された差が、帰無仮説よりも大きいかどうかの可能性を調べる。その可能性が5%より小さければ帰無仮説は棄却される。棄却されない場合、第一種の誤りは起こらないが、第二種の誤りが起こる可能性がある。第二種の誤りとは、本当は棄却すべき帰無仮説を棄却しないという誤りのことである。
■第一種の誤りの危険が少ないほど、第二種の誤りの危険が多くなる。逆に、α = .10の時には、α = .05や.01のときよりも検定力が増す。第二種の誤りを犯さないことを検定力という。検定力はサンプルサイズが増すと増える。
■正規分布は1つだけだが、t分布にはたくさんあり、自由度によって変わる。
■有意性検定では違いの大きさはわからないが、有意差があると分からなければ、どんな種類の有意性があるかどうかはわからない。
                                                                             (森本)

ディスカッション&コメント
・検定力とは差があるといえる確率を表す。
・尖度が大きくなる (leptokurtic) とカーブが急になるわけではないのか?辞書の定義だと尖度が大きいとは平均値の辺りに集中している分散を表し、尖っていることになるはずであるが、その定義だと本文と合わなくて混乱した。                    (鳴海)

ページトップに戻る

2007/12/21

Ch. 12. Inferences about the difference between two means.

12.1 Introduction
■ 推測統計の考察は以下の段階を踏む。
・帰無仮説を述べる
・前提を述べる
・統計手法を明確にする
・サンプルの分布を定義する
・有意水準を定める
・信頼区間を定める
・説明をする
・(もしあれば)その他特別に考慮することを述べる

12.2 Testing statistical hypotheses involving two means
■ Ch. 11ではμ = kという帰無仮説について扱ったが、2つの平均値の差についてのほうがより興味深い(treatmentが効果的だったか、など)。

12.3 The null hypothesis, H0: μ1−μ2=0
■ 12.2で挙げた質問に対する帰無仮説はμ1 = μ2もしくはμ1−μ2=0である。

12.4 The t-test for comparing two independent means
■ あるグループが特別なtreatmentを受け、もう1つの別のグループが受けなかった場合、2つのグループは独立しているといえる。しかし、あるグループのpretestとposttestを比べる場合はpairedであったり相関があるために、独立しているとはいえない(これについては12.13で扱う)。
■ 帰無仮説はμ1−μ2=0であり、対立仮説はμ1−μ2 ≠ 0である。
■ 分散の等質性と各サンプルがそれぞれの母集団からランダムに取り出されていることが前提である。
■ 帰無仮説はp. 285の上の式で計算される。パラメータは一定であるため、パラメータとサンプルのSDの差は、サンプルのSDと同じである。従って、この式はSstatisticsとtで表される。
■ z-ratioと異なってt-ratioはパラメータではなくサンプルについてである。従って、t-ratioではsampling errorは分母にも分子にも影響する。
■ t検定の式は12.1の通り。

12.5 Computing S(Xバー1−Xバー2
■ s2はSS/dfで求められる。

12.6 An illustration
■ 環境の刺激が幼児の知能を伸ばせるかどうかに興味があるとする。18名の幼児が実験群で、他の18名が統制群である。2年後にこの36名の幼児に対して知能テストを行った。
■ Table 12.1では帰無仮説は棄却されていない。しかし、10%水準にすると棄却される。また、t検定の分母はサンプルサイズに大きく影響される。サンプルサイズが大きくなれば分母が小さくなるため、サンプルサイズが大きいと小さな差でもt値が大きくなる。
■ t値が有意水準の値を超えたら帰無仮説は棄却されるが、超えなければType II errorが起こる。Type I errorとType II errorはトレードオフの関係にある。
■ p値については、なるべく正確に報告するのが良いであろう。p > .05と書くよりも.10 > p > .05と書くほうが望ましい。

12.7 Confidence intervals about mean differences
■ 95%信頼区間の中に0が含まれていると、帰無仮説を棄却できない。今回は-.89から20.29の間にあるため、棄却できなかった。

12.8 Effect size
■ 効果量は差の大きさを調べるのに有効である。12.7A, 12.7B式で求められる。

12.9 t-test assumptions and robustness
■ t検定における3つの前提は、正規分布していること、等分散であること、それぞれのサンプルが独立であること、である。
■ 正規分布については、両側検定を用いれば正規分布をしていなくてもほとんど結果に変わりはないことが言われている。サンプルサイズが大きければ(15以上)、type I errorの違いは1%以内におさまるだろう。また、Type II errorについても、正規分布していなくても影響されない。従って、正規分布については両側のt検定を用いれば必要な前提にはならない。片側検定の場合には、サンプルサイズが小さいグループでさえ20名は必要。

12.10 Homogeneity of variance
■ t検定は等分散性についても頑健であるといわれている。特に、サンプルサイズが2群の間で同じの場合には問題にならない。Figure 12.3に、サンプルサイズが同じときと異なるときのグラフが掲載されている。
■ 2群の間でサンプルサイズが大きいグループが、分散が大きい母集団から取り出されてきた場合には、t検定はType I errorに対してconservativeになる。一方、サンプルサイズが大きいグループが分散が小さい母集団から取り出されてきた場合には、Type I errorを犯す確率がたかくなる。

12.11 What if sample sizes are unequal and variances are heterogeneous: the Welch t' test?
■ サンプル数も分散も異なる場合には、Welch t'-testを用いることができる。t'の値は通常のtの表から読み取ることができる。等分散性が仮定されない場合、t'はtよりもやや検定力が弱い。

12.12 Independence of observations
■ 独立したグループというのは、2群がpairedされていなかったり、相関がなかったり、関連がない、ということではない。何かしらの関係が2群にあるのであれば、dependentなt検定を用いるべきである。このindependence of observationは重要である。これがなければ、Type I errorやType II errorの確率は正確ではなくなる。

12.13 Testingμ1 =μ2 with paired observations
■ 今まで見てきたt検定と異なるのは、平均の違いの標準誤差と自由度である。
■ サンプル同士に相関があることが仮定されている(同じ子供の1年後、男の子たちとその姉妹たち、夫と妻など)。
■ paired t-testはindependent t-testよりも検定力が高い。

12.14 Direct-difference method for the t-test with paired observations
■ 同じ群について比べるのであれば、高い能力の学生はposttestでも高い得点を取ることが予想される。このような相関が考慮されている。こうすることで検定力が上がる。

12.15 Cautions regarding the matched-pair design in research
■ paired t-testを用いたからといって、完全に2群が等化されているわけではない。

12.16 Power when comparing means
■ 効果量の検定力(power for effect size)については、.2σがsmall, .5σがmiddle, .8σがlargeと言われている。様々な場面における効果量についてはTable 12.4に掲載されている。
■ このpowerは実験を計画するときに推定されているべきである。

12.17 Non-parametric alternatives: The mann-whitney test and the wilcoxon signed rank test
■ Mann-Whitney testは2つの独立した群に対して使用する。この方法は、正規分布していないときに良く使用されていたが、t検定が正規分布していないときでも頑健性があることがわかってからは、あまり使用されなくなった。特に外れ値がある場合にはMann-Whiteneyはあまりよくないため、Welch t' testを用いた方がいい。
■ Wilcoxon signed rank testはpaired sampleのときに用いられる。Wilcoxonはt-testよりも好まれているが、もしt-testがランクで計算されたら、サンプルサイズが非常に小さくない限り、結果はほとんど変わらない。

ディスカッション&コメント
・t検定ではサンプルサイズが大きくなると、有意差が出やすくなることが分かった。
・p > .05と書く方が望ましいとあったが、今はp = と正確な値を示す場合が多いのではないか。また、p = .000となった時はどのように記述するべきか?
・12.13でサンプル同士に相関がある場合は、pairedを使う。検定力が高いというのは有意になりやすいということ。
・12.16の2σ、5σ、8σの値はどこから来ているのか?                                         鳴海

ページトップに戻る

2008/ 01/11

Ch. 13 Statistics for categorical dependent variables: Inferences about proportions

13.1 Overview
■ 教育や社会科学の分野では、割合 (proportion) についてのRQが多い。本章では割合についての仮説検証についての推定方法に焦点を当てる。割合は、categorical, nominalな変数を比較するときに用いられることが多い。

13.2 The proportion as a mean
■ サンプル数がnのとき、ある特定の特性を持ったサンプルをniとする。この場合、nの中のniの割合はp = ni / nで表される。pはπ(母集団におけるある特定の特性をもった事象の割合)のestimatorである(つまり、サンプルからの推定がp)。

13.3 The variance of a proportion
■ πがあるカテゴリーにおいて1とされた事象の割合だとすると、そのdichotomous variableのSDは13.3式の通りになる。このような変数は正規分布にはならないので、SDは描写的には用いられないが、pの標準誤差を見つける方法の1段階にはなる。

13.4 The sampling distribution of a proportion: The standard error of p
■ 頻度分布がどんな形であろうと、sampling distribution of the meanはサンプルサイズが大きくなると正規分布に近づく(Figure 10.3)。例えば、同じ調査をランダムな100名のサンプルをその度に選んで行うと、多くのpの値は正規分布に近づき、そのpの値はπに近くなる。このsampling distributionがproportionの標準誤差と呼ばれる。

13.5 The influence of n on σp
■ 100名の代わりに400名だったらどうなるだろう。Figure 13.2によると、4倍にするとσpは半分になる。

13.6 Influence of the sampling fraction onσp
■ 母集団からサンプルに取った割合(f)はσpにどう影響するのだろうか。母集団の5%以上をサンプルとして取った場合には、結果にほとんど違いは無い。実際にはNはほぼ無限大である。

13.7 The influence of π on σp
■ σpはπの値にどのように影響されるのだろうか。標準誤差の最大値はπが.5であるときである。サンプルの分布はπが.50のときに完全に左右対称になり、そうでないとskewnessが増す。

13.8 Confidence Intervals for π
■ nが増えると正規分布に近づく。しかし、どの程度のnが必要なのだろうか。サンプルサイズについては様々なガイドラインがあるが、これらの基準は粗すぎる。95%信頼区間を得るためのサンプルサイズはπに大きく影響される。図13.4によると、pが.40から.60の時には50人以下でもいいが、.20以下や.80以上の時には非常に大きなサンプルサイズが必要になる。bimodalなときにはGhosh (1979)の方法がとても正確で、pやnの値を選ぶときに使用できる。

13.9 Quick confidence intervals for π
■ 図13.5を用いれば大体の信頼区間が得られる。例えばpが.9でnが10の時には58%から98%が95%信頼区間である。

13.10 Testing H0 : π = K
1. 検証する統計的な帰無仮説は、ある特性を持っているπの割合がKと同じである、というものである。
2. 帰無仮説の検証には、nが母集団からランダムに選ばれた、という前提があるのみでよい。
3. 帰無仮説はz検定で検証される。
4. 13.9式の値が棄却域と比較される。nとpの正規性が仮定されなければ、カイ二乗のgoodness-of-fit testが用いられる。
5. 13.8A-B式でπの信頼区間が求められる。サンプルサイズが十分に大きく正規性が満たされれば、95%の信頼区間は±1.96σpで求められる。

13.11 Testing empirical versus theoretical distributions: The chi-square goodness-of-fit test
■ カイ二乗検定は2つ以上の観察された割合が有意に異なるのかを調べるためのテストである。付録のTable Dにカイ二乗の棄却域が書かれている。カイ二乗を用いる際の自由度は、そのカテゴリー数マイナス1である。

13.12 Testing differences among proportions: The chi-square test of association
■ 2つのものの関連を調べる場合(例:タバコを吸うかどうかと心臓病との関連)、自由度は (row-1) × (column-1)になる。もし2つに関連が無い場合、縦の列内の各セルの割合はあまり違わないだろう。帰無仮説が棄却されたら、2つの変数の間になんらかの関係性があるということである。

13.13 Other formulas for the chi-square test of association
■ カイ二乗検定を行うのには他の、もっと直接的な方法もある。

13.14 The χ^2 median test
■ 9段階のratingで、中央値より上の得点をつけた割合が男女で異なるかどうかもカイ二乗検定で調べることが出来る。しかし、t検定の方が検定力が高い。しかしmedian testは3つ以上のグループを比較することが出来る。

13.15 Chi-square and the phi coefficient
■ カイ二乗の統計やtest of associationはphi (φ)coefficientの値に容易に変換できる(イチゼロのような二進法のデータで算出するPearson product-moment coefficientはphi coefficientと呼ばれる…中川さんのch. 7のハンドアウトより)。

13.16 Independence of observations
■ カイ二乗は他の観測と独立しているcontingency tableであればどんなものにも使用できる。ここでいう独立しているとは、相互排他的であるということである(同じ人が複数のカテゴリーに入ったりしていてはいけない)。

13.17 Inferences about H0: π1 = π2 when observations are paired: McNemar's test for correlated proportions
■ データがpairedの場合には、McNemar's chi-square testを使用することができる。

ディスカッション&コメント
・ Skewnessの見方が曖昧(positive or negative)になりがちなので、もう一度しっかりと把握する必要がある。
・ χ二乗median testの項でも述べられているが、場合によってはt検定の方が検定力が高いが、median testは3グループ以上を比較することができるなど、それぞれの特性を考慮した上で、明確な使い分けが必要であると感じた。                         今野

ページトップに戻る


2008/01/25

Ch. 14 Inferences about correlation coefficients

14.1 Testing statistical hypotheses regarding ρ
■ サンプルにおける相関係数(r)が有意だと言うにはどうすればよいだろうか。つまりH0のρ(母数における相関) = 0はどのように検証できるのだろうか。rが0だったらH0は棄却されず、0でなければ棄却されるのだろうか?
■ 測定には誤差がつきものであるため、もちろんそれではいけない。ρが本当は0でもrが.5や.6のこともある。サンプルサイズがとても小さいとき以外にはおそらくそんなことはないだろうが、でも可能性はある(コインの表が10回連続で出続ける、という意味での可能性)。つまり、ρが0でもrはプラスマイナス1の範囲内の値を取り得る。従って、サンプルからの値であるrからρについての絶対的な確信を持つことはできない。これは、統計を用いるときには常に付きまとう問題である。a risk of making an incorrect decision is always present!
■ 妊娠時の体重の増加Xと、出生体重Yの関係を658人の新生児に対して調査した結果、相関は.212であった。.212という値は0から大きくかけ離れているわけではないが、サンプルサイズは非常に大きい。では、測定誤差を有る程度含むような統計から母集団の変数をどのように推定すればよいのだろうか?本章では、これを相関に対して応用する。

14.2 Testing H0: ρ = 0 using the t-test
■ t検定を行うときの自由度は、pairs of scoreをnとしたとき、ν = n-2である。t検定でのやり方はpp. 350-351の通り。rのcritical valueのグラフがp. 352のFigure 14.1に掲載されている。nが増えるとrのcritical valueが減少する。また、αが小さいときにはより大きなrの値が必要となる。この図は、あるrのcritical valueに対するサンプルサイズの大きさを決定するときにも使用可能である。AppendixのTable Jも参照可能である。

14.3 Directional alternatives: "Two-tailed" vs. "one-tailed" tests
■ ρ = 0 という帰無仮説は片側検定でも両側検定でも可能である。両側検定の場合はρ > 0でもρ < 0でも帰無仮説を棄却できる。もしρ > 0とρ < 0のどちらかが不合理である場合には片側検定を用いることができる(手の大きさと足の大きさの相関の場合など)。
■ 片側検定を用いる場合にはしっかり考えなければならない。なぜなら、もし1000名のサンプルでrが-.9のときでも、ρ>0という片側検定ではρが0ということになってしまうからである。しかし、適切に使えば片側検定はより検定力がある。
■ ρ>0という片側検定を用いるときには、ρ>0という知識が必要なわけではない。ρが負の値になるということがunreasonableであるということでよい。しかし、相関の場合には両側検定の方がより多く使用されている。

14.3 Sampling distribution of r
■ ρにおけるrの分布は、ρが0でない限りは正規分布にならない。5組の一卵性双生児の身長の相関が.95の場合、.99の相関の場合もあるし.50の場合もありうる(プラスマイナス1以内の値しか取らないため、下限のほうが幅が大きくなる)。Figure 14.2にグラフが掲載されている。
■ 分布がゆがんでいる場合、通常の信頼区間の推定では正確な値が算出されない。サンプルサイズが増えるほど正規分布に近づく。Figure 14.3はサンプルサイズが10名から160名のときのグラフである。

14.5 The Fisher Z-transformation
■ Fisherはρやnに関わらず、rがほぼ正規分布になるように変換した値Zを考案した。これをZ変換という(森本注:Excelで簡単に出せます。関数は=FISHER())。Figure 14.4にz変換のグラフが掲載されている。

14.6 Setting confidence intervals for ρ
■ Z変換によって、rの信頼区間を出す際の問題が解決された。95%信頼区間はσzに±1.96をかけ、Zに足したものである(森本注:簡単に出せるようになっているExcelのシートがある)。

14.7 Determining confidence intervals graphically
■ ρの95%信頼区間を求めるにはFigure 14.6が使用可能である。

14.8 Testing the difference between independent correlation coefficients: H0: ρ1 = ρ2
■ 一緒に育てられた一卵性双生児と別々に育てられた一卵性双生児のIQの95%信頼区間を定めた場合、この2つのrは有意に異なるのだろうか?このような場合にはz検定を用いる。計算式はp. 360の通り(森本注:私はこれはExcelに式を入れて行いました)。

14.9 Testing differences among several independent correlation coefficients: H0: ρ1 = ρ2 = …=ρJ
■ 14.8でのやり方は2つの相関係数の場合のみに使用できるが、3つ以上の相関係数の場合も計算可能である。式はp. 361の通り。14.8でも14.9でも相関係数をz変換して計算するが、3つ以上の場合にはカイ二乗検定となる。

14.10 Averaging r's
■ 2つ以上のrを平均したい場合にもFisherのz変換を行う。z変換した値を平均した後変換を元に戻す必要がある(森本注:Excelの関数では=FISHERINV())。

14.11 Testing differences between two dependent correlation coefficients: H0: ρ31 = ρ32
■ 2つの相関係数が独立していない場合には14.10式を用いる。

14.12 Inferences about other correlation coefficients
■ この章の残りは、7章や8章で紹介されたほかの相関係数に関する有意性検定を簡単に扱う。両側検定として、帰無仮説が無相関としたときと仮定しておく。

14.13 The point-biserial correlation coefficient
14.14 Spearman's rank correlation
14.15 Partial Correlation
14.16 Significance of a multiple correlation coefficient

14.17 Statistical significance in stepwise multiple regression
■ next bestな従属変数が有意に重相関係数を増加させるかを調べる。

14.18 Significance of the biserial correlation coefficient
14.19 Significance of the tetrachoric correlation coefficient
14.20 Significance of the correlation ratio
14.21 Testing for nonlinearity of regression
                                                                          (森本)

ディスカッション&コメント
■相関の正負を限定して予測できる場合には片側検定を用いることもあるとされているが、明らかに片側しかありえない場合を除いて、両側検定を用いるようだ。
■標本数が多くなることによって有意な相関が出やすくなる。論文等では「有意な相関があった」と述べるにとどまらず、その値や解釈(高い相関なのか、中程度なのか、低い相関なのか)を述べることが必要だろう。また、可能であれば95%信頼区間もつけておくとさらに参考になる。
                                                               (中川、平井)

ページトップに戻る


2008/02/08

Chapter 15 One-factor analysis of variance (pp. 377-395)

15.1
analysis of variance (ANOVA) はJ個 (J > or = 2) の平均値の間にsampling errorによるもの以上の違いを持つかどうかを分析する統計手法

15.2 なぜt検定を繰り返し使用しないのか
α = .05のt検定を一度行うと、αは .05であるが、2回以上のt検定を行う場合、type-I errorの可能性が .05よりも高くなる。その数が多くなるほど、type-I errorの可能性が高くなることが問題となる。
※例えば、J = 5のとき、全てのペアの組み合わせは10通りとなる (k = 10)。p = 1 - (.95)10 = 1 - .60 = .40 となる。
ANOVAは「検定されるJ個の平均値のうち、どれか一つでも、その他のどれか一つの値からsampling errorによるもの以上異なっているか」を問うものである。ここで検証される帰無仮説は
H0 = μ1 = μ2 = μ3 = … = μJ
t検定ではなくANOVAを使用する利点は: (1) type-I errorを生じにくい、(2) 帰無仮説が正しく棄却される (αが一定に保たれる)、(3) 同時に3つ以上の変数の影響を検定することができる。

15.3 ANOVAの専門語
■例えば9名ずつ3群ある場合、treatment factorが3レベル (levels) あるといえる。それぞれの協力者はreplicateといえるため、9 replicates for each of the three levels of the treatmentと記すことができる。この例のように各グループに含まれるデータ数が同じ場合、balanced designといえる。

15.4 ANOVAの計算 total sum of squares (SStotal)
■帰無仮説を検定する際に、sum of square (SS) が多用される。SStotaltreatment effectsとsampling errorなどの全ての要因 (sources of variation) を総合したものである。一要因のANOVAのSStotalは二つの要因に分類される: between group meansとwithin the groupsである (SStotal = SSBetween + SSWithin)

15.5 sum of squares between (SSB)
sum of squares between (SSB) はグループの平均値間の違いによって生じる。αj はグループjの平均値(μj) と全体の平均値 (μ) の差を示している。このαj = μj - μがtreatmentの効果を示している。
SSB は計算式15.4によって示されている。

15.6 sum of squares within (SSW)
Group 1のSSWはΣixi12 = SS1J個のグループのSSWSS1 + SS2 + … + SSJ
または、SSWithin = SStotal - SSBetween
ANOVAではF-testを用いている。計算手順が図15.2 (p. 381) に示されている。
SSBSSWが計算され、それぞれが個々の自由度 (vB, vW) で割られ、MSBMSWが算出される。MSB/MSWF値として計算され、この値がcritical F-ratioよりも高ければ帰無仮説が棄却される。
F値のリストはAppendixのTable Fを参照のこと。

15.7 ANOVAの計算例
■帰無仮説が正しい場合、SSBSSWの予測値は等しく: E(SSB) = E(SSW) = σ2となる
critical valueはcentral F-distributionにおける1-αthパーセンタイル順位である。
たとえば63名の幼児が3群に分かれている場合に、α = .05であるならば、観測されたF値が自由度2と60であるF-distributionにおける95th パーセンタイルの値よりも高くなければならない。

15.8 ANOVAの理論
ANOVA理論によると、J個の異なるpopulationsがあり、それぞれが同一のμを持ち分散も等しい場合に、H0が支持される。つまり異なる集団であると仮定していたJ個が実際は一つの母集団から抽出されたサンプル群であることを示す。

15.9 Mean square between groups, MSB
■母集団の分散の予測値をmean square betweenと呼ぶ (計算式15.8A, p. 385)。ちなみに、一つの母集団からJ個のサンプルが抽出された場合、これらJ個のサンプルの分散の平均値はσ2/n =σX-2
■母集団の平均値について帰無仮説 (H0 = μ1 = μ2 = μ3 = … = μJ) が支持される場合、J個のサンプルの平均値間の差からσ2が推定される (unbiased estimateとなる。つまり、期待値が推定しようとする母数と一致する)。nsX-2 = MSBσ2とはsampling errorによる差しかなく、何度も繰り返すことによりsampling errorの平均値が0となる。もし帰無仮説が誤っている場合にはE (MSB) >σ2となる。

15.10 Mean square within groups, MSW
■帰無仮説が支持される場合、MSBMSwの両方が母集団の分散のunbiased estimateとなる。ただし、MSwMSBと違い、帰無仮説が支持される場合も棄却される場合にも不偏の期待値となる。したがって、帰無仮説が棄却される場合、MSBMSwよりも大きな値をとると考えられる。

15.11 F検定
MSB/MSWによって算出されるF値が1に近い場合、両方がσ2の推定値となると考えられる。では、1よりもどの程度大きくなれば帰無仮説を棄却する事ができるのだろうか?この答えは15.7でも説明されたとおり、F = MSB/MSWcritical-Fよりも多くなった場合である。

15.12 balanced designのANOVA
■各グループに含まれるreplicatesの数 (n) が等しい場合は、等しくない場合で重み付けが必要となるような場合にくらべて計算が容易である。
※手計算の方法はpp. 386-388を参照のこと


15.13 A statistical model for the data
ANOVAでは、どのデータも線形モデルで示せるものであることを仮定している。
計算式15.10 Xij = μ + αj + εij
Xijはグループjの人物iの得点
μは母集団の平均値
αjtreatment jの影響を示す
εijは得点Xijerrorを示す、得点Xijの残差 (residual) である: εij = Xij - μ - αj
ANOVAの目的は、3つのtreatmentに違いがあるか、3つの平均値の間にsampling errorというよりも大きな違いがあるかを検定することにある。
sampling errorの起こる理由: (1) 一回行われた実験の結果は別のサンプルを使用して実施した同じ実験とは異なる結果となる、(2) 協力者を同じように扱った場合であっても、それぞれの人物が異なる特性を持っている、(3) 協力者を測定使用とする場合にはerrors of measurement (テスト手法や質問項目などによるエラー) が問題となる、(4) 気候や時間や疾病など、統制されている実験要因とは別の影響

15.14 Estimates of the terms in the model
■実際に観測できるデータはJグループの従属変数であるn個の観測値であり、μαjや、εijは未知のパラメータである。これらの推定はleast-squares criterionによって行われ、推定値はμ^、αj^、εij^で表記される。(^ は記号の上に表記される)
■推定されるパラメータの合計はゼロとなると仮定されている (α1 + α2 + … + αj = 0)
μ^ = X.バー
αj^ = Xj バー - X.バー
εij^ = Xij - Xjバー denoted my eij
Xij = μ^ + αj^ + εij^ に代入すると ⇒ 計算式15.11 (p. 389) となる。

15.15 Sum of squares
F検定において分母と分子は帰無仮説が支持される場合、分散を示すパラメータσ2の独立予測変数 (independent estimator) と仮定される。このセクションではSStotalが二つの構成素 (SSBSSw) に分かれることを示す。
■計算式15.11の両辺からX.バーをひき、二乗したりすることにより、左辺がを示すようにすることが出来るその結果が15.12に示されている。最終的にはSStotal = Σj^2 + ΣΣeij2 = SSB + SSWとなり、SStotalSSBSSwに分かれることが示される。

15.16 Restatement of the null hypothesis in terms of population means
■帰無仮説 (α1 + α2 + … + αj = 0) において、α1 = X1バー - X.バーであることから、
α
1の期待値はE (α1^) = E (X1バー - X.バー) = E (X1バー) - E (X.バー) = μ1 - μ = α1
⇒ 母集団の帰無仮説はμ1 = μ2 = … =μj

15.17 自由度

Degrees of freedom between groups, vB = J - 1 (グループの水準マイナス1)
■全てのグループの自由度を足すとvW = (n1- 1) + (n2 - 1) + … (nJ - 1) となる。
つまり、degrees of freedom within groups, vW = n.- J
balanced designの場合には vW = J (n - 1) となる。
total degrees of freedom, vtotal = n. - 1である。n が等しいbalanced design の場合には vtotal = Jn - 1

15.18 Mean Squares: The expected value of MSW
■自由度で割られたSSmean square (MS)、もしくはvariance estimateと呼ぶ
one-way ANOVAではmean square between (MSB = SSB / vB) とmean square within (MSW = SSW / vW)の二つが重要である。実験が何度も繰り返される場合、期待値は E (MSB) や E (MSW) で示される。
J個の母集団が同じ分散σ2を持つのであればMSWの期待値はσ2である (計算式15.18, p. 394)。
MSWは母集団Jの平均値から独立している (mean freeである)。各グループが同じ母集団から抽出された場合であっても、各グループが異なる平均値を持つ場合であっても、MSWの期待値はσ2である。

15.19 The expected value of MSB
MSWと異なり、MSBは母集団Jの平均値に影響を受ける。全てのグループの平均値が等しく帰無仮説が成り立つのであれば、MSBの期待値はσ2となる。しかし、帰無仮説が成り立たない場合、E (MSB) =σ2 + α2
■帰無仮説が棄却される場合、E (MSB) > E (MSW) = σ2となる。※MSBMSWから算出されるF値を用いて、どのようにtype-I errorを生じずに帰無仮説が棄却されるのかについては、section 15.25を参照

ページトップに戻る


2008/02/29

15.20 Some distribution theory (p. 395-98)
16章では、自由度1のカイ自乗の分散をみるが、式で表すと以下のとおり:
 (X-μ) 2/σ2 = z2〜χ12
X=測定値,μ=正規分布した変量の平均,σ2=分散
XNID (μ,σ2)ijは独立した変量で、正規分布していることを表す。
n個の得点が無作為に抽出されたとき、これらの分散は以下のようになる。
 (X1-μ)2/σ2+(X2-μ)2/σ2+...+(Xn-μ)2/σ2〜χn2
n個のz得点による総和は、自由度nのχ2値はχn2で表され、v = nになる。
X1からXnまで正規分布の独立した測定値であれば、p.396前半部の式によって3通りで表せる。
J = 3, n = 10のとき、平方和はは以下のとおり表わし、χ2値の自由度は9となる。
 SSw = Σ(Xi1-−Xバー1)^2 +Σ(Xi2-−Xバー2)^2 +Σ(Xi3-−Xバー3)^2
■また、3グループから無作為に10件の得点を抽出した場合、自由度はχ9+9+92
 つまりχ272で、以下のように表わされる。
 SSw/σ2〜χ272
■平方和SSwを分散Vwで割ったときの平均平方MSw
SSw/ Vw/σ2〜χvw2/ Vw または MSw/σ2〜χ272/ 27
■くりかえしのある変量からn個の得点を無作為抽出する場合、
正規分布しているのであれば、
XバーNID (μ,σ2/ n)で表わされ、分布は (Xバー-μ) /√σ2/ nでみることができる。
このとき平均が0であれば、分散は1となる。結果として、自由度が1のχ2値は(Xバー-μ)2/σ2/ n = n (Xバー-μ)2/σ2〜χ12
■もし帰無仮説が棄却できない(有意でない)場合は、
 Σn (Xバーj-Xバー)2 /σ2〜χJ-12
→等式 E (Xバー1) = E (Xバー) = E (Xバー3) = E (Xバーj) =μが成り立ち、母集団は同一の平均μをもった観測変量の平均 Xバーjから抽出された標本であることを示す(個数n10,変量は3つ)。
→変量の数(J)を代入することで、以下の等式でχ2値は説明可。
 Σ10 (Xバーj-Xバー)2 / 2σ2= MSB /σ2〜χ22/ 2
■帰無仮説が真である(有意ではない)場合、16. 6 (Section 16.5を参照のこと)の等式から、独立した2つの変量それぞれを自由度で割ることにより、F分布を示す。
[{Σ10 (Xバーj-Xバー)2 / 2σ2 } /ΣΣ(Xバーij-Xバーj)2] / 27σ2F2, 27

■ここでの帰無仮説では、変数
1, 2... Jには統計的な違いはないことを示している。
 SSB/ VB/ SSW/ VWFVB, Vw またはMSB/ MSWFVB, Vw

15. 21 The F-test of the null Hypothesis: Rationale and Procedure (p.398)
■分散分析のための分布理論を説明すると:
・正規分布する母集団から無作為に抽出された3つのサンプル群がある。
F値は F = MSB / MSWで求められる。
・上の公式を無限に繰り返した場合、Fig. 15.4のようなF分布を示す曲線が描かれる。
F比が5%を超える臨界値を計算すると、F値が3.36のとき
■反対に、サンプル群の平均が等しくない (μ1μ2μ3)とき、サンプルはF分布でnon-centralの比率がより多くを占めており、帰無仮説が棄却される。
■仮説が棄却される状況とは、F分布が中央から右裾へ移動しており、F比が大きく推移していることを表わす。例では F2, 27のとき3.37で2つの曲線のF分布から、centralnon-centralでどちらの比率が高いかを比べる。
→比率の高い方が、centralなら帰無仮説を採用/non-centralなら帰無仮説は棄却。
F分布表は、巻末の付録についており、それぞれ5%, 1%水準での臨界値が参照できる。
・参照すべきF分布は、自由度によって示される分子と分母(例:2, 27)によって対応させて確認する。
.95F2, 26= 3.37(サンプル個数が1件減ると、臨界値も微妙に上がる)
■例と同じサンプル抽出法(3群から9件ずつ)で実験をおこない、得られたF分布が6.51だとしたら?
.95F2, 27= 3.37:帰無仮説のとおりの結果が100回のうち5回に満たないことを示す。
.99F2, 27= 5.53:帰無仮説のとおりの結果が100回のうち1回にも満たないことを示す。
→今回得られた
6.51というF値からは、極めて高い見込みで帰無仮説が真ではないことがいえる。
■帰無仮説を棄却するか否かの臨界値を95%とすることは恣意的でもあり、場合によっては90%, 99%,もしくは 99.9%で線引きすることも起こりうる。
・ただし、仮に
50%を臨界値と定めたとすれば、実験で得られた結果から的を射た結論と同時に、誤った結論も同程度に導くことになる。

15.22 Type-I versus Type-II errors:αandβ
■たとえ得られたF分布が高くても、絶対的に帰無仮説が棄却できるとは限らない。
→帰無仮説を棄却した場合、対立仮説が正しくない可能性をどのくらい含めているのか注意すべきである。
.95F2, 27= 3.37をα値と定めた場合、5%の誤りを見越した結果解釈が導かれる。
・一方で .99F2, 27= 5.53まで帰無仮説を真とするのであれば、誤った結論を採択する危険を1%の確率まで抑える。
■以下のFig. 15.5に示すように、解釈の誤りには二種類があって、αの確率が大きすぎたり、小さすぎることが原因とされる。
・場合によっては臨界値を操作する(件数が少ない調査では、基準を10%以上に設定することもありうる)。
■第二種の誤りは、βの確率がサンプル件数に影響して、事実と反する帰無仮説が棄却できない場合のこと。このとき1-βは統計の検定力 (power)を示し、確かめる必要がある。
・検定力が小さいことが原因に考えられ、研究プランで非常に重要な問題である。
→調査コスト(サンプリング、調査にかける時間)を補えば、本来の結果が導かれるかもしれない。

Fig. 15.5

H0 は真である H0 は事実に反する
H0 棄却 帰無仮説が真であるのに、棄却した
(第一種の誤り)
帰無仮説を棄却し、決定に誤りはない
(有意性がある)
H0 採択 帰無仮説は真であり、決定に誤りはない
(有意性がない)
帰無仮説を棄却すべきなのに、採択した
(第二種の誤り)

■α値を.05とした場合、1-βでの換算値は.20,一方でα値を.10にした場合は、換算値が.50となってしまう。
・第一種の誤りを犯す危険を抑えた方が、良識的な結果解釈といえる。

→効果のない処置を、効果的と勧めてしまうことを避ける。
■調査目的によるが、応用研究では第二種の誤りを引き起こす方が深刻な場合もある。
→ある効果的な処置や、弊害と考えられる要因を、見過ごしている危険がある。


Fig. 15.6  →αと1-βの比率を示してある。
基準を.05から.01に引き下げることで、検定力が下がる。

15.23 A summary of procedures for one-factor ANOVA (p. 402)
Jで表わされるグループ間の平均比較をおこなう。それぞれはn個の独立した測定値が含まれている。
・線形モデルでは次のような説明方法が前提にある:
 1.仮説
  帰無仮説(H0):μ1 =μ2 = ... =μj (H0:α1 =α2 = ... =αj)
  対立仮説(H1):Σjαj20 (比べている変量の平均は同じではない)
 2.前提
   εijNID (0,σε2)変量は独立、かつ正規分布していること
 3.検定統計量
   F = MSB / MSW
 4.標本抽出の区分
   帰無仮説が真であるなら、F分布は規定の自由度をもつ中枢の (central) F分布をとる。
 5.臨界値: 1-αFVBVW
   F値がαで定めた基準より高ければ、帰無仮説は棄却され、有意と判断される。

15.24 Consequences of failure to meet the ANOVA assumptions: The “robustness” of ANOVA
■母数効果モデルに由来するため、ANOVAの変量は独立して、正規分布していることが前提にある。
・線形モデルとは、3要素からなる単純な総和 (Xij =μ+αj+εij)から測定される。
  μ:値の上昇が通常とされる測定法
   j:処方や要因からの効果・影響
  ε:個人差や測定誤差、その他
 →たとえば生徒個々の練習効果による変化も考えられる場合、2要因で分析を用いるべき。
ANOVAでの3つの前提に反する場合:
 (1)変量が正規分布していない。
 (2)グループ間で等分散していない。
 (3)変量が独立していない。
■前提に反した場合
・多くの研究で、結果的な前提の脱落を報告しているが、誠実な手続きで正確な結果を提供していることで研究の頑健性を説明している。
・以下の措置をとる。
 1.採択した帰無仮説を提示しつつ、実際に使ったF値の臨界点を求める。
 2.変量の等分散性や正規性を欠いているときは、実際に求めたF分布の有意確率を提示する。
 3.計画されていた有意水準と実際の有意確率を比べたとき、あまり変わりがないとするのであれば、手続きが頑健であると述べる。
t検定での正規性・等分散性の前提に対する頑健性は、ANOVAにも一般化できることが確認されている。
Glass, Peckham, & Sanders (1972)による前提を満たしてないANOVAでの検証。
1.正規分布してないことによる第一種・第二種の誤りを導く可能性は極めて低い。
(ただしサンプルの歪度が高い、観測個数が少ない、片側検定でおこなう場合を除く)
2.個数が同じで等分散していなくても、第一種の誤りを導いたり、検定力を損なう可能性は少ない。
 比較グループが多く、個数が対応している場合、通常より控えめな結果が出る。
 個数が大きく、比較グループが少ない場合、有意性が甘め(?)に出る。
 等分散性を欠くt検定にWelch法があるように、不釣合いな変量同士の比較に使われるANOVAがある(Sec. 15.25)
3.変量の独立性は正確な有意確率を求めるのに必要。変量が独立しているということは、比べている変量が互いに影響していないことだが、指導法の調査でディスカッションやグループ・カウンセリングなどをおこなうと、変量の独立性にも影響する。独立性を欠いた変量を比較すると、第一種の誤りを起こしやすくなる。

15.25 The Welch and Brown-Forsythe modifications of ANOVA: What does one do whenσ2’s and n’s differ?
15.20の公式にあるとおり、Welchの法を応用すれば、母分散が等しくない変量3つ以上でもANOVAを用いることができる。
F値の臨界点は、
 分母がグループの数から1減 (J-1),
 分子は 1/VW = [3 / (J2-1)]Σj [(1-wj/ u)2 / (nj-1)]で求め、F分布表 ((?) Table F)を参照することで分かる。
・どちらかといえば、Brown-Forsytheの修正公式がおすすめ(15.21)
 →グループ数が2の場合、Welcht値とBrown-ForsytheF*値は等しくなる。

15.26 The power of the F-test
■行動科学、社会科学分野の調査では充分な検定力が得られず、本当は違うはずの現象を発見できないことがある。
・研究調査をおこなう以前に、検定力のための効果量を予測することを標準的な手続きにすべき。
■要因ひとつのANOVAF値による検定の検定力(1-β)は、以下のとおりの手続きを踏む:
1.平均の違いの大きさを表わすのに、重みづけられた影響njαj2によって測っている。
 ここで示すαjとは、比べるべき変量jに対する総平均の差のこと (μj-μ)
2.変量Xの平均μと効果αjで測定不能な誤差変量は、要因ひとつのときσW2 =σε2
3.自由度の分子はグループから1引いた数 (vB = J-1)
4.自由度の分母は、要因ひとつであれば総個数から要因の数で引いた値(vW = n.-J)
5.第一種の誤りを導く可能性はαで示す。
■検定力を数値化するため15.22の式でnon-centrality parameter (?)を決定する(φで表記)。
 →個数nが均衡化されたデザインであれば、単純化した15.23の公式を使える。
 →変量の数が2であれば、φは効果量凾ニ個数から求められる(15.24の式)

15.27 An illustration
■ある実験デザインで、40名ずつのグループでテスト得点平均(μ)が、統制群= 90Group 2 = 95, Group 3 = 100のとき検定力を求めると、
・各グループの個数は同じなので、15.23の公式に値を代入φ= 1.72
・個数はそのままでグループが2つの場合、検定力はφ= 2.11
φが一端求められれば、付録のTable Gから1%5%水準での検定力を参照できるようになる(Tableの使い方は以下のとおり)。

1.vBに応じて、該当のfigureをみつける。
2.α値の基準を5%または1%のいずれか選ぶ。
3.p.407の式からφを求める。
4.測定値の総数からグループの数を引いた値(n.-J)を求め、タテ軸に合わせる。そして、1.figureとで交点をみつける。
5.例では、φ
= 1.72, Ve = 117の曲線を参照し、(1-β)の検定力を調べると大体 .65で交差している。この結果からは、第二種の誤りを引き起こす可能性が高い。

15.28 Power whenσis unknown
■多くの研究で、事情によりσを事前に求められないこともある。この場合、標準偏差での平均差を考慮に入れることができる。
→例.統制群group 1が最も低くmean0とした場合、最も効果的と見込まれるgroup 31SD右に、group 2は両群の真ん中0.5SD右にずれて分布した (Fig. 15.7)
・グループ間の個数が異なり、n1n320n240とした場合、15.22の式へ代入し、φ= 1.83と求められる。
Table Gから、分子2,分母77(およその値80を参照)→ 1%水準では .57の見込み。

15.29 A Table for estimating power when J = 2
■検定力のための効果量(1-β)を非常に小さい場合の(.1σ)から大きい場合の(1σ)で示すと、比較するグループ(J)が2グループであれば、Table 15.4で示すようになる。
 →サンプルサイズに応じて、検定力は高まる。

15.30 The non-parametric alternative: The Kruskal-Wallis test
■クラスカル・ウォリスの検定ではサンプリング・エラーによる結果の違いも比較できる。
 →サンプルの正規性が仮定されないときに用いる。
ANOVAで分析したとき、変数間の個数nにあまりにも違いがありすぎるとき。
・クラスカル・ウォリスの検定は順列でone-way ANOVAような比較をおこなう。
 →大抵は、2つの検定結果で大きな変化はない。
Welch法やBrown-Forsytheが使え、検定力の高さやANOVA自体の頑健性から、クラスカル・ウォリスの検定は極端に外れ値が出ない限り、ほとんど用いられていない。
■ほかにも、分布の中央付近での違いを確かめるものに、χ自乗中央値検定があるが、クラスカル・ウォリスの検定ほどには検定力が高くない。

ディスカッション&コメント
・ Fig. 15.5に関して、αは、第1種の誤りを犯す確率のことで、自分の立てた仮説(H1)が正しくないのに、正しいと結論付けてしまう確率。βは、第2種の誤りを犯す確立のことで、仮説が正しいのに(帰無仮説が棄却されるべきなのに)、正しくないとする誤りを犯す確率のこと。
・ 保守的になりすぎて、この第2種の誤り(Type II error)の方が深刻な場合もあるので、この誤りを犯さない確率(検定力:1−β)を調べてみることも大切。例えば、検定力が.80とでれば、100回この仮説検証を100回して、80回はこの種の誤りを犯さないで検出できることを意味する。この検定力は、サンプル数を増やすと上がるので、どれぐらいサンプル数を増やすべきか検討をつけることができる。
・ どちらの誤りも犯さないように結論を導くためには、有意水準(significance criterion),検出力(power)、効果量 (effect size)、標本数 (sample size)の4つのパラメータ(Cohen, 1988)を考慮して判断することが望ましい。
・ 付録のTable G(power:1−β)の読み方が難しかった。 
                                                               (平井、鳴海)


ページトップに戻る


2008/03/14

Chapter 16 Inferences about variances

<読み替え> 乗数の左隣には ^ を,記号の右に現れる下付き文字の左隣には # を表記してある。

16.1 Introduction
■ 研究者は平均や割合や相関係数に興味があることが多いが、questions of variability(変容性)に興味があることもある。これをカイ二乗分布で見てみる。
(例)男子の方が数学の熟達度テストにおける個人差が女子よりも大きい

16.2 Chi-square distributions
■ 母集団が正規分布していて標準化されたz-scoreを持つ集団だと仮定してみる。この標準化された値が二乗され(z#i ^2)、χ#i ^2で (?) ランダムに選ばれたとする。このとき、χ#i ^2 = z#i ^2になる。これをほぼ無限に繰り返したときのグラフがp. 423のFigure 16.1である(自由度が1)。
■ z分布やt分布と同様に、カーブの下の部分を合計すると1になる。χ#i ^2が1より大きいのは32%分である。逆に言うと、パーセンタイル順位が68位の場合、χ#i ^2が1になる。パーセンタイル順位が95位になるのはχ#i ^2が3.84のときになる。

16.3 Chi-square distributions with ν > 1: χ#2 ^2 and χ#3 ^2
■ 自由度が2のときというのは、1つのz得点を選ぶのでなく、2つの得点を元の正規分布したz得点からランダムに取り出すときである(χ#2 ^2 = z#1 ^2+ z#3 ^2)これが何度も繰り返されるとp. 424のFigure 16.2のようなグラフになる。

16.4 The chi-square distribution with ν degrees of freedom, χ#ν ^2
■ 自由度がνのときは、ν個のz得点の二乗を足したものがχ^2の値になる。カイ二乗分布は自由度によって形が異なる(Figure 16.3)。カイ二乗分布の特徴は以下の通り。
(a) 自由度がνのときのカイ二乗分布の平均はνになる。例えば、自由度が12のときのカイ二乗分布の平均は12。
(b) 自由度がνのときのカイ二乗分布の最頻値は、νが2以上であればν-2の値。
(c) 自由度がνのときのカイ二乗分布の中央値は、νが2以上であれば大体 (3ν-2)/3 。
(d) 自由度がνのときのカイ二乗分布の分散は2ν。
(e) 自由度がνのときのカイ二乗分布の歪度は√2/v。カイ二乗分布は全てpositively skewedだが、自由度が上がるにつれて左右対称に近くなる。
(f) 自由度がとても大きくなると、カイ二乗分布は正規分布に近づく(平均がνでSDが√2ν)

16.5 Inferences about the population variance: H#0 = σ^2 = K
(a) 検証される帰無仮説は、母集団の分散がKと同じであるということ。
(b) 前提は、変数Xが正規分布をしていてランダムにnが取り出されているということ。
(c) 帰無仮説を検証する式は式16.4の通り。
(d) 帰無仮説が採択されれば、サンプルの分布はカイ二乗分布と同じであることになる。
(e) 棄却域はα/2と1- (α/2)のパーセンタイル順位。
(f) 1-αの信頼区間は式16.5の通り。

16.6 F-distributions
■ 2つのものの分散が異なるかどうかを調べるときに、F分布を知っておくことは有効である(なぜなら帰無仮説がH#0 : σ#1 ^2 = σ#2 ^2 だから。)。
■ 自由度が10のときと自由度が5のときを考えてみる(例:自由度が5のとき、カイ二乗値はランダムにとった5つの独立した値の二乗の総計)。この2つのカイ二乗の値の比はF比になる(式16.6の通り)。

16.7 Inferences about two independent variances: H#0 :σ#1 ^2 = σ#2 ^2
(a) 二つの分散が同じであるという仮説を検証するほうが、母集団がある値と同じ分散を持つ、という仮説の検証よりも一般的である。2つの分散が同じであるという帰無仮説を検証したいとする。
(b) n#1 個のサンプルがランダムに取り出されてきたとする。また、n#2 個のサンプルが取り出されてきたとする。それぞれのサンプルの母集団の平均値は、帰無仮説とは無関係である。
(c) これを検証するにはF比を用いる。
(d) 帰無仮説が採択されるとき、F値はν#1 = n#1 -1とν#2 = n#2 -1のF分布である。
対立仮説が採択されるとき、s#1 ^2/s#2 ^2はσ#1 ^2/σ#2 ^2とν#1 = n#1 -1とν#2 = n#2 -1のF分布をかけたものである。
(e) 棄却域はp. 430の式に示されるとおり。
(f) 信頼区間は式16.9に示されるとおり。

16.8 Testing homogeneity of variance: Hartley's F#max test
■ 等分散性を検証するテストは幾つかある。Hartley's F#max testはとても簡単である(但しグループ間のサンプルサイズが同じときに使用する)。帰無仮説は、それぞれのグループの母集団の分散は等しい、というものである。
■ F#max = s^2#largest / s^2#smallest であり、AppendixのTable Hに棄却域が掲載されている。グループが3つ以上の時には、信頼区間はあまり意味がない。

16.9 Testing homogeneity of variance from J independent samples: The Bartlett test
■ Bartlettの検定はログを使う必要がある。Bartlettの検定は、グループ間で人数が異なる場合でも使用できる。
■ 帰無仮説はそれぞれのグループの母集団の分散は等しい、というものである。カイ二乗検定を用いて検定を行う(p. 434の16.11式)。グループが3つ以上の時には信頼区間はあまり意味がない。

16.10 Other tests of homogeneity of variance: The Levene and Brown-Forsythe tests
■ Leveneの検定はANOVAと同様で、観測値が平均からどれくらい離れているかということである。Leveneのテストは正規分布の前提に頑健だと考えられてきたためよく使用されてきたが、実際は頑健ではない。Leveneの検定は、デザインがbalancedなときのみに正確になる。
■ 同様のものにBrown & Forsytheが確立したものがある。これはLeveneの検定と同様だが、平均の代わりに中央値からの逸脱を用いる。母集団が尖度や歪度の点で正規分布から逸脱していても、正確な値を算出できることが示されている。
■ しかし、サンプル数がグループ間で異なると、Leveneのテストと同様の問題が起こる(。そのようなときには、グループ数が2の場合にはWelch t'を用い、グループ数が2以上の場合にはWelch F'かBrown-Forsythe F*を用いるといい。サンプル数がグループ間であまり変わらないときには、サンプル数が等しくなるまでランダムにサンプルを抜いていって、Brown-Forsythe testを行うと良い。歪度が正であればBrown-Forsytheを用い、分布が正規分布からあまり逸脱していないようであれば、Bartlettの検定を用いるのが良いであろう。

*SPSSではLeveneがデフォルトで現れると思うが、Brown-Forsytheも出せるのだろうか?

16.11 Inferences about H#0 :σ#1 ^2 = σ#2 ^2 with paired observations
■ 帰無仮説はH#0 :σ#1 ^2 = σ#2 ^2 である。正規分布であることが前提。検定の式はp. 437の16.12式。

16.12 Relationships among the normal t, χ^2, and F-distributions
■ t分布, χ^2分布, F分布は正規分布に由来している。
■ 自由度が無限大の際のt分布は正規分布である。tの二乗がFになる(tとFが同じ自由度のとき)。また、F分布とχ^2の関係は、χ^2を自由度で割ったものがFになるというものである。
                                                                          (森本)

ディスカッション&コメント
・Leveneの検定など、正規性に対して頑健であると思われている検定法でも、今回のようにそうではないこともあるので、当然のことではあるが、検定を行う前にしっかりと正規性を吟味したい。
・グループが3つ以上の時の信頼区間にはなぜ意味が無いのかについて個人的には興味がある。        (今野)

ページトップに戻る

ご意見やコメントがあればこちらまでお寄せください。