人文社会科学研究科 博士課程コース 異文化言語教育評価論 (Testing in Second Language Education) |
異文化言語教育評価論で発表された統計についてのレジュメです。
SPSSをインストールしよう
【はじめに:学内のオンラインネットワークに接続する】
■無線LAN搭載PCにてネットワークの管理からutwlan-wに接続する
(接続時に要求されるパスフレーズは現時点ではwlanguest2009)
■接続が確認できたらInternet
Exploreを開くと、自動的に学術情報メディアセンターの「アクセスポイント接続」のページが表示される
■「同意する」をクリックし、ユーザー名
(例:0012011300376)
とパスワードを入力したらlog
inをクリックするとネットワークに接続される
※ネットワークに接続するまではInternet
Exploreで行うことをお勧めします
(Operaではネットワークに接続できず)
【基本編:SPSSを学内のネットワーク内で使用する】
■筑波大学 学術情報メディアセンターのホームページからファイルをダウンロードする
1.
全学計算機システム
> ソフト配布所 http://www.u.tsukuba.ac.jp/SOFT/
にアクセス
2. 「SPSS
Statistics(統計パッケージ)」をクリックし、全学計算機システムのユーザー名
(例:s1130037)とパスワードを入力してダウンロードする
■zipファイルを展開して、SPSSをインストールする
1.
ダウンロードした「Windows
19.zip」を右クリックし、「すべて展開」を選択して左クリック
2.
展開してできた「Windows
19」フォルダの中にsetup.exeがあるので、クリックして実行する
3.
「IBM
SPSS Statistics 19 をインストール」を選択する
4.
ライセンスの選択を要求されるので、「ネットワークライセンス
(3番目)」を選択する
5. 「使用条件」に同意すると「ライセンスマネージャ名またはサーバーのIPアドレス」が要求されるので、「spss.u.tsukuba.ac.jp」と入力する
6. 使用する言語を選択した後
(日本語
or 英語)、インストールを開始する
7. 「製品の更新または…」のチェックを外して、インストールを完了する
【応用編:SPSSを学外でも使用する】
[学外のネットワークに接続できる場合]
■VPN接続サービスを用いて学内のネットワークにアクセスする
1. 学術情報メディアセンター
> ネットワーク研究開発部門
> アクセスポイント接続
> VPN 接続サービス
> 利用方法 http://www.cc.tsukuba.ac.jp/network/access/vpn-usage.html
2. http://vpn.cc.tsukuba.ac.jpから
PacketiX VPN Client 2.0 をダウンロードし、上記サイトの説明に従いながらインストールします
3. 「PacketiX
VPN クライアント接続マネージャ」を起動し、「仮想
LAN 」メニューから「新規仮想
LAN カードの作成」を選択
4. 英数字
31 文字以内で仮想
LAN カードの名前をつけます
5. 「新しい接続設定の作成」「接続設定名」には適当に名前をつけます
(例:学情VPNテスト)
6. 「接続先
VPN Server の指定」では、次のように設定します。
ホスト名:vpn.cc.tsukuba.ac.jp
ポート番号:443
(HTTPS ポート)
仮想
HUB 名:DEFAULT
7.「ユーザー認証」では、「認証の種類」として「Radius
または
NT ドメイン認証」を選択し、「ユーザー名」と「パスワード」の欄には、ユーザー名とパスワードを入力する
8. 「接続設定名」に示されている名前
(例:「学情VPNテスト」)をクリックすると、仮想的に学内のネットワークに接続されているようになります
※VPN
接続がうまく行なわれているかを確認するには、コマンドプロンプト (cmd) などを用います
9.
スタートメニューの「プログラムとファイルの検索」にcmdと入力する
10.
cmd.exeが表示されるのでクリックして立ち上げる
11.
tracert maple.cs.tsukuba.ac.jpと入力する
[学外のネットワークに接続できない場合]
■SPSSコミュータライセンスを活用する
1. パソコンのスタートメニューから「IBM
SPSS Statistics」>
「IBM
SPSS Statistics コミュータライセンス」を実行する
2.
Commuter Utility のダイアログが表示されるので、「IBM SPSS Statistics 19.0」を選択して「チェックアウト」をクリック
(19.0以外のversionをお使いの方は、使用されているversionを選択する)
3. 「IBM
SPSS Statistics 19.0」の先頭に赤いチェックマークがついたのを確認して「終了」する
※オフラインでの使用期間 (日数)
は最大で7日間まで延長可能
※使用期間を30日まで延長したい場合には…
1.
Windowsのコントロールパネルで、「システム」を選択する
2. 「システムの詳細設定」を選択する
3. 「環境変数」を選択する
4. 「システム環境変数」の領域で、「新規」を選択する
5. 「変数名」ボックスに、「SPSS_COMMUTE_MAX_LIFE」と入力します
6. 「変数値」ボックスに、「30」と入力します
7. 「OK」を選択して終了します
8. 「コミュータライセンス」を実行した際、使用期間
(日数)
を30日まで変更可能になります
Section 1 統計分析を行う前に
1-1. 測定と評価のための統計分析
仮説検証型(hypothesis
testing)とは?
――教育・心理学など、さまざまな分野において用いられている研究手法のタイプこと。仮説(hypothesis)を立て、その仮説が正しいかを検証していく。
例)社交的な学生ほど海外留学による英語のスピーキング力の伸びが大きい。 手順@:社交性を測る質問紙(アンケート)を作成・海外研修生の社交性の度合いを測る。 手順A:留学前後に英語のスピーキングテストを実施し、その差を測る。 手順B:@とAの結果を統計的に分析する。その結果から仮説が成立するか判断する。 手順C:評価した@とAの関係について調べる。 |
評価したい項目を正しく測るには、そのテストの妥当性と信頼性が確保されていなければならない。質問紙やテストなどの尺度(道具)を適切に使って、人間の特性や能力を評価する必要がある。妥当性と信頼性については、次節で詳しく紹介されている。
1-2. 測定の2大要素:妥当性と信頼性
■妥当性(validity):その尺度が測定すべきものを測定しているかという概念のこと。
■信頼性(reliability):測定が安定していて正確であるかどうかということ。
例1)英作文テスト
■英語を実際に書かせる→妥当性が高い
選択テストを実施する→妥当性が低い
■採点の段階で、明確な基準を設定する→信頼性が高い
複数の採点者・答案間で採点基準が異なる→信頼性が低い
例2)1-1節の質問紙
■質問項目に、複数の学習動機に関する項目が混じっている→妥当性が低い
■一回目と二回目の解答結果がほぼ同じ・得点が安定→信頼性が高い
妥当性と信頼性の両方がそろったデータが当初の仮説の検証に使えるのであって、信頼性が高くとも妥当性が低いと(またはその逆)、使用することが出来ない。
妥当性と信頼性の概念の関係を表すのに、「ダーツのアナロジー」がある。
(参考:p.4の図1.1 妥当性と信頼性の関係)
@のパターン・・・妥当性も信頼性も高い。
Aのパターン・・・妥当性は低いが、信頼性は高い。
Bのパターン・・・妥当性も信頼性も低い。
*的の中心に矢が当たれば当たるほど、妥当性が高い。
*同じ場所に当たる矢の数が多いほど、信頼性が高い。
妥当性が高い場合は、信頼性も高くなる必要がある。信頼性は妥当性を満たす必要条件となり、妥当性を考慮に入れていない研究は、たとえ結論が得られたとしても、的外れな推論であると言える。
次節からは、妥当性について見ていく。
Section 2 妥当性の捉え方と検証法
2-1. 伝統的な妥当性の分類
妥当性については、今日まで多くの議論が展開されている。伝統的な妥当性の分類は、以下の通りである。
(参考:p.5の表1.1 伝統的観点から見た妥当性の分類)
【1】内容妥当性
(content validity)
【2】基準関連妥当性
(criterion-related
validity)
【2-a】併存的妥当性(concurrent validity)
【2-b】予測的妥当性(predictive
validity)
【3】構成概念妥当性
(construct validity)
上記の表は、1966年に合同委員会(米国教育学会:American Educational Association,米国心理学会:American Psychological Association, 全米教育測定協議会:National Council on Measurement in Education)によって整理された。上記の項目以外に、表面妥当性:face validity(テストが測定しようとしているものを測定しているように見えるかどうか)があるが、Messick (1989)によれば、科学的にも専門的にも妥当性の分類に含められないようである。以下、各項目について一つ一つ取り上げる。
【1】内容的妥当性
・測定しようとしている特性や知識を問う項目を、どの程度含んでいるか。テスト作成者と各分野の専門家が協力して判断する。
例)1-1節の例
社交性を測定したい→社交性に関係のない質問項目が多い→妥当性の低下
【2】基準関連妥当性
【2-a】併存的妥当性
・作成した尺度の結果とほぼ同時期に実施した別の尺度の結果が、どの程度一致しているか。この一致度は、相関(correlation)で求めることができ、この場合の相関係数を妥当性係数(validity coefficient)と呼ぶ。必要とされる妥当性係数の値は、その結果がもたらす影響や尺度の性質による。
*注意:併存的妥当性は、使用する外部基準の妥当性が検証済みではじめて検証可能となる。さらに、新旧両方の尺度が同じ特性を測定すると証明されていなければならない。
例)英語のプレイスメントテスト
TOEICと自作の英語実力テストの両方を実施→両者の結果の一致度が高い→他のクラスで自作テストの利用が可能になる。
【2-b】予測的妥当性
・現時点のテストの結果が、将来のパフォーマンスをどれだけ予測できるか。
例)ある職業の適性検査とその後の営業成績
【3】構成概念妥当性
・尺度が測定すべき構成概念(construct)をどの程度反映しているか。
理論上その存在が仮定されている能力や特性のこと。目には見えない。
例)1-1節の例
社交性とスピーキング力・・・構成概念にあたる。
質問紙の分析・・・構成概念妥当性の検証にあたる。
構成概念妥当性の検証の一つに、「妥当性が検証された基準との相関」がある。このことから、基準関連妥当性が構成概念妥当性の一部と言える。また、内容的妥当性も構成概念妥当性の一部であるといえる。それは、ある構成概念がどのような特徴を持つかを検証しリスト化するプロセスを踏むからである。新しい妥当性の考え方では、妥当性と構成概念妥当性は同列視されている。
2-2. 新しい妥当性の定義:Messickの分類
■米国合同委員会の考え方の変化・・・2-1節に示す3種類の証拠のみでなく、より多くの証拠を提示するべき。
■妥当性のことを、「テスト得点を用いたある特定の推論が、適切であるか、意味があるか、有用であるかを示す」と定義し、テストの妥当化とは、「その推論を裏付けるための証拠を累積するプロセスである」としている。
■Messick(1995,
1996)は、妥当性を一つの統合体とし、その中に6つの側面(aspects)と妥当性の証拠を規定している。
(参考:p.8の表1.2 妥当性の6つの側面)
◆内容的側面(content aspect)
伝統的な妥当性の分類の「内容的妥当性」に対応する。測定に用いる項目がドメインを十分に反映していることが大事である。もし項目が測定したいドメインを十分にカバーしていない場合、代表性の不足(construct under-representation)という状態におちいる。したがって、ドメイン設定・質問項目作成時の調整が大事である。
*ドメイン:構成概念を定義する際に、要素を取捨選択した結果出来る要素の集合のこと。構成概念のドメイン(construct domain)とも呼ばれる。
◆本質的側面(substantive aspect)
被験者の応答する過程に基づく証拠のことで、理論から予測されるプロセスが、実際のタスクなどの尺度においてもみられるかどうかを検証する。(例:発話プロトコル)
◆構造的側面(structural aspect)
データの内部構造に基づく証拠を扱い、データの構造と構成概念の構造が一致しているかを検証する。
◆一般化可能性側面(generalizability aspect)
テストや質問紙などを実施して得た結果の解釈が一般化できるかを扱う。
◆外的側面(external aspect)
伝統的な妥当性の分類の「基準関連妥当性」にほぼ対応する。
◆結果的側面(consequential aspect)
尺度の使用やその得点の解釈が、社会的にどのような影響があるかを扱う。これは、伝統的妥当性の概念にはなかった新しい概念である。
ページトップに戻る
2011年5月11日(M.O.)
Section 2 妥当性の捉え方と検証法
2-3 多特性・多方法行列分析法(MTMM)
●多特性・多方法行列分析法(multi-trait multi-method
analysis, MTMM)
同じ受験者に対して2つ以上の特性(trait)を2つ以上の方法(method)で測定し、相関行列分析を使って収束的妥当性(convert validity)と弁別的妥当性(discriminant/divergent
validity)を満たしているかで構成概念妥当性があるかを検証する方法。
・収束的妥当性
同じ特性を異なる方法で測定した尺度間の相関(同一特性異方法相関:monotrait-heteromethod
correlation)で表す。相関係数は高くなることが期待される。
→低い場合の理由 ・尺度「方法」の影響力が強すぎて「特性」がかき消されている
・尺度自体が劣悪で「特性」をうまく測れていない
・弁別的妥当性
異なる特性を同じ方法で測定したテスト間の相関(異特性同一方法相関:heterotrait-monomethod
correlation, HM)と異なる特性を異なる方法で測定した尺度間の相関(異特性異方法相関:heterotrait-heteromethod
correlation, HH)の2つで表す。相関係数は低くなることが期待される
→高い場合の理由 ・「方法」の影響が強すぎるか、尺度が特性を測れていない
・測定対象のそれぞれの「特性」が、実際にはいくつかの「下位特性」から成り立っていて、それぞれの「特性」に共通して含まれている
収束的妥当性係数が弁別的妥当性係数より高い場合に、構成概念妥当性を確認できる…両者の差が大きく、常にこの関係であることが理想
(検証例:p. 11 表1.3)
2-4 波及効果
●波及効果(washback/backwash effect)
結果的側面の中で、テストなどが指導や学習に与える影響のこと。
・有益(beneficial/positive)な効果…センター試験のリスニングテストの導入
→リスニング学習を促進
・有害(harmful/ negative)な効果…入試問題にスピーキングテストが含まれていない
→スピーキング指導がおろそかになる
●インパクト(impact)
テストが教育組織や社会に与える影響。波及効果はインパクトの1つの側面であると捉えられる。社会のミクロレベルでの影響を波及効果、マクロレベルでの影響をインパクトと分ける考え方もある(Taylor, 2005)。
テストが本来のテストの意図とは異なって利用され、有害な影響を与えていないか調査することが、「結果的」側面の証拠を集めることになる
○構成概念妥当性は、総合的に評価し判断されなければならないが、必ずしも6つすべてを検証する必要はない。
→使用目的や重要度あるいは尺度形式によって検証項目も異なる。
Section 3 テストの信頼性
3-1 信頼性の定義
●信頼性(reliability)
尺度が測定している構成概念をどの程度高い精度で測定しているかという、得点の安定性あるいは一貫性を意味する。
・一貫性:被験者にもう一度同じ項目を回答してもらったら同じ結果が得られる、異なった項目であっても同じ特性を尋ねる問いに対しては同じような回答が得られること。
●信頼性係数の定義
古典的テスト理論といくつかの仮定よって設定される。
→観測値(測定値)は目に見えない真値と誤差から成り立っている(式1)
※真値:対象とする特性や能力(構成概念)の程度、真の得点
(式1)観測値 = 真値 + 誤差
@ 誤差はランダムに生ずる。つまり真値との相関はゼロである。
A 誤差はプラス、マイナスどちらの値を取ることもあり、その平均値はゼロである。
B 誤差どうしの相関はゼロである。
・真値と誤差はお互いに相関がないと仮定される場合、観測値の分散は真値の分散と誤差分散の和になる。(式2)
※分散:それぞれのデータが平均値からどれだけ離れているか、その距離を2乗した値の平均の値。
(式2)観測値の分散 = 真値の分散 + 誤差分散
・信頼性係数(ρ)を観測値の分散に対する真値の分散の割合と定義する(式3)
(式3)信頼性係数 =
・信頼性係数は0から1の間の値を取る
・観測値に含まれる誤差分散が大きいほど真値の分散の占める割合が小さくなる
→信頼性が低くなる
3-2 信頼性係数の推定方法
(1) 再テスト法(test-retest reliability)
・同じテストや質問紙を同一被験者に2回実施して、その得点の相関係数で示す。
・2回のテスト実施の間に被験者の能力が変わらないこと、テストの内容を被験者が忘れていることが条件。
・心理検査では実施可能。
(2) 同等フォーム、平行フォーム(equivalent-forms reliability)
・同一被験者に、同じ形式の2つのテストを受けてもらい、その得点の相関で示す。
→同等のテストが作成できるかに問題があり、あまり実用的ではない。
(3) 内的一貫性(internal consistency)
・同じ構成概念を測定する尺度内で、受験者の個々の項目の得点がどの程度一貫しているか。
折半法(split-half method)
・テスト項目を半分に分け、それぞれのフォームの合計点の相関を出し、スピアマン・ブラウン公式(Spearman-Brown prophecy formula)を使ってテスト全体の信頼性係数を算出する。→半分に分ける方法によって結果が変わってしまう。
アルファ係数(α coefficient; Cronbach’s α)
・項目の標準偏差とテストの総得点の標準偏差により算出する。
→折半法の欠点を克服、最もよく用いられている
キューダー・リチャードソン20(KR-20)
・項目数、項目の分散の合計、テスト全体の分散により算出する。2値データのみに適用。
キューダー・リチャードソン21(KR-21)
・テスト項目数、平均値、標準偏差により算出する。2値データのみに適用。
→信頼性係数が低く推定され、過小評価する傾向がある
(4) 評価者信頼性(rater reliability)
・評価をする側の判断に主観性が入ってしまう恐れがあるので、評価者の一致度を検討する。
評価者間信頼性(inter-rater reliability)
・複数の評価者が同じ被験者を評価した場合、評価者間で採点が一貫していたかを検討する。
・評価者が2名の場合→相関係数やカッパ係数を用いる。
・評価者が3名以上の場合→アルファ係数を用いる。
・一般化可能性理論や項目応答理論を用いることも可能。
評価者内信頼性(intra-rater reliability)
・同一評価者が一貫して評価したかを検討する。
・算出方法は、評価者間信頼性に準ずる。
【授業にて・まとめ】
・真値と誤差の定義がよくわからなかったが、授業を通して具体的に説明を聞き、理解できた。
真値:その人が持っている本当の能力
誤差:おなかが痛い、ヤマを張ったらあたった等
第2章 基本統計 データの傾向と性質をつかむ
Section1 SPSSを始める前に
1-1 SPSSへのデータ入力 → PCでの説明
1-2「変数ビュー」で変数を設定する → PCでの説明
1-3 変数の尺度
■ データ分析の統計手法によって変数として扱える尺度の種類に制限があるため,尺度の概念について把握しておく必要がある。
尺度の種類 |
例 |
特徴 |
その他 |
@ 名義尺度(nominal
scale) |
性別,血液型 |
属性に数値を割り振っただけ。 |
カテゴリが2つの場合を2値データ(binary data)と呼ぶ。 |
A 順序尺度(ordinal
scale) (順位や大小関係の表示) |
成績順位 マラソンの順位 |
順位の差によって生じる間隔は一定ではないため,四則計算はできない。 |
5件法のデータは間隔尺度として扱われることが多い。 |
B 間隔尺度(interval
scale) |
テストの点数 温度 |
数値の大小だけでなく,間隔が等しい。 摂氏や華氏で計る温度のゼロは全く何もないという意味ではない。 |
例えば2回のテストの得点は違うが上がり幅がどちらも15点の場合,厳密には点数で表される能力差は等間隔ではないが通常,間隔尺度として扱う。 |
C 比率尺度(ratio
scale) |
身長,体重 年齢,金額 |
間隔尺度の概念に加え,基準値の0という原点が存在する |
数値の間隔が等しく, 絶対的な0(存在しないことを表す)が存在する |
Section 2 記述統計と推測統計
■ 収集したデータの処理について:尺度の種類・目的に応じた統計量を求め, 記述統計として論文に報告する。
※統計量……データ(標本またはサンプルとも呼ぶ)から算出される統計的な計算値。よく使用される統計量には,平均,分散,標準偏差がある。
■ 分布を明らかにし,標本の示す傾向や特性を表したものを記述統計(descriptive
statistics),標本が抽出された集団全体にあたる母集団の傾向や特性を推測する統計的分析を推測統計(inferential
statistics)と言う(母集団を代表するように無作為(ランダム)に標本を抽出しそのデータnを通して推定・分析する)。
2-1 記述統計
■さまざまな収集したデータを,統計的指標を適宜使って,記述統計表にまとめることができる。
■ 論文などに報告するためには,(1)代表値(データの中央傾向を知る)と(2)散布度(データの散らばりを知る)の両方を報告する。この中で特によく利用されるのが,平均と標準偏差である。
■よく利用される統計的指標に関しては,表2.1を参照。
2-2 正規分布と標準正規分布
■集めたデータがどのような分布をしているのか表すためには,データをいくつかの階級に分け
|
|
|
,その階級の中にあるデータの個数を数えた頻度分布──度数分布(frequency
distribution)──を描いてみる。
■ データが平均値付近に集まり,左右対称に広がったようなベル・カーブ状の分布形状を正規分布(normal distribution),データを平均0,標準偏差1に変換して標準化した確率分布を,特に標準正規分布(standard normal distribution)と呼ぶ。
■手持ちのデータセットを平均0,標準偏差1に標準化して変換した標準得点のことをz得点またはz値(z-score,z-value)という。
(式1) z =(素点―平均点)÷標準偏差
■統計的分析を行う前提条件の一つとして,ランダムに抽出したデータが正規分布をなしている(正規性,normality)ことがあげられる。これは正規分布に基づいた確率を使って,統計的検定(パラメトリック検定)がなされているため。である。
■正規性を満たしているかどうかを調べる方法は他に,コルモゴロフ・スミルノフ検定(Kolomogorov-Smirnov test)やシャピロ・ウィルクの検定(Shapiro-Wilk
test)がある。
■正規分布の形状をなしていないと判断できるのは,歪度および尖度の指標から,(1)分布が左右対称でない(歪度,skewnessが0ではない),(2)分布曲線が極端に尖り,もしくはなだらか過ぎる(尖度,kurtosisが0ではない)があげられる。
■[記述統計]では歪度,尖度それぞれの統計量と標準誤差が算出される。式2からz値を求める。
(式2) z =
2-3
標準得点(z値)と偏差値(Z値)
■ 標準得点(z値)は,標準正規分布に基づき標準化した得点のため,マイナスの得点で表示されることがある。
例:テストの素点が70点で,平均点72.53点,標準偏差10.34の場合:z = ?
0.24
そこで,平均値50,標準偏差10になるように変換した得点,即ち偏差値として表示すると,得点がわかりやすいものとして解釈できる。この得点をZ値得点,またはZ得点(Z-score)と呼び,上記の例を以下の(式3)に代入すると,
(式3) 偏差値Z = 標準得点z ×10+50
= ? 0.24 ×10+50
= 47.6
となる。
■ Z得点が正規分布に従わない場合(例えば,順序尺度変数)でも,正規化した得点に変換することができる。このような正規偏差値のことをT得点(T-score)と呼ぶ。
2-4
平均をモデルとした統計
■ 推測統計では,母集団より標本を抽出して母集団の状況を推測するが,この標本の平均をモデルにして考えると,それぞれの観測値は以下の式5になる。
(式5) 観測値 = 標本平均 + 平均からのズレ(誤差)
平均からのズレ(誤差)が小さいほど,母集団を説明できるモデルが正確なものとなる。
■ この平均からのズレ(誤差)を示す指標として,標準偏差(standard
deviation)と分散(variance)がある(標準偏差と分散の求め方は,表2.1を参照)。
2-5
標準誤差と信頼区間
■ 標準誤差(standard error, SE)とは,標本平均の標準偏差にあたり,標本平均の散らばりを示す。標本平均がばらつくのは,抽出した標本が母集団の一部であり,抽出の度にデータが異なってくるからである。但しこの標本抽出を繰り返し,標本数を増やしていくと,その標本平均値の平均は,母集団の真の平均値に近づく。
■ この標本平均値の分布は,母集団の分布の形状に関わらず,正規分布に従う。これを中心極限定理(central limit
theorem)と呼ぶ。
■標準誤差は,標準偏差と標本の数を基に,次の式8を使って算出する。
(式8) 標準誤差SE =
■ 標本平均値から,母集団の平均(母平均)が含まれている範囲を推定することができる。その範囲を信頼区間(confidence
interval, CI)と呼び,通常は母集団から100回標本抽出して,95回(あるいは99回)は母集団を含むように設定する。この時の信頼区間は,95%(あるいは99%)となる。
■95%信頼区間は,正規分布上のz値で±1.96,99%の信頼区間は,±2.58の範囲となる(図2.11参照)。
■ 信頼区間の下側信頼限界値(下限値,lower
boundary of CI)と上側信頼限界値(上限値,higher
boundary of CI)は,以下の式9,10によって求められる。
(式9) 下限値 =(?1.96 × 標準誤差)+ 標本平均値
(式10) 上限値 =(1.96 × 標準誤差)+ 標本平均値
従って,信頼区間は,
(式11) (標本平均値−1.96 ×,標本平均値+1.96 ×
)
となる。
■なお,抽出した標本数が少ない場合は,正規分布にならないため,標本数によって分布が変わるt分布を使用する(式12参照)。
Section 3 記述統計量と正規性の検定 → PCでの説明
第4章 分散分析 前半 (pp.1-16)
Section
1 分散分析とは
1.2 分散分析の前提
分散分析を行うためには以下のような前提がある。
(0) 分散分析=パラメトリック分析であるため、量的データ(間隔尺度もしくは比率尺度)を対象とする。
(1) 分布の正規性
(2) 分散の等質性(等分散性)
(3) 観測値(データ)の独立性
(4) 球面性(対応ありの場合のみ)
(1) 分布の正規性
各グループのサンプル数が同じであれば頑健性がある。
(2) 等分散性
各グループのサンプル数が同じであれば頑健性がある。
⇒分散分析で等分散性を検定するためには以下のような方法がある。
@Levene(ルビーン)の検定:
よく用いられるが、有意差検定のためサンプルサイズが大きいと有意になりやすい。その場合はAの分散比を用いる。逆にサンプルサイズの大きいグループの分散が大きく,小さいグループの分散が小さい場合は,有意になりにくい。
AHartley’s FMax(ハートレイ検定):
分散比(variance
ratio)の検定またはF検定とも呼ばれる(※表4.4などの分散分析に使われるF検定と計算は異なる)。最大の分散グループを最小の分散グループで割って求める。1グループの数が10以下なら常に有意にならず許容範囲になり、15−20で約5倍,30−60で2から3倍の違い程度までなら許容範囲といえる(Field, 2009)。
BBartlett(バートレット)検定
※等分散性が棄却された場合:
各グループのサンプル数が異なり,Leveneの検定結果が5%水準で有意であった場合,等分散性が棄却されるため、以下のいずれかの対処法を取らねばならない。
@Welch(ウェルチの検定)あるいはBrown-Forsythe(ブラウン・フォーサイスの検定)の修正F値を使用
A対数変換(transformation)
Bノンパラメトリック検定に変更:
(3) 独立性
異なった被験者のデータが独立していないと、第一種の過誤が起こる可能性が深刻なほど高くなる。
例)3つの独立しているはず(対応なし要因)の10人ずつのグループの相関が.5あったとすると、危険率は5%→74%になるという報告もある(Scariano & Davenport, 1987)。
(4) 球面性(sphericity)
対応あり(反復測定)要因の場合、データの独立性を保つことは難しい。
⇒代わりに、対応あり要因の水準間の差の分散が等しいという前提条件(球面性)を満たす必要がある。一般的には、Mauchly(モークリー)の球面性検定が行われる。
※球面性が棄却された場合:
@Greenhouse-Geiser(グリーン・ガイサー):
自由度で調整したF値の有意確率で判断しる方法のひとつだが、有意になりにくいため、サンプルサイズが大きい時に用いられる。
AHuynh-Feldt(ホイン・フェルト):
Greenhouse-Geiserに比べて有意になりやすいため、サンプルサイズが10名程度と小さい時に使用される。
Bサンプルサイズが大きい場合(25以上)は、球面性を前提としない多変量分散分析(第7章)を使用する方法もある(Field, 2005;出村・西嶋・佐藤,2004)。
1.3 分散分析の実験計画
(1) 分散分析の基本用語
・従属変数(dependent variable: DV):変量のこと。要因から影響を受ける変数。
・要因(factor):従属変数(変量)に影響を与える独立変数(independent variable: IV)。
・水準(level):要因に設定する条件グループ。
(2)
分散分析の実験計画
・実験計画(実験デザイン):
要因の数とその種類(対応あり・対応なし)の組み合わせで決まる。
※要因が1つの場合:1元配置分散分析 (one-way ANOVA)
要因が2つの場合:2元配置分散分析 (two-way ANOVA)という。
@対応あり要因:
同じ被験者が繰り返し異なる水準に割り当てられた被験者内要因(within-subjects factor)。その要因で構成された計画を被験者内計画または反復測定(repeated measures)と呼ぶ。
A対応なし要因:
被験者がそれぞれ異なる水準に割り当てられた被験者間要因(between-subjects factor)。その要因で構成された計画を被験者間計画と呼ぶ。
B混合計画(mixed
design):対応あり要因と対応なし要因が含まれる実験計画。
※変動要因(source of variance):
変動する(分散が生じる)因子。分散分析によっていくつかの変動要因に分けられる。例えば、1元配置分散分析デザインAの場合は、A(Aの主効果)、s/A(偶然誤差)の2つの変動要因に分かれて出力される。
全体の平方和(SSTotal)=被験者間の平方和(SSA)+被験者内の平方和(SSs/A)(式1)
※平方和(SS):
各データと平均の差の2乗を足した値(SS = (X-Xバー)2)で、平均からの変動を表す。サンプル数が多くなると数値も大きくなるため、それをそれぞれの自由度(df: 自由に変更することができる変数の個数)で割って平均平方(MS)を求める。その後、F =MSA/MSs/Aを計算することで、主効果による変動と誤差による変動の大小を見る。つまり、F値が大きければ大きいほど主効果による分散が大きいということになり、これがある数値以上になると、有意差があるということになる(図4.2参考)。
Section 2 1元配置分散分析(対応なし)
→PCでの説明
参考:論文への記載
■記述統計(ここでは、図4.11)は、APAマニュアル(APA, 2009)等に従って表にして報告する。
※図、省略
※図、省略
■APAマニュアル(2009)では、効果量(来週のSection 4で詳しく説明)も有意確率と合わせて報告するように推奨されている。
■対応なしの1元配置分散分析の場合、よく使用される3種類の効果量(η2,η2p,η2G)の値が同じになるので、その内のどれかを報告する。
●η2 = η2p = η2G = 求めたい要因の平方和
●全平方和=SSEffect
●SSTotal=950.95/6322.98=.015
●効果量の大きさの目安,η2 = .01(小),η2 = .09(中),η2 = .25(大)
■以下が、論文での記載の例である。必要に応じて、多重比較の結果を加える事も検討する。
F (グループ間の自由度, グループ内の自由度) = F値, p = 有意確率, η2 = 効果量
表4.6 対応なしの一元配置分散分析(デザインA)
Source |
SS |
df |
MS |
F |
p |
ηG2 |
クラス |
950.956 |
2 |
475.478 |
7.700 |
.001 |
.015 |
誤差 |
5372.033 |
87 |
61.748 |
|
|
|
全体 |
6322.989 |
89 |
|
|
|
|
3クラスの文法テストの得点を対応なしの一元配置分散分析で比較した。結果はF (2,87) = 7.70, p = .001, ηG2 = .015となり,有意であったが効果量は小さかった。Tukeyを用いて多重比較を行ったところ,クラスBとクラスCの間には有意差は認めらなかったが,クラスAは,クラスBとクラスCよりも得点が有意に高かった(A >B 3 C)。従って,クラスAの文法指導が最も効果があると認められた。 |
第4章 分散分析 後半(pp. 17-25)
Section
3:1元配置分散分析(対応あり)
■先週に引き続き、PCで説明。
Section
4:分散分析で使用される効果量
有意確率(p値)と効果量(effect size)
■有意確率
・帰無仮説(変数間に関係はないので、データの偏りは偶然である)の下線部を表す確率。
・ゼロになる事は有り得ないため、有意水準を下回った場合に帰無仮説が棄却される。
・標本数/サンプルサイズに影響されやすい。
■効果量
・標本数/サンプルサイズに影響されにくい。
・APA (2009)では、効果量と共に示す事が推奨されている。
・分散分析では、要因(主効果や交互作用;今回の場合はクラス)と従属変数(今回の場合は文法テストの点数)の関連の強さ(strengthen of association)を表す。
効果量の種類
1.
eta squared(イータ二乗)
・η2 = ある効果の平方和 / 全体の平方和 = SSEffect / SSTotal
・全体のばらつきの中に占める要因の効果の割合/分散比。
・全体の分散における要因の分散説明率(≒回帰分析における決定係数r2)
・要因が増えるにつれ、他の要因に影響され個々の要因の効果量が小さくなる。
・他の分散分析デザインの効果量と比較が不可。
2.
partial eta squared(偏イータ二乗)
・ηp2= ある効果の平方和 /(ある効果の平方和+対応する誤差平方和)= SSEffect / (SSEffect + SSError)
・他の独立変数の個数やそれらの有意性による影響を除いた効果量
・独立変数が増えても相対的に低くならない。
・SPSSで算出可能。
・分母に持ってくる誤差が小さくなる被験者内要因の効果量を過剰に高く推定する(全体で1を超える)ため、被験者間要因と比較できず、η2の大きさの目安(普通は全体で0〜1)も使えない。
3. generalized
eta squared(一般化イータ二乗):
・ηG2 =ある平方和/(ある平方和+すべての測定要因の平方和+すべての誤差平方和)= SSEffect / (δ x SSEffect + ΣMeasSSMeas
+ ΣKSSK)
・Effectが操作要因(実験で操作した条件等の要因)であればδ=1,測定要因(男女,動機,習熟度等と言った参加者の特性を測定した要因)であればδ=0。
・Meas =
Measuredの略で全測定要因なので、ΣMeasSSMeas = 操作要因以外の全測定要因のSSを合わせたもの。
・K = 分析に含まれる全誤差項の数なので、ΣKSSK = 全誤差項のSSを合わせたもの。
・全ての個人差による変動を計算式の分母におき、被験者間・被験者内の比較、他の研究の効果量と比較可能だが、母集団が異なる場合の比較は難しい(Olejnik & Algina, 2003)。
・η2と同じ目安を使用できるが、計算は複雑。
・グループ間の標本数が異なる場合、分析時に[モデル(M)]から[タイプI平方和](Type I SS:sequential SSのこと)を指定する(Bakeman, 2005)。
4. omega
squared (ω2), partial
omega squared (ωp2), general
omega squared (ωG2)
・ω2 = [SS
Effect ? (df Effect) (MS Error)] / (SS Total
+ MS Error)
・ωp2 =
[SS Effect ? (df Effect) (MS Error)] / [SS Effect
+ (N ? df Effect) (MS Error)]
・ωG2の計算式は、Olejnik & Algina (2003)を参照の事。
・η2,ηp2,ηG2のそれぞれの結果を母集団にまで一般化できるようにした母集団推定値。
・dfは自由度(degree of
freedom)の事で、ある分布を出すために母集団から抽出する必要がある標本数を意味する。
・標本数/サンプルサイズが少ない時に大きくなりがちなηの値より小さくなる。
・上記の式は要因の各水準の標本数が同じ&被験者間デザインの場合に限る。
・被験者内デザイン用の式はさらに複雑になる(Field, 2009, p. 480)。
その他、多重比較や対比による2変数間の効果量:d, g, r(詳細は第3章t検定2-3を参照の事)も存在する。
【コメント】
今回の発表は、前回と逆で、PCでの発表(Section 3)の担当が渡辺、ハンドアウトを用いての説明の担当が石井でした。
そして、発表後、本ハンドアウトと発表に基づいて教科書の内容についてのディスカッション(主に、@修士の皆さんや私のように統計をほとんど始めて学んでいる人達の視点とA博士課程の皆さんのように経験者の視点から)を行いました。以下、その内容をまとめた物になります。
・「APデザイン(2要因混合モデル)」の部分(p. 24)や「操作要因と測定要因別の分散分析デザインとηG2の算出式」を示す表4.8(p. 25)は、応用的な内容なので、Appendixを用意してそこに掲載(=この場で直ぐに目を通すかどうか選べる)だと読む上でスムーズ・内容が理解しやすいかもしれない。
・各効果量の説明において、式だけでなく具体例も与えられると初心者には分かりやすいと考えられる。
・各効果量の違いをより明確に示す事で、初心者は理解しやすく、初級・中級の経験者は使い分けができるようになると思われる。
以上です。複数の意見をまとめると、上記の3点に集約すると思います。