筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2017年度  異文化言語教育評価論

■メタ分析 (meta-analysis) の定義

    狭義: 研究間で効果量を収集し、計算し直す統計的な手法 (相関係数r や標準化平均値の差d )

    広義: 計算だけでなく、先行研究の概念や結果を統合すること

■通常のレビュー論文の3つの問題

    本質的に質的なものであること

    全体的に帰無仮説の有意差に依存しすぎていること

    どんなに専門知識を持っていても、完全にカバーすることは難しいこと

 

How to do a meta-analysis

1.       Defining the research domain

■メタ分析の研究領域の定義は、それに続くすべての研究過程に影響する重要な初めの1歩である。

■研究の焦点は、適したメタ分析に求められる先行研究の最小限の数に関する統計的な課題によzて決められることがある。メタ分析において、サンプルの大きさとそれに続く効果量が統計的な力を研究者に与える。しかし、小さな範囲におけるメタ分析も価値がある。

 

2. Conducting the literature search

■データベースを用いて、研究を検索する。

    ERIC (Education Resources Information Center) http://wvvvv.eric.ed.gov

    Linguistics and Language Behavior Abstracts (LLBA; http://wvvw.proquest.com/products-services/llba-set-c.html)

    PsycINFO (http://www.apa.org/pubs/databases/psycinfo/index.aspx)

    Academic Search Premier at (http://www.ebscohost.com/academic/academic-search-premier)

    ProQuest Dissertations and Theses at (http://www.proquest.com/products-services/pqdt.html)

■該当の論文を引用した文献も探せるもの

Web of Science (http://wokinfo.com/)Google Scholar (http://scholar.google.com/)

 

3. Designing a coding sheet

Coding sheetの作成は、分析の前提となる重要なプロセスとなる。

Coding sheetは、研究の記述と結果の2種類からなる (Lipsey & Wilson, 2001)

    研究の記述:研究名、協力者・環境、デザイン、測定方法

手法の記述・評価や研究結果の重みづけ、手法と結果の関連を検証するために使われる。

    研究の結果:効果量 (dまたは相関) や計算可能な記述統計 (グループ平均や標準偏差など)

    その他、研究に特徴的な変数をコード化する (e.g., L2読解理解の指導: テキストの長さ・ジャンル、学習者のL2語彙知識、L1読解能力など)

※ コーディング評価者間での基準が必要で、不一致点は協議する。コーディングのマニュアルを作成し、逐一修正していく。

 

4. The coding process

■実際に各論文のグラフ・表・本文などから、情報を抽出する。

    メタ分析の中で最も重要なプロセスかつ、時間のかかる作業 (spread sheetに直接入力すると良い)

■コーディング

    明確に分かれるもの (e.g., 目標語)

    判断を要するもの (e.g., タスクの複雑さ)

    明確に書かれていても複雑なもの (e.g., L2熟達度): L2で過ごした期間、L2指導を受けた期間、熟達度テストの得点、クラスのレベル等を基準としても、研究によって書かれていない場合もある。

  推測したのか、書かれていたのか、除外したのかを記録しておく

■評価者

    評価者が複数いる場合はtrainingすることが必要で、1人ができるだけ多くの研究を担当する。最低20 (できれば50以上) の研究をdouble codingするべきだが、そもそもほとんどのメタ分析で使われている研究数の中央値は17なので、全てdouble codingすることも可能である。

    double codingしたときは評価者間一致率 (級内相関、Cohen’s K%) と、コーディング中の不一致の詳細や数、それらをどのように解決したかを報告する。

    これらの手順やCoding sheetは、読み手が直接参考にできるように、ジャーナルまたは個人のwebsiteにてsupplementary materialとして提供する。あるいは論文の注などに記述する。

 

5. Analysis

■メタ分析は、既にある研究の効果量を再計算することも含まれる。

    一般的に、プレ-ポストテストデザインは効果量が大きく出るので、協力者間グループデザインとは分けて扱うが、メタ分析では両者を比較することが必要になる。

    d値の算出方法がプレポストテストデザインでは協力者間グループデザインと異なり、プレポストデザインでは、両テストに相関関係があることがd値算出の前提であるが、ほぼ報告されていない (91個のメタ分析研究の中央値:協力者間 d = 0.62, 協力者内 d = 1.06)

    メタ分析に必要なデータが欠損していることがある。通常は欠損値の含まれる研究ごと削除するが、メタ分析に使える研究の数が少ない場合、報告されていないデータ (e.g., 標準偏差) を他のデータ (e.g., 平均値) から推定することもある。

 

 

6. Weighting effect sizes

■単に研究間の効果量を平均しただけでは不適当であり、効果量の重みづけを行う必要がある。

■最低限、サンプルサイズによる重みづけが必要で、より正確を期すのであれば逆分散による重みづけを用いる (http://oak.ucc.nau.edu/ldp3/AQMSLR.htmlに算出用のファイルあり)

■どちらもサンプルサイズが大きいほど正確でメタ分析の推定に貢献するという前提で算出される。

■信頼でき、最大限に有益な方法でデータをまとめるために非常にシンプルなメタ分析の方法を用いるか、複雑なものを用いるかということを選択する中でのバランスはメタ分析を行うものの責任。

 

7. Choice of meta-analysis model

■メタ分析モデルによって、メタ分析の平均と分散を推定する方法が決まる。

固定効果モデル: メタ分析で扱う研究の母集団が同一と見なし、ある1つの真の効果のみが存在し、効果のばらつきは偶然誤差にのみ影響されていると想定する。協力者内の比較にのみ使用可能。研究間の異質性の確認はコクランのQ検定で判断する。これが有意になった場合には、異質性があると考えられるグループに分類してサブグループ分析に進むこともある。

ランダム効果モデル: メタ分析で扱う研究の母集団が異なり、効果のばらつきは偶然誤差と各研究の偏りが原因と想定する。協力者間・内いずれも利用可だが、信頼区間は広く効果が出にくい。

■図表

forest plot: x軸に効果量、y軸に各研究 (アルファベット順か効果量順) に並べる。プロットの点の左右に95%CIのバーを描写し、グラフの一番下に研究の平均を示す。

funnel plot: forest plotと同じようなものを示し、x軸に効果量、y軸に効果量と関係のありそうな変数 (サンプルサイズなど) を並べる。一般的にはじょうご状 (funnel) になるが、これが非対称の形の場合は出版バイアス (筆者や査読者が統計的に小さい効果や有意でない効果を抑制するというもの) の判断基準となる。この場合はサブグループ分析などにより調整変数の効果や、突出して効果量の大きい研究がないかなどの他の問題点を検証する必要がある。

 

8. Interpreting the results

■大きな効果量を持つものがすべてmeaningfulで、効果量の小さいものがmeaninglessとは限らない。

■メタ分析の研究ではd値が良く使われており、慣習的にCohen (1988) の基準 (.20 効果量小、.50 効果量中、.80 効果量大) が参考にされるが、この基準はメタ分析に対応しておらず絶対ではない。

Plonsky & Oswald (2014) では、91個のメタ分析の研究から、グループ間デザインでは、d =.40 効果量小、.70 中、1.00大、グループ内デザインでは、d =.60 効果量小、1.00 中、1.40大であった

効果量はモデルの導入や改訂を経て、過去30年間で小さくなってきている。同時に、現在の研究は先行研究のデザインや手法の限界点を解決していくため、効果量が大きくなる。

 

?Sample Study 1: L2ストラテジー指導 (Plonsky, 2011)?

■背景: L2ストラテジー指導に関する研究は広範囲に行われているが、その方法と結果は一貫していない。本研究の目的は現在までに明らかになっていることをまとめ、ストラテジー指導の理論的なmoderatorsを調査することである。

RQs

(1) L2ストラテジー指導はどの程度有効か

(2) ストラテジー指導は学習環境、指導、変数、研究手法によってどのような影響を受けるのか

Method: Web of ScienceGoogle scholarなどから抽出された61の研究から95サンプルを対象とした。それぞれの研究を37変数にコード付けた。効果量の算出に不足するデータを補完するため、5名の研究者に連絡を取った。

Statistical tools: サンプルサイズの重みづけをした効果量 (Cohen’s d) meta-analytic平均値、標準誤差、CIを組み合わせた。Funnel plotを用いて出版バイアスを検証した。

Results: L2ストラテジー指導の効果はd = .49で、L2の効果としては小さいが、L1と同程度の大きさであった。L2ストラテジー指導は研究の環境、指導したストラテジーの種類や数、指導の長さ等と関連していた。

 

?Sample Study 2: corrective feedback (Li, 2010)?

■背景: L2の理論と実践にcorrective feedbackempirical findingsをどのように導入するかという不一致は未だに残っている。また、異なるタイプのフィードバック、学習の文脈、ターゲットとなるL2の特徴がその効果とどのように関係しているかは、明らかにされていない。

RQs

(1) corrective feedbackL2学習者に与える全体的な効果はどのようなものか

(2) feedbackの種類がL2学習に影響を与えるのか

(3) corrective feedbackの効果は持続するのか

(4) corrective feedbackの効果に対する調整変数は何か

Method: データベースでの検索、L2研究のジャーナルのアーカイブでの検索、レビュー論文に引用されている論文の確認、11本の博士論文から、33本の論文を扱った。

Statistical tools: Comprehensive Meta-Analysisを用いて、固定・ランダム効果モデルの両方で分析した。さらに研究間のグループの違いも検定した。

Results: corrective feedbackに対する固定効果モデルの結果d = .61, ランダム効果モデルはd = .64だった。調整変数はフィードバックの種類などに見られた。出版バイアスも見られた。

 

9. Conclusion

■メタ分析では大量の研究を扱い、各段階でいくつもの判断を下す必要があるにもかかわらず、最適な方法はない。経験上、より良い選択はシンプルなものである。

■メタ分析をする際は、読み手が手順を理解できるようにするために、各段階で正確な記録をとる。