![]() |
2019年度 応用言語学特講Ⅰa |
<担当箇所>Measuring
the Dependent Variables: Practicality, Reliability, and Validityから章末まで
<Discussion Point>
・信頼性、妥当性、実用性がそれぞれ保証するためにはどのような研究手法を用いるべきか?
・上記3つを同時に保障する研究手法とは?
<従属変数の測定:実用性・信頼性・妥当性>
研究者は処理結果を評価するために使用されるデータを導き出す方法だけでなく、結果を評価するためにどの基準を使用するかも選択する必要がある。どの場合も、研究者は実用的で信頼性のある、かつ妥当性のある基準を選択しければならない。
結果を評価するためのデータを収集する際には、一般に、参加者数の観点からだけでなく、研究者が評価したい行動の例の観点も関係している。
実用性:実際の用に適するかどうかを示す
(例)Short, Fidelman
and Louguit(2012)
生徒のライティングにおける教授モデルの効果と指導者の発展を決定しようとした研究。まず、どのライティングを考慮するかを決めなければならなかった
一人の生徒のデータが多ければ多いほど、その生徒をより正確に評価することができる。理想は研究者がライティングを評価するために様々な種類のサンプルを持っていることだが、実用性の面から考えて、教育上の文脈においては生徒の疲労やコストなどの要因を考慮して、二つのタスクしか生徒に課すことができなかった。
信頼性:研究が繰り返されても、研究者は毎回同じ結果を得られるという考えを表す
データが集められた際の状況は、データの信頼性に影響する。
研究者は使用する基準を一致させる必要があり、どの人がその基準を使用しても同様の結果が得られるようにしなければならない。異なる評価者であってもその評価に一定性があれば、採点者間信頼性の高い基準であるといえる。
採点者間信頼性:異なる採点者の採点の一定性をみる
採点者内信頼性:採点方法に変化がないかを調べる
妥当性:測定すべき能力・技能等そのものを測定しているかどうかということ
実験的研究において最も処理が難しい問題は、従属変数のために使用される基準の信頼性と妥当性である。
信頼性は測定中のエラーを減らすために重要である。しかし、信頼性はあるが妥当性はない基準もありうる。信頼性を決定するのは単純なことであるが、妥当性を決定するのはそう簡単ではない。
・実験的な研究の目的…従属変数に基づいてグループ間の相違を決定すること。
・グループ間の相違が有意であると決定する方法
→統計上の有意性のテスト(例えばANOVA)を行うという方法
しかしこれらのテストは完全に相違の全容を明かすものではなく、まだ議論が行われている。
・ほとんどの研究には、相違の大きさを測定するための効果量(effect size)がある。
<外的妥当性・生態学的妥当性・過度の単純化>
外的妥当性:実験的研究の結果が、他の教育上の文脈や集団において適用される程度
これはgeneralisabilityとしても知られている。実験的研究に関わりがある。
生態学的妥当性:その研究の現実の状況との関係の程度を表すもの
生態学的妥当性が将来の研究を導き、L2ライティングの過程のモデルを構築する助けとなる時、多くの研究は研究者や教師に、生徒のライティングはどのように潜在的に有益なものとなりうるのかという洞察を与える。
還元主義:多様で複雑な事象は単一の基本的要素に還元して説明せねばならないとする態度
実験的研究に関する哲学的な問題は、研究の「還元主義的アプローチ」と呼ばれる事項を考慮している。この問題は実験的研究の焦点が狭すぎて重要な文脈的要素を無視してしまっていると批判している。
<実験的研究の議論:Ong
and Zhang(2013)>
l Ong, J. & Zhang, L, J. (2013). Effects of
the manipulation of cognitive processes on EFL writer’s text quality, TESOL Quarterly, 47, 375-398
Background
ライティングは認知的に複雑であり骨の折れるタスクだが、執筆前の活動によっては認知的要求を減らすことができる。加えて、異なったタスクは異なった認知的要求を持つ。自由記述とプランニングのどちらがテキストの質に良い影響を与えるのかについての理論と経験的研究に関しての論争が既に存在している。
Research Question
エッセイの質におけるプランニング条件、サブプランニング条件と修正条件の影響はどのようなものか?
Method
参加者は中国人のEFL学習者107名。
3つの異なるジャンルを含むライティングのプレテストを与えられ、このテストの結果に基づき参加者を3つの熟達度に分け、階層ランダムサンプリングによって参加者にランダムに以下の条件を割り当てた。
・プランニング条件(いずれも制限時間は合計60分)
プランニング群(10分構成を考え20分で執筆)
長期プランニング群(20分構成を考え10分で執筆)
自由記述群(すぐに書き始めるように指示)
統制群(特に指示は与えない)
・サブプランニング条件
タスク付与群
タスク要素付与群
タスク要素および構成付与群
・修正条件
最初に執筆したエッセイあり群
最初に執筆したエッセイなし群
グループ分けした後、エッセイを執筆し、その後修正したエッセイを執筆するという作業を行った。最初のエッセイと修正したエッセイは分析評価スケールを用いて採点した。
Results
・プランニング条件からは極小ではあるが影響が見られた。
・サブプランニング条件において、タスクと構成どちらも与えられた参加者群は高い質のエッセイを執筆した。
・プランニング条件と修正条件とでは相互作用効果が見られた。
…最初に書いたエッセイを除去した自由記述群の参加者が最終的に高い質のエッセイを執筆していた。
・自由記述群における生徒たちは、最初に執筆したエッセイがない状態での修正執筆の方がより良い結果となり、統制群は修正執筆の際に最初に執筆したエッセイがある方が良い結果となった。
・修正条件のみではグループ間相違に影響しなかった。
・プランニング群と自由記述群との間で大きな相違がみられた。
Discussion
・Ong and Zhangは2人の採点者にエッセイの40パーセントを評価させ、研究者の内の一人にすべてのエッセイを3か月おいて2度評価させた。
→採点者間信頼性は高いが、採点者内信頼性は低い。そのため他者による研究の再現が難しい。
・修正されたエッセイの点数における採点者内信頼性も低い。
→意見が一致しなかったエッセイに関して採点者が議論するという工程を加える。