筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室




 

Validating Assessments for Research Purposes

Aandrea Revesz & Tineke Brunfaut

M. K.

Background

SLA研究者が研究目的のために評価を設計する際、その評価の解釈を検証することが重要である。

Chapelle (Chapter 2)が詳しく述べているように、この文脈での検証とは、意図された用途や研究対象者への適合性の観点から、研究手法に関する主張の証拠を得るプロセスを意味する。

■近年、SLA研究者の間では、研究手法の検証の重要性に対する認識が高まっているが、検証方法は、研究手法の開発、使用、評価におけるガイドラインと十分に一致していないことが多くある(Purpura et al.2015; Schmitt, Nation, & Kremmel, 2019)。

■本章では、SLAにおける現在の検証方法を改善することを最終目的として、SLA研究で活用できるいくつかの重要なフレームワークを紹介し、今後の研究の指針となる推奨事項を示す。

 

Key Issue

~測定と検証のフレームワーク~

SLAの研究者が実証的な研究を行う際には、知識、発達、記憶、適性など、理論や観察から推測されるが直接測定できない構成要素を測定することを目的とした評価方法を開発することが多い。

■そこで特に、考慮しなければならないのは、construct underrepresentation(構成要素の不十分なサンプル)construct-irrelevant variance(構成要素に関係のないもの)である(American Educational Research Association, American Psychological Association, & National Council on Measurement in Education, 2014)。

construct underrepresentationとは,構成要素に関する推論を行うために必要なパフォーマンスのすべての側面を評価が適切にサンプリングしていないために,評価が構成要素の重要な側面を捉えられていない状況を指す。

(例:文法性判断テスト(GJT)において、L2学習者の文法能力全体をテストすると謳いながら、少数の文法的特徴を対象とした項目しか含まれていない場合)

construct-irrelevant varianceとは、評価者が測定しようとしている構成要素に関係のない要因によって評価が体系的に影響を受ける場合に発生する。言い換えれば、評価には無関係な変数が含まれる

(例:GJTにおいて、回答のスペルが間違っていた場合、これらを非文法的なものとして分類する可能性があるが、実際には正書法または語彙上の問題(評価の意図する構成要素ではない)を示している)

SLAの研究者が、construct underrepresentationconstruct-irrelevant varianceを避けるために、Norris and Ortega2003は、SLA研究ツールの開発と使用に関する6段階の測定フレームワークを提供している。以下が、調査対象の構成要素について正当な解釈を得るためのフレームワークである。

■最初の3つの段階は、測定プロセスの概念化に関するものである。

①最初の段階では、研究者が到達したい解釈や結論に照らして、具体的に何を調査したいのかということが重要になる。このような構成概念の定義は、その根拠となる理論的仮定を示すべきであり、観察可能な行動に結びつけられるように具体的である必要がある

②第2段階では、意図した構成概念の解釈を裏付ける十分な証拠を提供し、構成概念の過小表現を避けるために、観察すべき行動を特定する必要がある。行動を構成要素に関連付けるプロセスは、理想的には、この分野の理論的知識と経験的研究の集合体から情報を得る。

③第3段階では、対象となる行動を引き出したり観察したりするために使用するタスクや状況を特定する。この段階で重要なのは、タスクや状況が実際に想定されたタイプの証拠を生成できるかどうかを慎重に検討することである。

■次の3つの段階では、概念化プロセスの結果が手続き化される。

④行動は、研究手段の操作と管理を慎重に行うことで誘発される。研究手段における構成概念の表現を確実にするために、タスクが引き出す予定の行動を完全に捉えていることを確認する必要がある。

⑤行動が引き出されると、観察結果は、調べた構成要素に関連する側面に関してコーディングおよびスコアリングされる。この時点で妥当性を確立するために重要なことは、構成概念の定義とよく一致したコーディングおよびスコアリングを開発することである。

⑥最後に、評価で得られたスコアは、研究課題に関連してスコアを解釈するために、適切な統計分析を行う必要がある(Norris et al.2015; Plonsky, 2013)。統計分析が適切に選択され、厳密に実施されなければ、解釈が歪んだり、誤解を招いたり、単に間違ったりする可能性がある。

Norris and Ortega2003)のフレームワークは、理論的な構成要素について意味のある解釈に到達するために適切な研究手段を設計し、実施するための指針となる。

 

 

SLAにおける検証の課題~

SLAの検証作業における3つの課題、①理論に基づいた研究手法の検証をどのように進めるか、②様々な用途の研究手法をどのように検証するか、③SLA研究の不可欠な段階として検証をどのように計画するか、について説明する。

 

理論に基づいた研究手法の検証

SLAにおける最も包括的で影響力のある検証作業は、暗黙的知識と明示的知識の測定法の開発に関するものであり、これらのタイプの知識の関係に関する長年の理論的論争に情報を提供してきた。

Ellis et al.(Ellis, 2005; Ellis et al., 2009)は、暗黙的知識と明示的知識の測定に基づく解釈の検証に着手した。彼らが行った研究のステップは、Norris and Ortega2003)のモデルで説明されている段階を例示している。

①既存の理論的・実証的研究をもとに、暗黙的・明示的な知識に関連すると想定される観察可能な行動を導き出した。このプロセスを経て、暗黙的知識と明示的知識を定義した。

②次に、暗黙的知識と明示的知識の構成要素の定義に関連する観察可能な行動を引き出すための一連の評価を考案した。

③そして、評価が本当に暗黙的知識と明示的知識の構成要素に関連した行動を引き出すことに成功したかどうか、つまり、評価の解釈が妥当であるかどうかを検証した。

④さらに、参加者の評価上のパフォーマンスと、理論的な構成要素に関連すると想定される他の要因(例:L2の学習を開始した年齢)との関係との間の仮説的な関連性を検証するために、統計分析を行った。

■このプロジェクトの結果を受けて、研究者たちは、これらの測定器は、暗黙的および明示的な知識の有効な測定器として使用できると結論づけた。

■しかし、このプロジェクトには、検証の観点からいくつかの批判も寄せられている。Ellis (2005)は、評価される構成要素の性質に関して先験的な仮説が立てられていたため、探索的因子分析ではなく確認的因子分析を採用すべきだったと主張している。Ellis and Loewen (2007) はフォローアップ研究でこの限界に対処したが,Vafaee et al. (2017) は因子分析でライバルモデルがテストされていないことを指摘し,さらなる問題点を浮き彫りにした。Ellisらの研究は、いくつかの重要な反論に対する考察と評価が欠けていたと言える。

■そこで、この欠点を解消し、理論的に導き出された理解ベースの新しい暗黙的知識の測定法を検証するために、Vafaee et al.2017)は、暗黙的知識と明示的知識の測定法から導き出された解釈を検証する新しい研究を行った。

■今回の研究は、重要な構成要素を操作するための過去の試みを基にした継続的な検証作業が、構成要素についてより適切な解釈を可能にする、より洗練された研究手法の開発につながることを示す好例である。

 

様々な用途の研究手法の検証

SLAの研究では、ある研究である目的のために特定の集団に使用された手法が、新たな研究では異なる目的・参加者に使用されることがよくある。このこと自体は問題ではないが、研究者が自分の研究の母集団や用途に合った手法を検証せずに手法を真似てしまうことが多いことは問題である。

■ここでは、Drackert (2015a)を参考に、研究者がSLA研究手法を様々な用途に合わせて検証する方法がSLA評価の検証にどのように利用できるかを説明する。

Drackert2015a)は、ロシア語の内容判断を伴う模倣(EI)テストを習熟度評価として2つの用途で検証することを目指した。1)研究開始時の参加者の初期スピーキング能力をコントロールすること(2)総合的なリスニングとスピーキング能力に基づいて研究の参加者をスクリーニングすること

■最初の用途のためにElテストを検証するにあたり、次のようなステップを踏んだ。

①まず、意図するテストの文脈を特定することから始まり、続いてテストの開発と解釈・使用論の構築を行った。図3.1に示すように、最初の推論は、テストパフォーマンスの引き出しに関するものであり、例えば、テスト実施手順、テストの質、指示の理解性などを含んでいる。

2つ目の採点・評価の推論では、テスト項目の選択、採点ルーブリックの作成、採点の一貫性についての仮定をした。

3つ目の一般化の推論では,テストの信頼性,サンプルサイズの妥当性,教育環境や異なる第一言語の背景の間でのテストの一貫性に関する仮定をした。

4つ目の推論である外挿は、過去の理論的・実証的研究から導き出され、EIテストと関連する背景変数やL2スキルの自己評価との統計的関係の予想を概説したものである。

⑤最後の推論である活用は、テストが検証された用途を明示している。解釈・用途の議論が展開されると、図3.2に示すようないくつかの評価質問に答えることで、妥当性を主張するプロセスが含まれる。

■その後の研究により、Elテストは、SLA研究におけるロシア語スピーキング能力の初期レベルをコントロールするという目的で、信頼性高く使用できることが確認された。また、中級レベルのリスニング能力の閾値を予測することができた。

 

研究デザインへの手法検証の統合

■ここでは、研究者がSLA研究で使用する手法の検証を、より小規模なSLA研究のデザインに統合する方法を、例を挙げて示す。

■過去20年間、SLA研究の多くは、タスクベースの言語学習の認知モデルを検証するために、タスクの複雑さ(すなわち、タスクの固有の認知的要求)が、複雑さ、正確さ、流暢さなどのL2成果指標に及ぼす影響を探ってきた(Robinson, 2001; Skehan, 2009)。

■研究者は通常、複雑な課題と単純な課題(例えば、推論の要求度が高いものと低いもの)を設計するが、認知的要求度が高いように設計された課題バージョンが実際に認知的に複雑であったかどうかを検証することができなかった。

■この欠点を解決しようという声に応えて(Norris & Ortega, 2003; Révész, 2014)、現在では、主観的な自己評価、主観的な時間推定、デュアルタスク手法、専門家の判断など、認知負荷や精神的努力の独立した測定法を設計に含める研究が増えている(例:Baralt, 2013; Révész et al., 2014; Zalbidea, 2017)。

■また、一部の研究者は、将来のタスクの複雑さの検証方法を示すために、タスクで発生する認知的負荷を評価する様々な方法を試行している(例:Révész et al. 2016; Sasayama, 2016)。

 

 

Recommendation for Practice

SLAの研究者が研究手法を構築して検証する際の指針となるような、いくつかの実践的な提案をする。

■実証研究を設計する際には、Norris and Ortega (2003)の測定フレームワークに概説されている各ステップ(構成要素の定義、行動の特定、タスクの指定、行動の引き出し、観察の採点、データ分析)を考慮する。

■ターゲットとなる構成要素を常に念頭に置き、十分に包括的な方法で構成要素を操作しているか(construct underrepresentationを避けるため)、また、他の知識、能力を必要としたり、使用したりしていないか(construct-irrelevant varianceを避けるため)を慎重に評価する。

■構成概念を測定する際には、構成要素の過小表現、あるいは誤った表現に気をつける必要がある。表現上の問題をチェックするには、例えば、学習者の認知反応プロセスを調査する検証作業などがある(Nicols & Huff, 2017)。

■妥当性を主張するためのデータを収集・分析することができない場合は、そのことを強調し、研究結果を解釈する際に考慮に入れる。

■ある目的のために、ある状況下で、ある集団の学習者に対して検証されたテストが、別の目的、別の集団の学習者に対しても有効であると仮定してはならない。テストは、目的とする集団、文脈に合わせて検証する必要がある。

IRISのようなオープンアクセスのリポジトリで、手法やデータを共有し、目的、母集団、データが生成された文脈などの情報を添えて、元の出版物や論文を公開するのがよい。これにより、他の研究者が過去の研究で使用した研究手法やデザインの妥当性をよりよく評価できるようになるだけでなく、改良を目的とした継続的な検証作業を促進することができる。