本稿では初めに、英語リーディングテストに解答している間の受験者の眼球運動と、テストのパフォーマンスとの関連について、それぞれ別の分析を用いて調査した2つの文献の内容をまとめる。その後、この研究課題の調査に用いられた分析について考察する。

(a) Bax, S. (2013). The cognitive processing of candidates during reading tests: Evidence from eye-tracking. Language Testing, 30, 441?465.

■本研究は、読解テスト受験者の解答中の認知プロセスを、受験者の眼の動きを追うことによって調査したものである。

■IELTSテスト項目に解答する受験者のうち、成功者と非成功者の間には、読解行動にどのような違いがあるのかについて焦点を当てた。

■結果から、受験者のうち成功者と非成功者の間にある重要な違いとして、迅速に読む能力やテスト項目やテキストの特定の側面に注目する能力など、多くの要因が明らかになった。

■本研究の発見は、読解テスト中の受験者の認知プロセスに新たな知見をもたらす。

■eye-tracking technologyは、IELTSの読解問題の項目の、認知的妥当性を測定するうえで役立つ。

■テストが受験者から引き出す認知プロセスは、非テスト状況における認知プロセスと類似しているのかについて明らかにする必要がある。

■認知的妥当性の観点から言語テストが扱うべき３つの中心的な問いは、プロセスの類似性、包括性、較正である。

■読解中の認知プロセスを、語彙的処理からテキスト理解まで、複雑さに応じて階層的に分類した。

■アカデミックな読解テストの認知的妥当性を高めるには、低次/高次の認知プロセス両方を検証するべきである。

■本研究はこのモデルに基づきつつ、eye-trackingを新たに導入する。読解研究におけるeye-trackingは、注視の時間 (200-250ミリ秒)、サッカード (視点移動に伴う眼球の急速な運動) に注目する (Rayer, 1998)。

■眼の動きは、言語と認知の窓である (Spivey, Richardson and Dale, 2009)。

■言語テストの本質は、読み手が絶えずテキストとテスト項目の間を行き来し、答えを求めて戻り読み／読み飛ばしを様々な方法で繰り返すことであり、これはdefaultな読みの方法と大きく異なる (Bax & Weir, 2012)。

■eye-trackingによりこれらの行動が観察でき、他の手法では得ることのできない、より上位レベルの処理に関わる証拠を得ることができる。

１．eye-tracking technologyはどの程度、どのように、受験者のスクリーン上の読解テスト項目解答の際の認知プロセスを解明するのか。

２．スクリーン上の読解テスト項目解答の際、読解の成功者と非成功者では、眼の動きはどの程度、どのように異なるのか。

３．スクリーン上の読解テスト項目解答の際、読解の成功者と非成功者では、認知／メタ認知プロセスはどの程度、どのように異なるのか。(眼の動きのデータ、インタビューのデータを証拠として)

・マレーシアの大学1、2年生71人(母語：マレー語、タミル語、中国語など)

・スクリーン上で、IELTSの２つの読解問題(全部で11個のテスト項目)に解答する

・マテリアル：　11問中、5問は空所補充問題、6問は語のマッチング問題

・eye trackerとして、Tobii T60を使用 (カメラはモニターに内蔵されていた)。

1.　各協力者の目の注視傾向、サッカードを確認し、読解テスト中の一連のeye-trackingの正確性を確実にした。

2.　全協力者にチュートリアルのビデオを見せ、実験の流れを説明した。

3.　協力者は、スクリーン上でIELTS読解問題11項目に、30分で解答した。

4.　協力者のうち、20人にインタビューを行った。(画面上に記録された自分の眼の動きのビデオを見せられ、その動きごとに理由を説明するよう求められた)

・IELTS 11項目の信頼性係数は、 Cronbach’s α＝.722 であった。

・項目1のみ、項目-全体の相関係数＝ .046 ＜ .25より、分析対象から除外した。

・協力者71人のうち、38人の視線データ (注視時間の合計, 注視回数, visitの合計時間, visitの回数)を各項目について分析した。

・各テスト項目につき、視線を分析対象とする箇所であるAreas of Interestがtargetとして指定された。

・各テスト項目は、解答に必要となる認知プロセスを識別するために分析された。

・正答／誤答した協力者の眼の動きを比較するため、等分散性や正規性を満たすことを前提とするパラメトリック検定ではなく、ノンパラメトリック検定であるマン・ホイットニーのU検定を使用した。これは順序尺度であるため、中央値とともに報告した。

(i) テスト項目の解答中に、テキスト全体に向ける注意 (pre-/post- reading は除く)

(ii) テスト項目の解答中に、文またはそれ以上 (e.g., 段落) のレベルでテキストの重要部分に向ける注意

(iii) 各テスト項目のtargetとされたテキストや問題の特定の部分 (e.g., 語,句) に向ける注意

・いくつかの項目 (4, 6, 8, 9, 11) では、各項目に正答した受験者 (Correct Group; 以下CG) と誤答した受験者 (Incorrect Group; 以下IG) で、眼の動きに有意な違いがみられなかった。

・以下では、各項目のCGとIGで、眼の動きに大きな差がみられた項目 (2, 3, 5, 7, 10) を取り上げる。

■一文のうちで同義語を識別する能力 (下位レベル処理) が求められる。眼の動きの分析から、テキストの正答に関わるページにかけた時間 (平均　誤答者：163.55秒、正答者：102.55秒) に大きな差が見られた。([Incorrect group] N = 7, mean = 174.73, median = 163.25, SD = 69.01; [Correct group] N = 31, mean = 115.02, median = 102.55, SD = 68.86; Mann-Whitney U = 55.0, Z = ?2.015, p = .044, sig Z = ?2.015).

あるCGの受験者は素早く答えの場所を見つけ、25秒以内で解答し、正解した。一方、あるIGの受験者は素早く答えの場所を見つけることができず、172秒よりも多く時間をかけたが、誤答した。

⇒比較的易しい項目でも、IGの受験者は答えの場所を見つけるために素早く読むことができず、CGの受験者よりも多大な時間を費やして文章を読んでしまう。

■問題の特定の語に注目し、テキストの該当部分の関連する語とマッチングさせる能力 (下位レベル処理) が求められる。項目2よりも語彙の難易度は高い。

■問題の1部分に対する注視継続時間の合計、注視回数、visitの継続時間や回数にCGとIGの間で有意な差が見られた (Table 4)。

■IGの受験者は、テキストや問題の特定の語にCGの受験者よりも長い時間注目しており、自信をもって問題の語とテキスト内の語をマッチングしたり、正答に至るために統語的な曖昧性を解消したりすることが難しい。

⇒多くのIGの受験者は、target sentenceを理解するのに必要な語彙知識、統語的知識を持っていない。

■語彙に加え、より上位レベルの統語的処理を必要とする。最も難易度が高い項目。

■IGの受験者はCGの受験者よりも有意に多く、長く、テキストの全体を見ていた (Table 5)。一方で、CGの受験者はテキストの重要部分を見つけ出し、長い間注視していた。(CGの受験者の平均注視継続時間：3.83秒、IGの受験者：0.9秒)

⇒CGの受験者は、正答に至るために必要なテキストの該当部分の統語の処理に成功していた。インタビューの結果からも、CGの受験者の多くが正答に関連するテキストの部分をsearchし、答えにfitするかを考えていたという証拠が得られた。

■正答の語を選ぶ問題。targetに対する注視継続時間の合計、注視回数、visitの継続時間や回数にCGとIGの間で有意な差が見られた (Table 4, 10)。

■テキスト内の正答である語にCGの受験者はより長い時間注意を向けていたが、IGの受験者は注視していなかったか、無視していた。(平均　[項目7] CG：15.19秒、IG：2.51秒; [項目10] CG：13.62秒、IG：0.54秒)

■eye-trackingデータより、特にテスト項目3, 5, 7において、認知プロセスのうち語彙 (マッチング、同義語) レベル、統語レベルの処理、迅速な読みの点でCGの受験者とIGの受験者の違いが見られた (Table 10)。

■より上位レベルの処理 (e.g., 推論) については、はっきりとした違いは見られなかった。しかし、これは今回のテスト項目自体が、local levelの特定の情報をtargetとしたものであったためだと考えられる。

■eye-trackingの使用は、テキストやテスト項目のどの要素が、CGの受験者とIGの受験者の解答を区別するのに重要であるかの調査に有用であると示された。

■CGの受験者は、real-lifeのアカデミックな状況で用いられる認知ストラテジーを使用していた。

■IGの受験者は、CGの受験者ほど効率よく答えのある場所を見つけることができず、テキスト内の大きなチャンクを見るのに長い時間を費やしていた。一方、CGの受験者は答えを得るためにテキストのより小さな、特定の部分を効率よく見つけ出し、注目していた。

■インタビューの結果から、CGの受験者は意識的にメタ認知ストラテジーを用いて素早く読もうとしていた一方で、IGの受験者には意識的なストラテジー使用はなく、ランダムに情報を探していた。

⇒メタ認知的意識と迅速な読みは結びついており、これがCG / IGの受験者を分けているように思われる。

■10項目中5項目で、正答者と誤答者の眼の動きに大きな違いは見られなかった。

⇒CGの受験者が多様なプロセス、ストラテジー、eye-trackingでは追えない他の機能 (記憶や語彙知識など) を用いている可能性がある。このことから、eye-trackingが使用できる範囲には限界があるといえる。

■eye-tracking分析の使用は、テスト受験者の認知プロセスを評価する際に有用であることがわかった (RQ1)。

■読解の成功者は、非成功者とは大きく異なる眼の動作を行っており (RQ2)、その動きは処理レベルに応じた各認知プロセスと結びついている (RQ3)。

■本研究より、テスト設計者が特定の認知プロセスをtargetとすることはある程度、効果的であることが示された。

■IELTSのテスト項目においては、eye-trackingは受験者が認知的操作を行っていることを示す証拠になりうるが、その範囲は下位レベルの処理に限られている。推論や心的表象、テキスト全体の機能の構築など上位レベルの処理もtargetとするテストであると結論づけるためには、さらなる研究が必要である。

■読解の成功者は迅速な読みのストラテジー使用、特に、できる限り素早く正答がありうる場所を見つけ出すことができる。

■学習者にとって、語彙知識を増やし、様々な種類の語彙の一致を識別する能力を高めることは役立つ。また、正答を曖昧にする、テスト項目における文法的曖昧性を処理できるようにすることも有用である。

(b) McCray, G., & Brunfaut, T. (2016). Investigating the construct measured by banked gap-fill items: Evidence from eye-tracking. Language Testing, 33, 1?23.

■本研究は読解熟達度を測る空所補充形式のテストに解答する受験者のプロセスについて、パフォーマンスのレベルによって認知プロセスが異なるという理論的な予測を検証するため、調査を行った。

■24個の空所補充項目に対する、28人の受験者の視線データが分析された。

■予測の通り、低スコアの生徒は局所的、下位レベル処理により認知資源を費やしていた。

■スコアの高低による認知プロセスの違いから、空所補充形式が測定する構成概念が示され、テスト設計やスコア解釈の妥当性への示唆が得られた。

■gap-fillあるいはclozeとよばれるitem-type familyは、いくつかの単語がテキストから削除され、受験者に除かれた語を補うことを求めるタスク形式である (Davies et al., 1999)

■banked gapfilling tasksでは、削除された語がテキスト外のbankに、錯乱肢と混ぜてランダムに配置される。各gapに対し、受験者はword bankから語を選び、文章を再構築することが求められる (Alderson & Cseresznyes, 2003)。

■受験者がgap-filling testsの解答時にとる行動については、gap-filling testsの研究には長い歴史があるにも関わらず、あまり行われてこなかった。

■読解熟達度を測る手法としてgap-filling testsを使えるのかという問いについては検証がなされている (Alderson, 2000; Yamashita, 2003)。

■近年の影響力ある読解モデルとしては、Khalifa and Weir (2009) が挙げられる。ここでは下位処理から上位処理までの、読解の認知処理におけるcentral processing coreが示されている (Figure 1)。

■Khalifa and Weir (2009)は最も下位の処理である、正確で自動的な語彙認知は、効率的な読解のkeyとなることを指摘している (Grabe, 2009; Perfetti, 1985; Wagner & Stanovich, 1996)。

■テスト受験状況のように時間制限がある場合、語彙認知がless efficientな受験者は句や文の分析に困難を抱え、下位処理に多くの認知資源を割く。しかしながら、これはbottom-up processingのみを用いているというわけではなく、top-down processing (e.g., 下位レベルの意味単位を、背景知識を用いて理解する) も利用している (Khalifa & Weir, 2009)。

■gap-filling tasksの読解プロセスに関する研究結果は一貫しておらず、上位処理まで測れるとする立場 (e.g., Bachman, 1985; Brown, 1983) と、下位処理に留まるとする立場 (e.g., Alderson, 1980; Kibby, 1980; Klein-Braley, 1983) に分かれている。

■特に時間制限のある環境下では、lower-performing readersは上位の、文間の読解処理に充てることのできる十分な注意資源が足りないため、higher-performing readersとの差が生まれると考えられている (Brown, 2003)。

■近年までは、主にproductに焦点を当てた調査で、測定される処理の問題が議論されてきた。しかし、test-taking processesを調査することは、テストにおけるvalidation process (e.g., Alderson, 2000; Weir, 2005) の問題において重要な構成要素となるという考えが出てきている。

■しかしながら、現在までに、テスト受験者のgap-filling items、特にbanked gap-filling itemsに関して、解答中のプロセスを分析した先行研究 (Sasaki, 2008; Storey, 1997; Yamashita, 2003) には以下の限界点がある。

・各研究の協力者はL1 backgroundや文化、教育歴が同質である。

・gap-filling taskの種類によって結果は異なっており、banked gap-fill itemsに関しては完全に結論が得られていない。

・テストへの解答はかなりの程度自動化されているプロセスで、verbal report data (Yamashita, 2003) では、プロセスに関する情報が十分得られていない可能性がある。

■データ収集を可能にする1つの手段として、視線計測が挙げられる。言語テストにおける比較的新しい手法であるが、テスト受験プロセスに対して最小限の認知的介入に抑えることができ、読解テストに対してunique insightsが得られる。また、Brunfant and McCray (2015) によれば、視線計測は発話プロトコルよりも、下位処理について多くの示唆を得ることができる。

■本研究では、第一の目的として、読解熟達度を測るbanked gap-fill itemに解答する受験者のプロセスについて、パフォーマンスのレベルによって認知プロセスが異なるという理論的な予測 (Brown, 2003) を検証する。

■本研究では、Khalifa & Weir (2009) の読解モデルにおけるcentral processing coreにおいて、読解プロセスを定義づけることとする。

■第二に、先行するprocess-oriented study の手法的な限界点を解決することを目的とする。よって、同質なテスト受験者の性質を変え、gap-filling testのサンプルサイズをより増やし、さらに手法を視線計測を用いることで検証する。

■本研究では、主に仮説を以下の3つの領域に分けて検証する。

・H1: 高得点の受験者は低得点の受験者に比べ、短い時間でテストを完了する

・H2: 高得点の受験者は低得点の受験者に比べ、タスクの他の部分よりも関連する部分の処理に時間を多く費やす

・H3: 高得点の受験者は低得点の受験者に比べ、gapを含む文の処理に費やす時間は少ない

・H4: 高得点の受験者は低得点の受験者に比べ、gapの周りの部分の処理に費やす時間は少ない

・H5: 高得点の受験者は低得点の受験者に比べ、word bankを注視する時間は少ない

・H6: 高得点の受験者は低得点の受験者に比べ、word bankとテキストの間で視線を移動させる回数は少ない

・H7: word bankの語彙の頻度による処理負荷の変化は、テスト受験者のレベルにより異なる

→低得点の受験者は高得点の受験者に比べ、低頻度の語のdecodingに費やす認知資源が多い

■視線データについて、処理の変数を独立変数として用い、テスト全体のスコアを従属変数として用いた。本研究では、協力者の下位/上位処理に従事した程度を明らかにするため, Khalifa and Weir (2009) に基づく7つの仮説が検証された。

■幅広い英語読解能力を集めるため、イギリスの大学の大学生、大学院生、学部生から3分の1ずつ、協力者が選ばれた。

■本研究の焦点は空所補充テストの調査であり、L1又はL2話者の検証ではないため、協力者の中にはネイティブスピーカーも含まれている。ネイティブスピーカーは大学院生であったので、高い読解熟達度をもち上位群となることが予測された。

■データは視線計測のスクリーニングが成功した28名から収集された。

・L1：Mandarin (12), English (4), Arabic (3), Italian (2), Sinhalese (2), German (1), Hungarian (1), Russian (1), Spanish (1), Thai (1)

■CEFR A1～C2レベルに相当するコンピューター上でのEAP testである、Pearson Test of English Academic (PTE Academic) を採用。ただし、本研究ではPTE Academic banked gap-fill taskそれ自体ではなく、banked gap-fill taskという一般的な形式を調査することが目的。

■テキストのトピック (文学、音楽、哲学、科学) は多岐にわたった。

■従属変数 (task performance) は、各gapの得点を1点とした合計得点 (Min = 0, Max = 24) であった。

■banked gap-fill taskに解答中の受験者のプロセスと、プロセスとパフォーマンスの関係についての仮説を具体的に検証するため、視線データは以下の7つの尺度 (Measure; M) に沿って分析された：

・gapを含む文の注視時間の割合 (M3)　・gap周辺の語に対する注視時間の割合 (M4)

・word bankへの注視時間の割合 (M5)　・word bankに対するvisitの平均回数 (M6)

・単語のBNCの頻度と注視時間の合計との間の回帰の傾き (M7)

■本研究の協力者が行った注視に由来する。7つのうち6つの尺度 (M1?M5; M7) が、タスク内の特定の部分への注視の長さに関するものである。これらの尺度は、7つの変数が注視時間に影響すると示したL1読解研究 (e.g., Staub, White, Drieghe, Hollway, & Rayner, 2010; Juhasz, 2005) に基づいている。

■尺度M2-M4はテキスト処理を、M5? M7はタスク処理を調べるために設定された。M2?M7の分析には、特定のtask/stimuli 領域の視線の情報を得るため、areas of interest (AOIs)の数が定められた。

■実験ごとに、word bank内の単語に対する注視時間全体と、その単語のBNCでの頻度の対数の間の関係を説明する線形回帰モデルの傾きが算出された。

■低得点の協力者では、モデルの傾きが負になり、less commonな語に対する処理に時間がかかることが予測される。一方、高得点の協力者では、モデルの傾きは0になり、語の頻度による処理時間の違いはほとんど見られないと予測される。

■よって、傾き (BNCでの頻度ごとの語の注視時間全体) とパフォーマンスのレベルには正の相関関係があると予想される。

■協力者はPC screen上で読解・解答を行った。個別実施で、スクロールの必要はなかった。

■キャリブレーション後、協力者はbanked gap-fill形式に慣れるため、練習タスクに取り組んだ。その後、6つのタスクに15分の制限時間で取り組んだ。

■テスト受験者のプロセスとパフォーマンスレベルとの関係を調べるため、7つの尺度についての視線データ (独立変数) とテスト得点 (従属変数) の間の相関関係が分析された。

■正規性についてのShapiro-Wilk検定の結果、すべての変数の分散が統計的に非有意 (p > .05) で、正規性が満たされていたため、ピアソンの相関係数を使用した。

■Table 2は各協力者のbanked gap-fill itemの正答率とグループのtest performance rangeを示す。(全体平均正答率：71%、Cronbach’s α = .844)

■Table3は各視線データ尺度の記述統計、相関分析の結果、効果量、仮説と支持のindicationを示す。

■効果量の解釈はCohen’s (1992) に基づいている (i.e., 小: 0.1 < r < 0.3; 中: 0.3 < r < 0.5; 大: r < 0.5)。

■banked gap-fillの得点と平均タスク完了時間の間に、中程度の効果量の、有意な負の相関が見られた

→H1の支持：高得点のテスト受験者は低得点の受験者よりも速くタスクを遂行する。

■テキスト処理に関して、高得点のテスト受験者が低得点の受験者よりも、テキストの部分的な処理により時間を費やすという傾向は見られなかった (r = ?.150, p = .440)。

■また、gapを含む文への注視時間の平均も、banked gap-fillのパフォーマンスとは有意な関係が見られなかった (r = .130, p = .560)。

→H2 (高得点の受験者は低得点の受験者よりもテキストの部分的な処理に時間を多く費やす),

H3 (低得点の受験者は高得点の受験者よりもgapを含む文の処理に時間を多く費やす) は、支持されなかった。

■gaps周辺の語への注視時間の平均とテストパフォーマンスとの負の相関 (r = ?.590, p = .000) より、低得点のテスト受験者の方が、gaps周辺の3つの単語により部分的な注意を払っていた。

→H4の支持：広範囲の文レベルの処理には、高/低得点受験者の間で必要な時間に大きな差はないが、低得点受験者は局所的な部分 (i.e., gapの周辺) の処理により長い時間を要する。これは、gapの近くの文法的・語彙的文脈の分割を行うためだと考えられる。

■タスク処理の点でみると、受験者の平均的なword bankに対する注視時間は、得点との間に有意な正の相関があった (r = .070, p = .720)。→H5の支持

■しかし、受験者がテキストからword bankに注意をシフトする頻度には、得点との間に負の相関が見られた (r = ?.540, p = .000)。

→H6の支持：高得点の受験者はword bankへのvisitが低得点の受験者よりも少なかった。このことから、低得点の受験者はより断片的な処理を行い、word bankの語を貯蔵できるWorking Memoryの処理容量が減少/不足していたと考えられる。

■さらに、低得点の受験者はword bankにある個々の単語に対し、BNCに基づく語の頻度が低くなるほど注意を払っていた (r = .420, p = .030)。

→H7の支持：認知資源を個々の単語の処理に割いており、他の種類の処理に使える容量が少なかった。

■本研究の結果から、視線計測を適用することにより、読解能力を調べるbanked gap-fill tasksに取り組む認知プロセスについて、また得点の異なる受験者の処理の違いについて示唆を得ることができることが示された。

→他のタスク (multiple-choice, matching, sentence completion) で視線計測を用いた先行研究 (Bax & Weir, 2012; Bax, 2013; Brunfaut & McCray, 2015) と同様、この手法の有用性を示した。

■読解パフォーマンスによる違いについて、特に、低得点の受験者がbanked gap-fill itemsへの解答に、より下位の処理に従事する傾向が示された。本研究より、低得点の受験者のbanked gap-fill tasksのスコアは、読解能力全体というよりも、下位処理の能力を示す可能性が示された。

■低得点の受験者が下位処理に従事していると考えられる根拠は次の3つである。

③　word bank内の低頻度語の処理により多くの時間を費やしていた。

→語彙認知・アクセスなど下位の処理により多くの資源を割き、他の処理まで割ける容量が不足した。

■これらの結果は、gap-filling itemsの処理の仕方は読解パフォーマンスと関係していると主張した仮説 (Brown, 2003; Yamashita, 2003) を支持している。

■しかしながら、一部の尺度では低/高得点の間の処理に、有意な違いが見られなかった。

M3: gapを含む文の処理には、低/高得点の受験者の違いはなかった。

→文レベルのパフォーマンスに違いがあるという予測、また、local readingにおける結果 (i.e., gap周辺) と反対の結果であった。banked gap-fill textsはgapを持たない1文のみを含むため、この尺度にrandom errorを出す傾向が生じた可能性がある。

■低/高得点者の間にsystematicな処理の違いは見られなかったものの、テキストやword bankを注視する時間 (M2, M5)には差が見られた。これらの尺度には個人差があることに留意が必要である。

→個人間でばらつきがあるものの、パフォーマンスとの関係はなかった。影響するのはおそらく、test-taking habits, strategiesや、WMだと考えられる。

■また、本研究からは下位処理の測定に限定されないようなbanked gap-fill itemsのタスク設計についても示唆が得られた。word bankの単語と、それらのBNCの頻度との関係の分析より、低頻度の単語に対してより多くの処理が行われることが分かった。

→テキストから抜き出される単語や錯乱肢となる単語の頻度は、その処理の量に影響し、その影響はテスト受験者の能力によって異なる。

■下位の語彙処理を超えたテストとして使うためには、less complexな語彙をgapや錯乱肢として選定することが望ましい。そうすることで、あらゆるレベルの受験者から、語彙知識に依存しない、より広い範囲の認知プロセスを引き出すことができる。さらに、文法的に容認できる錯乱肢を提示することが重要である。さもないと、低得点の受験者は特に、広範囲の認知プロセスではなく、より統語的な分割を行う可能性が高い。

■本研究はbanked gap-fill tasks解答中の受験者の認知プロセスを調べた。テスト受験者の能力により、多くの点で顕著な処理の違いが見られ、banked gap-fill tasksが妥当な読解測定となるための設計への示唆が得られた。特にテスト得点間で大きな違いがあったのは、局所的なgapの文脈に関するもの、また、word bankの語彙の複雑性、banked gap-fill itemsへの解答時に下位処理に依存する程度であった。

■限界点の一つとして、サンプルサイズがある。先行研究よりも多いタスクの数を用意し、視線計測には協力者への負担 (resource-heavy nature) がある点から協力者の数が限られたという点はあったものの、より多くのサンプルサイズがあれば複雑な分析 (e.g., 多重回帰、混合効果モデル、SEM) が可能になる。

■さらに、受験者のテキスト全体／タスクの処理を調べるために視線計測を用いたが、より洗練された視線計測の尺度を使用したり、recallなどのverbal report dataで補足したりする、mixed-methods methodologyを用いることにより、視線データでは測れない上位のプロセス (e.g., 推論) を測ることができる (e.g., Brunfaut & McCray, 2015)。

前節で取り上げた文献は、いずれも英語リーディングテストに解答している間の受験者の眼球運動と、テストのパフォーマンスとの関連を調査した研究であった。要点は、以下の表の通りである。

まず、Bax (2013) では、各協力者の各項目の注視やvisitの継続時間、回数のデータを分析対象とし、等分散性や正規性を前提としない、ノンパラメトリック検定であるマン・ホイットニーのU検定を用いて、各項目の正答者 / 誤答者のデータを比較している。マン・ホイットニーのU検定は、対応のない2群の中央値に差があるかについて検定を行うものであり、ここでは各項目の正答者/誤答者の各データの中央値に差があるかを比較している。視線の動きは、元々の個人の特性や習慣に根差したものであり、個人間でばらつきが大きいと考えられる。したがって、平均値を用いるために外れ値に影響を大きく受けるパラメトリック検定を用いるよりも、中央値を用いることで外れ値があっても順序は変わらず、大きな影響を受けないノンパラメトリック検定を用いることは妥当であると考えられる。

ただし、ノンパラメトリック検定であっても、サンプルサイズが小さい場合には正確さを欠くとされる。Bax (2013) では、有意差が報告された項目 (2, 3, 5, 7, 10) のうち特に、項目2 (正答者: 31, 誤答者: 7)、項目7 (正答者: 29, 誤答者: 9) の正答者/誤答者の群の間でのサンプルサイズの差が大きく、特に誤答者群の数が10未満となっているため、データの扱いには注意が必要である。理想的には、2群のサンプルサイズは等しいことが望ましいであろう。

次に、McCray & Brunfaut (2016) では、gap-filling taskに関し、テキスト/gapを含む文/gap周辺の語/word bankに対する注視の平均時間、全体に対する注視時間の割合、単語のBNCの頻度と注視時間の合計との間の回帰線形モデルの傾きを分析対象とし、そのデータの正規性がShapiro-Wilk による検定により満たされていたため、ピアソンの相関分析を用いて、taskの全体の得点と各尺度との相関を調査している。パラメトリックな相関分析は外れ値に影響を受けやすいが、十分な正規性が確認できたデータを用いているため、妥当な手法であると考えられる。また、別の長所として、テキスト/gapを含む文/gap周辺の語/word bankに対する平均注視時間について、時間 (秒) だけではなく、全体に対する注視時間の割合 (%) も算出したことが挙げられる。これにより、視線のraw dataに含まれる個人差などの限界点をある程度克服し、テストのパフォーマンスとの関係が、より詳細に調査できたと考えられる。

ただし、協力者の視線データとtask全体のパフォーマンスとの関係を調査したMcCray & Brunfaut (2016) では、項目ごとの解答中の動向とパフォーマンスとの関係を調べることは十分にできていないと思われる。Word Bank内の単語のBNCの頻度と注視時間の合計との間の回帰線形モデルの傾きは調査されているものの、それはある単語との関係にすぎず、項目全体の要素 (e.g., テキスト、gap周辺の語句) を含めて考慮することはできていないと考えられる。また、別の懸念点として、McCray & Brunfaut (2016) の実験参加者のL1が多岐に渡っていたことや、英語のネイティブスピーカーが含まれていたことに留意する必要がある。この研究の目的が特定の空所補充テストの構成概念の検証であったため、L1、L2の区別を問題としなかったと記述されていたが、L2学習者にとって解答が困難となる語の頻度や、生じる認知プロセスはL1話者と異なる可能性が考えられる。よって、結果をL2研究に応用する際には注意が必要である。

　前節で述べた2つの文献の留意点・懸念点をふまえ、英語リーディングテストに解答している間の受験者の眼球運動とテストのパフォーマンスとの関連を調査する際に使用すべき、より良い分析手法について考えてみる。

　まずは、サンプルサイズを増やし、群ごとに揃えるべきだと考えられる。協力者のサンプル数に関して、Bax (2013) では一部の項目で正答者と誤答者の群の数に大きな差があり、McCray (2016) では全体としてサンプルサイズが小さめであったことが懸念点として挙げられた。また、用いられているマテリアルのサンプル数に関しても、空所補充テスト (Bax, 2013; McCray & Brunfaut, 2016) や語のマッチング課題 (Bax, 2013) など、下位処理を測る一部の問題の種類に限られている。内容理解問題や推論問題、テーマを問う問題など、より上位処理を測る問題も含め、十分な項目のサンプル数を用意することで、下位/上位を問わず全体的な読解処理についての示唆が得られると考えられる。そして、McCray (2016) が限界点で述べるように、サンプルサイズをより増やし、多重回帰分析、混合効果モデル、構造方程式モデリング (SEM) などの分析を用いることができれば、より詳細な示唆が与えられるだろう。

　次に、分析手法はより多くの要因を考慮できるものを採用すべきだと考えられる。Bax (2013) のマン・ホイットニーのU検定では正答者と誤答者の視線の動きに違いがあることが示され、McCray & Brunfaut (2016) のピアソンの相関分析では、視線の動きとパフォーマンスとの間に関係があることが示された。しかし、その結果から考えられた理由は、テスト得点の高低や正誤、語の頻度といった限られた要因のみである。前述した多重回帰分析、混合効果モデル、構造方程式モデリング (SEM) を用いれば、多くの要因を考慮することが可能になる。

例えば、混合効果モデルを用いれば、等分散性や球面性の仮定を満たしていなくても頑健であるため、注視時間や回数のraw dataを平均化したり、補完したりする必要がなく、事実と異なる結果を防ぐことができる。また、ランダム要因として個々の協力者や項目の差を考慮することが可能になる。個人差に関しては、McCray & Brunfaut (2016) では解答中のword bankの注視時間にばらつきが見られたがパフォーマンスとの有意な関係は見られなかった結果について、test-taking strategyの使用やワーキングメモリの容量が影響している可能性を挙げている。マテリアルの空所補充の項目に関しても、パフォーマンスに影響するのは、語の頻度や親密度、文脈的な予測のしやすさといった要因が考えられる。こうしたランダムな個々人の要因 (e.g., ストラテジー使用の有無、ワーキングメモリ容量, L1) や項目の要因 (e.g., 語の頻度、親密度、テキスト内の位置) と、注視時間やパフォーマンスとの関係を調べることにより、解答中の行動や、マテリアル・協力者の特性、測っている能力に関してより多くの示唆が期待される。

また、構造方程式モデリングを用いれば、McCray & Brunfaut (2016) の立てた仮説をモデル化して妥当なものかどうか検証できるほか、誤差や因子負荷量が無視される恐れのある相関分析と異なり、誤差や因子負荷を考慮して分析することができる。例えば、banked gap-filling taskの構成概念について調べたい場合、今回取り上げた2つの研究のような視線の注視時間のデータに加え、英文の長文読解テストや語彙サイズテストなど、他の測定の結果がbanked gap-filling taskのパフォーマンスを予測するかを調べることにより、banked gap-filling taskで求められる能力について示唆が得られると考えられる。

視線計測はオンラインの測定手法として、発話プロトコルよりも直接的に協力者の認知処理を反映することができる点で有用であるが、協力者の個人差や、関連する他の要因が多いという点で注意が必要である。したがって、視線計測と併せてより多くの要因による誤差や関係を考慮できる分析手法を用いることは、テストのパフォーマンスに貢献する要素や構成概念を明らかにする上で有効であると考えられる。

Bax, S. (2013). The cognitive processing of candidates during reading tests: Evidence from eye-tracking. Language Testing, 30, 441?465.

McCray, G., & Brunfaut, T. (2016). Investigating the construct measured by banked gap-fill items: Evidence from eye-tracking. Language Testing, 33, 1?23.

Plonsky, L. (2015). Advancing quantitative methods in second language research. New York, NY: Routledge.