人文社会科学研究科 博士課程コース
 異文化言語教育評価論 (Testing in Second Language Education)


2011年度異文化言語教育評価論・2学期末課題(文献レビュー)です。




■Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42, 475-493.(A. H.)

■Shizuka, T., Takeuchi, O., Yashima, T., Yoshizawa, K. (2006). A comparison of three-and four-option English tests for university entrance selection purposes in Japan. Language Testing, 23(1), 35-57.  (N. N)

■In’nami, Y., & Koizumi, R. (in press). Factor structure of the revised TOEIC test: A multiple-sample analysis. Language Testing.(S. T)

■Yu, G. (2010). Effects of presentation mode and computer familiarity on summarization of extended texts. Language Assessment Quarterly, 7, 119-136. (K. S)

■Song, M. (2010). Do divisible subskills exist in second language (L2) comprehension? A structural equation modeling approach. Language Testing, 25, 435-464. (S. N)

■Shiotsu, T., & Weir, C. (2007). The relative significance of syntactic knowledge and vocabulary breadth in the prediction of reading comprehension test performance. Language Testing, 24, 101-28.(K. W)

■Heilmann, J., Miller, J. F., & Nockerts, A. (2010). Sensitivity of narrative organization measures using narrative retells produced by young school-age children. Language Testing, 27, 603-626.(Y. K)

■Qian, D. D. (2009). Comparing direct and semi-direct modes for speaking assessment: affective effects on test takers. Language Assessment Quarterly, 6, 113-125 (M. O)

■David D. Qian (2009): Comparing Direct and Semi-Direct Modes for Speaking Assessment: Affective Effects on Test Takers, Language Assessment: Affective Effects on Test Takers, Language Assessment Quarterly, 6:2, 113-125(Y. I)

■Thi Cam Le, N., & Nation, P. (2011). A bilingual vocabulary size test of English for Vietnamese learners. RELC journal, 42(1), 86-99. doi:10.1177/0033688210390264(T.I)







■Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42, 475-493.(A. H.)

1. Introduction

L2学習者にとってのテキストの読み易さを正確に測定することは, 学習者の熟達度に合わせたテキストを提供する上で重要な課題となっている. 本研究では, テキストの一貫性・難易度を数値化できるCoh-Metrix (e.g., Graesser, McNamara, Louwerse, & Cai, 2004) を用いてEFL学習者に対するテキストの難易度の公式化を試みた.

読み易さの公式は, Flesh reading ease, Flesh-Kincaid grade levelが知られているが, テキストの深い処理, 一貫性, 統語的複雑さ, レトリックといった要因を考慮できていない (e.g., McNamara, Kintsch, Butler-Songer, & Kintsch, 1996).

その点, 自然言語処理の分野で開発されたCoh-Metrix (Jurafsky & Martin, 2000) は, テキスト処理や一貫性を数値化できるため, 読み手の認知プロセス (単語認知・統語処理・命題構築など) を正確に反映した読み易さの公式を構築できると思われる.

 

<L1 Readability>

1920年代から, 50以上の読み易さの公式が開発されているが, これらは主に (a) 語彙・意味特性, (b) 文・統語的複雑さを要因としている (Chall & Dale, 1995).

高頻度の単語が文内に含まれており, かつ1文の長さが短ければテキストは読み易いということになる. この考えに基づく公式とテキスト理解の相関はr = .08以上と高いが (Chall & Dale, 1995), この公式は読解プロセスに基づかない妥当性の低い指標だと言える.

 

<Traditional Readability Formulas for L2 Readers>

音節数・語数を考慮: Flesh reading ease, Flesh-Kincaid grade level, Miyazaki EFL readability

クローズ・テストの得点: Bormuth (1975), New Dale-Chall (1995) の公式

これらの指標もテキストの表層的な側面しか反映しておらず, 読み手の認知プロセスを反映した指標の確立が求められる (Brown, 1998; Carrell, 1987).

 

<Coh-Metrix>

Coh-Metrixはテキストの一貫性・難易度を, 語レベル, 談話レベル, 概念レベルで測定できるツールとして開発された (Graesser et al., 2004).

本研究の目的は, 読み手の認知プロセスを反映する言語的要因が, テキストの読み易さをどの程度正確に測定できるのかを, Coh-Metrixを用いて検証することにある.

 

 

2. Method

<Materials>

Bormuth (1971) のコーパスから学術テキスト32種類を選択: 言語学的要因が認知プロセスを反映し, テキストの一貫性は読みやすさを予測できるという仮説を検証する.

これらのテキストは, 多様な分野から選択され, 語数の平均は269.28 (SD = 16.27), 100語中の文数の平均は7.10 (SD = 2.81).

それぞれのテキストを用いて, 5語おきのクローズ・テストを作成した.

 

<Variable Selection>

テキストの読み易さを予測するための独立変数は, 先行研究に基づき (a) 単語認知: lexical recognition, (b) 統語解析: syntactic parsing, (c) 意味構築: meaning constructionを採用した (Just & Carpenter, 1987; Perfetti, 1985; Pollatsek, 1994).

  (a) Lexical index:

? 高頻度の単語はより速く・よく理解されることから (頻度効果), 単語の頻度を読み易さの指標とした.

 (b) Syntactic index:

? 単純な統語構造を持つ文は処理しやすい. Coh-Metrixでは, この要因を意味的類似性として数値化できる (互いの文の統語的一貫性を算出).

 (c) Meaning Construction Index:

    ? 隣接する2文間で内容語の意味的関連性が高ければ, テキスト理解・読解時間が向上することから, これらをCoh-Metrixで算出した.

 

3. Statistic Analysis

EFL学習者31名のクローズ・テストの得点を従属変数とする重回帰分析を行った.

人数の少なさをカバーするため, 調整済みR2値に加え, Stein’s unbiased risk estimate (SURE), およびk-分割交差検定 (cross-validation) の結果を報告する.

 ? k-分割交差検定: 標本データを分割し, その一部を解析した後, 残りを最初の解析の仮説検定に用いる手法. 標本をk個に分割し, k回検定を行い得られた結果の平均をもとに仮説の検証を行う.

 

4. Results

<Correlation and Multiple Regression>

Stepwiseでの重回帰分析の結果, 以下の表の通りになった. 各要因とクローズ得点との相関は, sentence syntax similarity (r = .71), content word overlap (r = .79), frequency (r = .61).

3要因でのクローズ得点の説明率は86%となった. つまり, テキストの難しさの86%はこれら3要因で説明できることになる.

Descriptive Statistics

Variables

Mean

Standard deviation

N

Predicted

 

 

 

  Mean cloze scores

23.854  

12.944    

31

Predictor

 

 

 

  Content word overlap

0.1457 

0.090    

31

  Sentence syntax similarity

0.149  

0.087    

31

  CELEX frequency

2.349  

0.243    

31

 

Stepwise Regression Analysis

Dependent variable: EFL cloze scores

Step 1

R = .793

R2 = .628

Added content word overlap

Step 2

R = .887

R2 = .786

Added sentence syntax similarity

Step 3

R = .925

R2 = .856

Added CELEX frequency

 

<Cross-Validation>

交差検定の結果, 調整済みR2 = .84, SURE = .81となり上記とほぼ同様の結果となった.

 

<Comparison with Other Measures>

従来の読み易さの指標 (Flesh reading ease, Flesh-Kincaid grade level, Miyazaki EFL index) と今回の結果を比較した結果, 以下の表の通りになった.

 

Pearson Correlations Between Observed Scores and Scores Predicted by Various Readability Measures

Readability measure

Observed EFL

    Flesh reading ease

-.845         

    Fresh-Kincaid grade level

-.847         

    Bormuth formula

.861         

    Dale-Chall formula

.691         

    Miyazaki formula

.848         

    Coh-Metrix EFL index

.925         

 

5. Discussion

本研究ではCoh-Metrixが, 従来の読み易さの指標よりもEFL学習者にとってのテキストの読み易さを正確に測定できるのかを検証した.

テキストの読み易さを正確に測定することは, 学習者に適切なL2 input, noticing, intakeを与える上で重要になる. 本研究の結果, 読み易さの公式は以下の通りに定義できる.

Predicted cloze = -45.032 + (52.230 × Content word overlap value)

+ (61.306 × Sentence syntax similarity value)

+ (22.205 × CELEX frequency value)

しかし, 本研究で用いたテキストは説明文のみであり, また要因も3つしか入れなかったので, 読み手の認知プロセスに基づいたさらなる検証が求められる.

 

<コメント>

 本研究では従来の読み易さの公式に対し, テキスト要因と読み手の認知プロセスの関係性を反映していないという問題点を解決するため, Coh-Metrix (http://cohmetrix.memphis.edu/

cohmetrixpr/index.html) を利用している. Coh-Metrixは様々なテキスト要因 (語彙頻度・統語的複雑さ・意味的関連性など) を数値化できるため, 表層的な難易度しか測定できない従来の公式よりも, 妥当性のある読み易さの指標を作成できると考えられる. また, Coh-Metrixはフリーで利用できるため, 本研究で扱った要因を設定すれば, どのテキストの読み易さも教師自身が確かめられるという点で非常に価値がある.

 しかし, 読み易さを測定するための基準として, テキストのクローズ・テストを採用している点に限界点があるように思われる. 本研究ではクローズの採点法について報告されておらず, 原語法か適語法の採点かでテキストの読み易さを過小評価または過大評価してしまうのではないだろうか. 確かにクローズ・テストは先行研究で読み易さを評価するための測定法として確立されているが (Chall & Dale, 1995), 読解プロセス研究における単語の頻度効果や統語的複雑さ, 意味構築といった要因はクローズ・テストでは測定されていない. これらの要因は読解時間などで測定されることが多く, 読み易いテキストであれば当然ながら読解時間は短くなる. 読解時間測定法に加えて, 内容理解に関しても筆記再生法などの心理言語学的な測定法が適していると考えられる. 特に意味構築に関して, 処理されやすいテキストであれば, その内容は記憶に保持されているため, 本研究で用いた長さのテキストであれば, 十分にテキストの内容理解を反映できるだろう.

 一方で, 一人の協力者にリコール課題を続けることは, 練習効果を引き起こす可能性もあるので, 本研究で触れられている通りより大規模な調査が必要になる. また, 協力者の熟達度も考慮し, 今回の実験で得られた読み易さの公式が, どの熟達度にある学習者に最も適しているのかを探る必要があるだろう.



ページトップへ戻る

Shizuka, T., Takeuchi, O., Yashima, T., Yoshizawa, K. (2006). A comparison of three-and four-option English tests for university entrance selection purposes in Japan. Language Testing, 23(1), 35-57. (N. N)

 

本研究は、日本のEFL大学入学試験において精神測定学的特徴に関する項目の選択肢数を減らす効果を検証したものである。日本の大学の入学試験に使用された、4つの選択肢から成る多肢選択式読解テストは、最も選らばれる頻度が少なかった項目を削除して、3つの選択肢から成るテストに作り替えられた。そして、異なるグループに実施された。その結果、選択肢の数は平均項目容易度や平均項目識別力に有意に影響しないことが分かった。不正解の選択肢を分析すると、解答は約2.6個に及び、機能している錯乱肢の平均数は2個より少ないということが明らかになった。よって、3つの選択肢は4つの選択肢とほとんど変わらない機能をするということが示唆された。

 

I. Context of the research

・日本では、入学試験の結果が最も重要な判断基準である。

・毎年の大規模な試験の作成・採点にかけられる時間には限りがあるため、Brown (1995)が指摘するように、多肢選択式の問題を使用するのが一般的である。

→本研究では、テストの質を損なわずに選択肢の数を減らすことによって、関係者の労力を軽減することを目的としている。

 

II. Background

・国際的に確立したESL/EFLテスト(TOEFL, TOEIC, Cambridge ESOLなど)は、4つの選択肢を採用する傾向がある。

・3種類のアプローチ(選択肢の最適な数の特定、情報理論、最適な選択肢数において受験者の能力が与える影響)→最適の選択肢数は3つであると一致。

 

III. Method

1. The four-option test

・2003年に西日本の主要私立大学の一学部で実施された入学試験から、1000人分の解答を抽出→4つの選択肢から成る、38問の項目を使用。

2. The three-option test

・上記の38項目のうち、10問はそのまま、残りの28問は3つの選択肢から成る項目に編集。その際、最も選ばれなかった選択肢を削除している→最も選ばれない選択肢は、28項目中19項目(68%)において、有意に弁別力がないとされたため。

3. Participants

・大学入学レベルの日本人学生。

IV. Results

1. Item facility

・2つのグループが比較可能であることを確かめるために、一般的な10項目の正答数の記述統計を実施。

→4つの選択肢を持つグループは、その能力において(in ability)有意に3つの選択肢を持つグループより高かった。

→FACETS v. 3.0を使用して、Rasch測定の枠組みにおいて項目の等化を実施。

→4つの項目を除外して、勾配の最適ラインを.72から.99にした。

・各テストに特有な項目をふるいにかけて、明らかな例外となる項目を検出。

→両方のテストにおいて、項目36は問題があった(点双列相関がマイナス:-. 13, -.08、outfitの平均平方はモデルの期待値を上回った:1.2, 1.5)。

→後続する分析において、この項目は除外された。

・Smith et al (1988)によって提唱された基準を使用して、2つの固有な項目の適合統計量を分析。

→3つの選択肢データは、4つの選択肢データと同様に、Raschモデルと一致する。

・4つの選択肢項目と3つの選択肢項目の平均困難度を分析。

→対応ありのt検定を実施したところ、両者の違いは有意ではないことが分かった(t = -1.97, p =.06, df = 26、両側検定)

・選択肢を減らしても、項目の難易度は変わらない。

→ピアソンの積率相関の結果、項目の相対的な難しさは、選択肢の数と関りなく安定していた。

2. Item discrimination

・実際の弁別力と適合統計量を調査することによって、どこで、またはどのくらい実際のデータが測定の要件と一致した/しなかったかを特定する手助けとなる。

・straightforward item-total computation(簡易な全項目の計算)は不適切である。

・そのため、数の多い4つの選択肢から成る項目の下位サンプル(n =192)を抽出し、同じ数の3つの選択肢から成る項目と比較した。

・クロンバックのアルファ係数に対応するRaschの値は、両方の選択肢数で同じ(= .68)であった。→選択肢の数を減らしても、信頼性に負の影響はなかった。

・点双列相関の平均は、両者の間であまり変わらなかった(4つの選択肢:.30-.31、3つの選択肢:.29)。→選択肢の数を減らしても、項目弁別力は減少しなかった。

3. Distractor performance

a Actual equivalent number of options

・ノンパラメトリック・ウィルコクソンの符号付き検定を行ったところ、両者のAENOsの間に有意差はなかった(z =.45, n.s.)。

b Endorsement rankings

・最も選ばれなかった錯乱肢を削除しても、どの選択肢を一番よく選ぶかという順位は、およそ変わらなかった(選択肢の84%がまったく同じ位置のままだった)。

c Distractor discrimination

・符号検定を実施→各項目の機能している錯乱肢の数に、有意差はなかった。

d Change in distractor discrimination

・ある錯乱肢が4つの選択肢から成る項目で弁別力があった場合、その錯乱肢は3つの選択肢から成る項目でも弁別力があった。

・ある錯乱肢が前者で弁別力を持たなかった場合でも、後者では半分以上の場合弁別力を持った。

 

・最も選ばれなかった選択肢を削除しても、多くの場合残る錯乱肢の性能に影響しない。

・マクナマーの対称性検定を実施→P値において、弁別/非弁別ステータスの間で統計的に有意な変化はなし。

 

V. Discussion

1. Item facility

・項目容易度は、最も選ばれなかった錯乱肢が削除された後もほとんど同じであった。

2. Item discrimination and distractor performance

・選択肢を縮小(4つから3つにする)しても、弁別力は大幅に下がらなかった。

→理由@最も選ばれない錯乱肢を選ぶ確率は、極めて低かった。

 理由A機能する錯乱肢の数は、与えられる錯乱肢の数が3つでも2つでも、有意に変わらなかった。

 理由B非常に多くの場合、最も選ばれない錯乱肢を削除しても、残る選択肢の項目間の支持順序は変わらなかった。

 理由C多くの場合、選択肢の縮小をしても、錯乱肢の弁別における有意性は残った。

3. Advantages of the three-option format

・項目作成者の作業量が減り、時間の節約に繋がる。その上、テストの質は変わらない。

・Aamodt and McShane (1992)・・・かける時間が同じなら、3つ選択肢から成る項目なら平均して112.4、4つの選択肢から成る項目なら100解くことが出来る→より多くの項目を解かせることによって、より高いテストの信頼性を得られる。

・その他の利点→テスト冊子の縮小、印刷費の削減、受験者のプレッシャーの軽減、など。

 

VI. Conclusions and future directions

4つ/3つの選択肢の間で・・・

@平均項目容易度は、有意に変わらない。

Aテストの信頼性と同様に、平均項目弁別力は、有意に減少しない。

B受験者の実際の選択は約2.6から2.7の選択肢に及ぶのみで、各項目で選択肢の相対的な選ばれ易さはほとんど同じである。

C一つの項目につき機能している錯乱肢の平均数は2より少なく、3つの機能する錯乱肢を含む項目は、例外的である。

 
                  選択肢は、3つで十分である!

 

◆元々3つの選択肢を持つ項目と、4つの選択肢を3つにした項目の間に違いがあるか?

◆項目作成者は、どの程度直感的に選択肢の選ばれ易さを予測出来るか?

 

以下、論文を読み終えての感想

 

 大学学部時代に、ある教職関係の授業で先生がテスト作成の課題を学生に出した時があった。その際、4つの選択肢を作るように言われたが、それが非常に難しく感じた。3つ目までは比較的考えられる錯乱肢が思いつくが、4つ目がなかなか出てこなかった。また、選択肢は何でもよいわけではない。選択肢を同じカテゴリに属する項目に統一しなければ、勘が良い受験者には思わずヒントをあげてしまうような選択肢になりかねない。

 本論文でも紹介されていたように、多肢選択式の問題を作るのは容易なことではない。テストの信頼性のためとはいえ、テストの作成者に大きな負担を与えることになるからである。そういった現状を踏まえると、本論文で示されたような結果が裏付けられると、時間的にも労力的にも経済的である。テストの質を下げることなく、選択肢の数を減らせるからである。テストを受ける側の視点から見ても、選択肢の数が減れば、ストレスの軽減になる。

 この理論をベースにして、今後は質の良い3つの選択肢から成る項目を作っていくことが課題になると思われる。分析を通して良い項目は保存し、良くない項目はテストに含めることを検討するなどして、地道によりよいテストを作っていく必要がある。日本の英語テストでは、多肢選択式の問題が広く利用されている。実際に自分が教員になったときに、この理論を導入してテスト作成に関りたいと思う。


ページトップへ戻る


In’nami, Y., & Koizumi, R. (in press). Factor structure of the revised TOEIC test: A multiple-sample analysis. Language Testing.(S.T.)

【Abstract】

 本研究の目的は、改訂版のTOEICにおけるリーディングセクションとリスニングセクションの因子構造の検証を行うことである。先行研究から理論的には4種類のモデル (higher-order, correlated, uncorrelated. unitary) が仮定されたが、確認的因子分析の結果はcorrelatedモデルを支持した。すなわち、TOEFLから測定されるリーディング能力とリスニング能力には比較的高い相関関係が認められるが、それぞれの因子は独立して存在しているということが明らかにされた。

 

【Literature Review】

■TOEICは幅広く用いられているテストであり、多くの先行研究によってその妥当性が検証されてきた

■TOEICに関する研究はTOEFLやIELTSよりは比較的数が少なく、それらの研究は主に以下の3種類に分類される:(a) 信頼性と得点分布 (b) 得点にかかわる要因 (c) 他のテストとの関係性

■(a) に該当する研究例としてWoodford (1982) があり、リーディングセクション、リスニングセクションおよび全体において.9以上の高い信頼性が確認されている

■(b) に該当する研究例としてBoldt and Ross (1998) があり、テストの説明と教師の指導がテスト得点を向上させるもっとも大きな要因であったことが示されている

■(c) に該当する研究例としてPower et al. (2008) があり、言語能力の自己診断アンケートの結果がTOEICテストの得点と中程度の相関があったことが示されている

■しかし、TOEICの因子構造について扱っている研究はほとんど行われていない

■数少ない研究の1つとしてWilson (2000) があり、改定前のTOEICを用いてその因子構造の検討を行った結果、リーディングセクションとして2つの因子とリスニングセクションとして1つの因子からなる因子構造が得られた

■しかし、Wilson (2000) は改定前のTOEICの検証であることから、本研究では改定後のTOEICについて因子構造を検討する

■本研究ではL2の言語能力の構造に関する先行研究に基づき、理論的に4種類のモデル (higher-order, correlated, uncorrelated. unitary) を仮定する

■higher-orderモデルを支持する研究としてはSawaki (2007) 等があり、スピーキングに関わる5つの下位技能を統括する上位技能が存在するというようなモデルが提案されている

■それに対し、技能が階層関係ではなく相互に関連しながら並立するというcorrelatedモデルを支持する研究としてはBachman and Palmer (1981) があり、発音、スペリング及び語彙能力などの技能が並立して英語熟達度を構成するというモデルが提案されている

■ただし、higher-order modelとcorrelated modelは相関関係をもつ第一因子の数が3つの場合には統計的に区分することができないとされている (see Sasaki, 1996)

■次に、uncorrelatedモデルを支持する主な研究はほとんど行われていないものの、リーディング能力とリスニング能力の関係性についてはその関連性の強さの点で議論が分かれていることから (e.g., Hirai, 1999)、本研究ではuncorrelatedモデルも理論的に仮定することにする

■最後に、unitary modelであるがこのモデルを支持する研究としてはOller (1983) があり、様々な項目を1つの読解熟達度が統括するというモデルが提案されている

■しかし、unitaryモデルについてはその統計的手法に問題があることが指摘されている

■本研究では、これらの4つのモデルの中でどのモデルがTOEICの因子構造をもっとも適切に説明するのかを明らかにする

■また、本研究のもう1つの目的として多母集団の同時分析を用いて交差妥当性を確認することによって、得られたモデルの一般性を検証することがある

■よって、本研究のリサーチクエスチョン (RQ) は以下の2点である:

RQ1: higher-orderモデルは他の3種類のモデルよりも改訂版TOEICによりうまく適合するか

RQ2: 改訂版TOEICの因子構造モデルはサンプル間で一般化ができるか

 

【Method】

(Data)

■569名のL2大学生であり、日本人90%、韓国5%及び他のアジアの国5%から構成される

■多母集団の同時分析を行う際には協力者をランダムに2群に割り当てた

■TOEICテストの受験手順については公式の手順に準じた

 

(Analyses)

■TOEICの公式委員会が提示している情報に従い、リーディングスキルを構成する技能として5つ (e.g., make inferences in written texts)、リスニングスキルを構成する技能として4つの要素 (e.g., infer gist, purpose, and basic context based on explicit information in short spoken texts) を観測変数とした

■それぞれの観測変数は、公式委員会の分類による各要素を構成する設問の平均正答率とした

■最尤法を用いて各モデルのパラメータの推定を行い、カイ二乗検定、CFI、NFI、TLI、RMSEA、SRMR、AIC、CAICの基準に従ってモデルの適合度を判断した

■先行研究に従って一変量及び多変量外れ値の検定を行ったが、いずれの観点でも外れ値はなかった

■higher-orderモデルについては、第一次因子が2つしかないためにモデル識別に問題が生じたため、これ以上考察を行わないこととした

 

【Results】

■4つのモデルについて適合度指標による検討を行ったところ、higher-orderモデルとcorrelatedモデルの当てはまりが比較的よいことが示された

■それに対し、uncorrelatedモデルとunitaryモデルについては当てはまりに問題が見られた

■そのため、分析におけるモデル識別の問題を考慮すると、correlatedモデルがTOEICのモデルとしてもっともよく適合していると考えられる

■そこで、correlatedモデルについて多母集団の同時分析によって交差妥当性の検証を行った

■先行研究に従って元のモデルに以下の5種類の制限を加えたモデルを作成した: (a) configural invariance, (b) invariance of the factor loadings, (c) invariance for both the factor loadings and the measurement error variables (d) invariance of the factor loadings, measurement error variables, and factor variance, and (d) invariance of the factor loadings, measurement error variance, factor variances, and factor covariance

■各モデルの適合度指標を確認したところ、いずれのモデルも当てはまりの良いモデルであった

■次に、2つの集団によって構成される各モデル間で差がないことを確認するために、 (a) のモデルを基準として他のモデルとカイ二乗検定による比較を行った

■その結果、 (b) のモデルと (c) のモデルは (a) のモデルに比べて適合度指標に差がなかったものの、(d) のモデルと (e) のモデルには差が見られた

■その理由を検討したところ、divergent variance及びdivergent covarianceによるものであることが明らかとなった

■最終的なモデルとしては、適合度指標がもっとも優れている (e) のモデルを採用することとした

■このモデルにおいてはリーディングスキルとリスニングスキルの相関が.87と高い値であるが、Sawaki (2009) に従って.90未満は同一の要素とみなさないと判断した

 

【Discussion and Conclusion】

■RQ1について、本研究では適合度指標の観点から、TOEICの因子構造としてcorrelatedモデルが最も適切なモデルであることが明らかになった

■またRQ2について、多母集団の同時分析によってcorrelatedモデルはサンプル間に一般化できるモデルであったことも示された

■本研究が示したcorrelatedモデルはWilson (2000) が提示した改定前のTOEICの因子構造とは異なるが、その理由としては以下の3つが考えられる:(a) 改定による内容の変化、(b) 統計的手法の差異及び (c) 観測変数の差異

 

【Implications and Limitations】

■本研究の教育的示唆としては主に以下の2点があげられる:(a) TOEICスコアのリスニングとリーディングが別スコアとして算出されることの妥当性が確認された、(b) 多母集団における不変性を考慮した因子分析の一般化可能性の検討を行ったこと

■本研究の限界点としては以下の3点である:(a) 各項目の平均点が入手できなかったため、観測変数として既に分類された項目の平均正答率を使用したこと (b) 受験者のサンプリングが実際の受験者とは異なっていること、(c) 1つのフォーマットしか使用していないこと

 

(論文を読んでのコメント)

本論文は改訂版TOEICテストの因子構造を検証したものであり、複雑な統計的手法による綿密な検討が行われている。論文の構成について、2点ほど気づいた点があるのでその点について以下に述べる。

まずは、本論文においては4種類のモデルを検討しているが、4種類全てのモデルを検討する必要性が明確でないように思えることである。具体的には、uncorrelatedモデルとunitaryモデルに関しては先行研究からの理論的な支持は得られていないように思われる。特に、unitaryモデルについてはOller (1983) のモデルを理論的根拠としているが、本論文中において「このモデルは後に統計的手法の問題等によって批判されている」と記述されていることから、理論的根拠はほとんどないように読み取れる。また、uncorrelatedモデルに関しても、レビューされた先行研究では2つのスキルの相関の強さには違いはあれ、無相関を仮定しているモデルを提案している研究はないように思われる。そのため、uncorrelatedモデルに関しても、モデルを検討する直接的な理論的背景に欠けるように読み取れた。

いずれのモデルについても適合度指標の点で当てはまりが悪かったことから、最終的に適切なモデルとしては棄却されている。理論的に想定される可能性が残るモデルについても検討を行うことの必要性は皆無ではないが、先行研究において理論的にも統計的にも支持が弱いこれらのモデルの検討は予定調和的である印象であった。

 次に2点目としてcorrelatedモデルがhigher-orderモデルよりも適合度の面で優れているという根拠が、higher-orderモデルにはモデル識別による”technical difficulties”があったためとされていた点についてである。技術的な問題によりモデルが得られなかった場合に、そのモデルが適切でないと棄却することに問題はないのだろうか。特に、本研究のリサーチクエスチョンは「4つのモデルの中で最も適切なモデルはどのモデルか」ではなく、「higher-orderモデルは他の3つのモデルと比較してより適合しているか」であることから、本研究においてhigher-orderモデルが基準となるモデルと位置付けられていることが示唆されている。このような理論的及び統計的背景に富んでいるhigh-orderモデルの適切さの吟味はもう少し丁寧になされるべきであったと考える。仮に統計的なアプローチとしては問題がなかったとしても、”technical difficulties”による識別問題が生じた場合にはそのモデルを棄却してもよいと結論づけてよいという根拠の説明や論文の限界点としての記述が必要だったのではないだろうか。

 以上、2点について述べた。特に1点目について、先行研究に基づいて複数のモデルを仮定しておくことは重要であることは承知しているが、どの程度のモデルまで実際の分析対象とするのかについては研究者に任されているようだ。しかし、上述したように理論的背景が重要となる以上、実際の「分析対象となるモデル」は、少なくとも論文の読み手にとっても理論的背景が確固たるモデルでなくてはならないと考える。



ページトップへ戻る


Yu, G. (2010). Effects of presentation mode and computer familiarity on summarization of extended texts. Language Assessment Quarterly, 7, 119-136.(K.S)

 

Abstract (p. 119)

本研究は,長めの英文を要約するテストに関して,コンピュータベースと紙ベースの2つの提示モードの違い,及び受験者のコンピュータ・ファミリアリティ(コンピュータにどの程度親しんでいるかの度合)がどのようにテスト結果に影響するのかを,中国人学生157名を対象にして調べたものである。統計分析の結果,中国語で要約文を書いた場合,その長さにおいて,提示モードの違いによる主効果が確認されたが,コンピュータ・ファミリアリティの差は,要約文のパフォーマンスに有意な影響を与えなかった。但し,受験者へのインタビューからは,要約文作成に対する提示モードの物理的,心理的影響がわずかに覗えた。

 

INTRODUCTION (pp. 119-121)

■  コンピュータベースと紙ベースの読解テストの互換性に関する研究は,メインアイディアの理解度よりも,細部の理解度を測定することを目的とした選択回答形式の問題に関して行われてきた(Chalhoub-Deville & Deville, 1999)。

■  また,提示モードの互換性に関する先行研究では,短いテキストの読解を基にして行われてきたが(Chalhoub-Deville & Deville, 1999; Sawaki, 2001),上級レベルの学習者は長文をよく読んでいること,及びコンピュータの画面で長文を読むにはスクロールする手間がかかることを考えると,長いテキストを基にして調べる方がより適切である。

■  さらに先行研究では,2つの提示モードの違いによる影響はほとんどないとされてきたが,それは集団のテスト受験者に対する調査結果であり,個々のテスト受験者に対する影響に関しては,ほとんど明らかになっていない(Douglas & Hegelheimer, 2007)。

■  即ち,提示モードの違い,受験者個々のコンピュータ・ファミリアリティ,そしてテスト結果の関係を,第二言語,あるいは外国語のテストにおいて計量的に分析した研究は,依然として乏しい現状である(see Chalhoub-Deville & Deville, 1999; Sawaki, 2001)。

■  そこで本稿は,以上の先行研究の不備を補うため,長いテキストを読んで要約文を作成する形式のもと,コンピュータベースと紙ベースの提示モードの違い,受験者のコンピュータ・ファミリアリティの差による影響がどのようなものであるか,というリサーチクエスチョンに取り組むことにする。

■  なお,本研究では,集団レベルのテスト結果に加え,受験者個人レベルの心理的側面における影響を調べるため,要約文作成の後に,受験者に対するアンケートとインタビューを実施する。

 

REVIEW OF LITERATURE (pp. 121-123)

■  要約文作成タスクは,TOEFL iBTなどのコンピュータベースの大規模でhigh-stakesの(社会的に影響の大きい)テストで,近年導入が進んでいる。

■  先行研究では,TOEFL の読解と作文の統合タスク,即ち文章を読んで,その内容の要約文を作成するタスクに関して,提示モードの違い,コンピュータ・ファミリアリティの差は,受験者のテスト結果に有意に影響していないことが示されている(Taylor et al., 1999; Trites & McGroarty, 2005)。

■  但し,TOEFL iBTで出題される英文よりも長いテキストを読んで要約する場合の実証的研究は,筆者の知る限り,全く存在しない。

■  次に,人間工学的な観点から,Dillon(1992)は,コンピュータの画面で文章を読む場合は,紙に書かれたものを読む場合よりも,20〜30%読む速度が低下することを明らかにし,その要因として,画面に文章が入りきれない場合,スクロールをしたり,画面を次々と出す必要があることを指摘した。従って,このような要因がメインアイディアの理解,即ち,要約文作成の前提条件(van Dijk & Kintsch, 1983)にどの程度影響するのかは,読み手のコンピュータ・ファミリアリティに左右される可能性がある。

■  但し,前述のTaylor et al.(1999)の研究では,テスト実施前に,プログラムの使い方を教えるチュートリアルを行っている。これにより,コンピュータ・ファミリアリティの低い受験者の不利益を軽減させる効果があるが,もしチュートリアルを実施しなかった場合は,テスト結果が変わる可能性がある。

■  また,Trites and McGroarty(2005)は,統計的分析を通して,コンピュータ・ファミリアリティの差によるテスト結果への影響はないという結論を導いたが,その後の質的分析を行なっていない点が問題である。

■  その他にShermis and Lombard(1998)は,アメリカの大学生を対象に実験を行い,年齢とコンピュータに対する不安が読解のパフォーマンスに有意に影響することを明らかにしたが,作文に対する影響は見出していない。同様に,O’Sullivan, Weir, and Jin(2004)の研究でも,提示モードの違いによる作文に対する影響は見られず,コンピュータ・ファミリアリティの差による影響もほとんどなかった。

■  このような結果に関して,O’Sullivan et al.は,提示モードが変わっても作文タスクを行う際の認知プロセスは同様であると示唆したが,Russell(1999)は,紙ベースのテストは,コンピュータに慣れている学生の成績を過小評価していることを明らかにしている。

■  従ってこれらの先行研究を見る限り,コンピュータベースと紙ベースの読解テストの互換性について,依然として議論の余地がある。特に,Eignor, Taylor, Kirsch, and Jamieson(1998)が指摘するように,コンピュータ・ファミリアリティの定義がはっきり定まっていないのが問題である。

■  コンピュータ・ファミリアリティに関しては,ETSがかつて,その指標を提示したが,昨今のコンピュータの技術の進歩により,指標そのものが現在では適切なものと言えない可能性がある。また,コンピュータ・ファミリアリティを調べるためのETSのアンケートも,自由記述の項目がないなどの制限がある。

 

METHODS (pp. 123-125)

Participants and Their Language Abilities

■  本研究の参加者は,中国の大学で学ぶ157名(6クラス分)の20歳代前半の学部生で,そのうちの約80%が女子学生である。

■  参加者の英語読解力は,TOEFLの読解問題で,スコアが24から48の範囲(Full score = 50, M = 36.3, SD = 4.76, N = 156)であった。

■  また,参加者に英語と中国語でエッセイを書かせたところ,英語エッセイのスコアは,6.5から16.5の範囲(Full score = 18, M = 11.8, SD = 2.17, N = 156)で,中国語エッセイのスコアは,5.0から16.5の範囲(Full score = 18, M = 12.8, SD = 1.86, N = 153)であった。さらに,400語の英文を中国語に訳す作業も行わせたところ,スコアは4.5から15.0の範囲(Full score = 18, M = 10.6, SD = 2.41, N = 154)であった。なお,このエッセイと訳文作成の評価は,今回の要約文の採点を行う3名の評価者のうち,2名を選んで行った。

 

Materials and Procedures

■  コンピュータ・ファミリアリティを調べるためのアンケート(CFQ)は,まず本実験で使用する前に,中国の4つの大学で計119名の学生を対象にパイロット調査として行われた。そしてその結果は,因子分析を通して33の質問項目,5つのカテゴリ(Appendix参照)に絞られた。

■  テストを行う直前に,参加者に対して,要約文作成のための一般的規則とストラテジーについての簡単な説明がなされた。

■  要約文作成タスクに際して,説明文(テキストA),物語文(テキストB),論駁文(テキストC)の3つが使用された。なお,これらのテキストは,リーダビリティと長さ(約2,200語)が同様のものである。

■  各テキストは,6クラスのうち2クラスで使用され,1つがコンピュータ,もう1つが紙のテストとして提示された。ページレイアウト,文字の書体,大きさ,背景色,ページ割りも同じ条件にしており,コンピュータ上のテキストは,Microsoft Wordで提示された。

■  またそれぞれのクラスでは,半分の学生が英語の要約文の後,中国語の要約文を作成し,残りの半分が逆の手順で要約文を作成した。

■  最初のタスクでは2時間,次のタスクは1時間を制限時間とし,82名がコンピュータ,75名が紙ベースで要約文を作成した。また,各言語における要約文は,300から350語以内で書くことが求められた。

■  紙に書かれた要約文は,そのままWordに入力され,コンピュータ上で作成された要約文とともに,3名の評価者から選ばれた2名によって,総合的な評価基準に基づき採点された(α > .84)

■  要約文作成タスク終了後,コンピュータベースのテストを受験した82名に対し,中国語でアンケートを実施した。またその後3日以内に,各クラスで4名(英語,中国語の順に要約文を作成した学生2名,その逆で要約文を作成した学生2名)を無作為に選んで25分から45分程度のインタビューを行った。

 

ANALYSES AND RESULTS (pp. 125-130)

Computer Familiarity

■  CFQの回答データは,探索的因子分析(プロマックス回転)にかけられ,第1因子の因子負荷量.30以上の15の質問項目(k = 4)をコンピュータ・ファミリアリティの尺度を測定する項目として使用した。

■  分析の結果,受験者のコンピュータ・ファミリアリティは,中程度から高めの数値が示された(Full score = 60, M = 39.78, SD = 6.93, min = 21, max = 53)。

■  また今回の回答では,予想通り,テキストの提示順序による有意差は見られず(F (1, 155) = 0.02, ns),テキストの種類による有意差も見られなかった(F (2, 154) = 1.70, ns)。また,男子の方が女子よりもコンピュータ・ファミリアリティが高い傾向が見られたが(M = 39.02, SD = 6.79),その差については,研究デザインのバランス上,以降の分析では考慮しないこととした。

 

Summarization Task Performance

■  要約文作成タスクの結果,中国語の要約文は,英語の要約文よりも平均して低いスコアであったが,分量的には長いものとなった(Table 1参照)。

■  テキストの提示モードの影響を調べるため,複合的言語能力を共変量,テキストの提示モード,種類を固定因子とした単変量一般線形モデルによる分析(共分散分析)を,英語要約文のスコア(EHS),中国語要約文のスコア(CHS),英語要約文の長さ(ESL),中国語要約文の長さ(CSL)を従属変数として4通り行った。

■  共変量とした複合的言語能力は,EHS, ESLに関しては,TOEFLの読解問題のスコアと英語エッセイのスコアを基に算出し,CHS, CSLに関しては,TOEFLの読解問題のスコア,中国語エッセイのスコア,中国語の訳文のスコアを基に算出した。

■  テキストの提示モードの違いに関しては,CSLのみに主効果が見られ,コンピュータ上で提示された方が,紙で提示されたよりも長い要約文となった(F = 5.81, p < .05, η2 = 0.04, R2 = .14)。

■  またCSLに関して,テキストの提示モードと種類の交互作用は,有意傾向(ボーダーライン上)であり,その後の検定でテキストCの中国語要約文の長さの差によって,交互作用があることが確認された。

■  同様に,コンピュータ・ファミリアリティの差による影響を調べるため,コンピュータベースのテストを受験した82名のデータを対象に,単変量一般線形モデルによる分析を行ったが,EHS, ESL, CHS, CSLのいずれのモデルにおいても,コンピュータ・ファミリアリティの影響は見られなかった。

 

Students’ Perceptions

■  要約文作成後のアンケート結果を分析したところ,コンピュータ・ファミリアリティが要約作成に役立ったかという点に関して,非常に役立った:5%,全く役に立たない:9%,まずまず役立った:20%,あまり役に立たない:33%,その他:33%であった。

■  また,コンピュータ・ファミリアリティが要約文作成よりもテキストの読解に役立ったという回答がやや上回ったが,統計的な有意差は見られなかった(χ2 = 1.90, ns)

■  次に,24名の受験者に対してインタビューを実施し,winMAX(Kuckartz, 1998)というプログラムを用いて,提示モードの違いによる物理的,心理的影響,コンピュータの操作スキル,コンピュータ・ファミリアリティの影響の観点から質的分析を行った。

■  まず提示モードの違いによる物理的,心理的影響の差は,あまり大きなものではなかったが,受験者にとって若干あることがわかった。紙モードを好む受験者は,形式に慣れていること,手にとって読める安心感がある一方,コンピュータでは,要約文作成において,長文全体を見るために画面をスクロールする手間がかかることを指摘している。但し,コンピュータに慣れている受験者にとっては,Wordを使った要約文作成が特に難しいタスクではないという意見もあった。

■  また,コンピュータのスキルに関しては,最低限の操作ができれば問題ないという意見であった。従って,コンピュータ・ファミリアリティの影響は,インタビューの結果からはほとんど見られなかった。

 

DISCUSSION AND CONCLUSION (pp. 130-132)

■  統計分析の結果,提示モードの違いによる主効果は,中国語要約文の長さに関してのみ確認された。これは,要約文の長さにおいては,英語よりも中国語の方が提示モードの影響をより受けることを意味するが,もしかしたら,Wordの要約,コピー,ペースト機能の使用が原因であるかもしれない。即ち,英語の場合,提示されたテキストを直接コピー,ペーストして要約文を作成することが可能であり,そのため受験者が語数制限内(350〜350語)で上手くまとめたと言えるかもしれない。

■  一方中国語の場合は,第一言語ゆえに,それとは違ったストラテジーが使われているかもしれないが,文章を全てタイプしなければならないため,英語と比べれば厄介と言える。

■  テキストCに対する中国語要約文の長さの差によって,テキストの提示モードと種類の交互作用が見られたが,このことは,Cのように要約を行う際のテキストの難易度が高い場合に,テキストの提示モードの違いが要約文作成に影響するものと思われる。

■  統計的には,提示モードの違いとコンピュータ・ファミリアリティの差は,要約文のパフォーマンスに有意な影響を与えなかった。しかしながら,テスト終了後のアンケート,及びインタビューから,提示モードとコンピュータ・ファミリアリティの複雑な影響があることがわかった。

■  本研究の結果を一般化するのは早計だが,要約文作成タスクにおけるテキストの提示モードとコンピュータ・ファミリアリティの影響をさらに調べ,コンピュータベースと紙ベースの読解テストの互換性に関して,より理解を深めていくことが不可欠である。

<コメント>

今回の論文は,TOEFL iBTをはじめ,近年様々なテストで導入されている要約文作成タスクに関して,コンピュータベースと紙ベースの2つの提示モードの違い,及びコンピュータ・ファミリアリティという受験生の個人差が,どのようにテスト結果に影響するのかを量的,質的の両面で調べたものである。提示モードの違いを調べた研究は,この数年よく目にするが,本研究のように,長いテキストを読んで要約文をまとめるというタスクに基づいた研究は,非常にまれである。その意味で,本論文の筆者は,丹念に先行研究を調べ,その不備を補う独自のデザインを本研究で立てていると評価できる。但し,研究方法,分析,結果の解釈で問題点,疑問点もあるように思われる。そこで,以下に2点ほど指摘したい。

 まず大きな問題と思われるのは,今回使用したソフトウェアがMicrosoft Wordという一般的なワープロソフトだという点である。受験者へのインタビュー結果に見られるように,テキストを読む際は,どんなに長くても単にマウスでスクロールすればよいだけであり,この作業でコンピュータ・ファミリアリティの差が影響するとはまず考えられない。要約文作成においても最低限のキーボード操作で事足りることを考えると,もう一工夫あってもよかったように思われる。

特に今回の受験者は大学生であり,最低限のコンピュータ・リテラシーを備えていると推察できる。従って,TOEFL iBTや,最近のe-ラーニングシステムのように,ハイパーテキストでリンクやボタンを押しながら,タスクに取り組ませるような形であれば,違った結果になったのかもしれない。実際に,本コメントの筆者が授業で学生に対してe-ラーニング教材に取り組ませたところ,チュートリアルを行っても,キーボードやマウス操作,プログラムの理解度の優劣で,個人差があるように見受けられた。それがコンピュータ・ファミリアリティの差かどうかは不明だが,今回の研究デザインを違ったソフトウェア,システムで試してみるのも面白いかもしれない。

次に本研究の質的分析に関しては,作成された要約文に関しての分析も合わせて行うべきであったと思われる。インタビューを通して受験者の生の声を拾っていくのは構わないが,それだけでは,コンピュータモードの場合に中国語の要約文が英語よりも長くなってしまう要因を探ることができない。もし要約文自体を質的に分析したのであれば,受験者が英語のテキストをそのままコピー,ペーストした部分が英語の要約文に含まれていることを見つけることができたかもしれない。そのことで,英語の要約文が中国語で作成する場合よりも時間の短縮ができ,制限語数内でまとめることができた,と明確に解釈することが可能になる。分析する分量が多いということであれば,ランダムサンプリングでも構わないので,要約文自体の質的分析が欲しいところである。

以上が本研究における問題点であるが,それを差し引いても,今回のテーマは,実際のテスト開発,運用につながる興味深いものだと言える。コンピュータを使ったテストは,今後ますます開発が進むと思われるので,そのメリット,デメリットを,紙ベースのテストとの比較も踏まえて,さらに様々な角度から研究していく必要がある。


ページトップへ戻る


Song, M. (2010). Do divisible subskills exist in second language (L2) comprehension? A structural equation modeling approach. Language Testing, 25, 435-464. (S.N)

 

1. Introduction

本研究は理論的関心、実践的関心の両方から行われたものである。理論的な観点では、リーディング、リスニングは双方とも多様な処理を必要とするとされているものの、それらがどのような下位能力から構成されているのかはこれまでの研究で合意が得られていない。また、リーディング、リスニングが同じ、もしくは異なる下位能力から構成されているかはこれまで検証されていない。

実践的な観点では、教師もしくはテスト開発者は、シラバス作成やテスト開発のために学習者の峻別された下位能力を理解する必要がある。

ここ数年、UCLA (University of California, Los Angeles) では留学生を対象としたWeb-Based English as a Second Language Placement Exam (WB-ESLPE) を開発・使用している。この中に含まれるリーディングセクションにはopen-ended items, incomplete outline itemsが含まれ、リスニングセクションにはopen-ended itemsのみが含まれている。

リーディング・リスニングセクションのopen-ended itemは大学講義やテキストの「主題把握」、「詳細部分の理解」、「暗示的な情報の推論」の3つの下位能力に焦点を当てている。リーディングのincomplete outline itemsは「主題把握」、「詳細情報の理解」の測定を目的としている。

本研究ではWB-ESLPEの測定するリーディング、リスニングの下位技能の構成を、SEMを用いて検証する。RQは以下の2つである。

RQ1 WB-ESLPEのリーディング、リスニングセクションの項目は、L2理解能力の下位技能をどの程度測定しているか。

RQ2 リーディング、リスニングはL2理解能力の峻別性の観点からどの程度異なっているか、もしくは似通っているか。

 

2 Previous studies and model establishment

2.1 Divisibility of comprehension subskills

理解の下位能力の測定に関する最大の問題の1つは、いくつの下位能力が存在し、それらは何かということである。この点について、これまでの研究 (主にリーディング) は大きく以下の3つの立場に分類できる。

1.         リーディング能力は、単一の統合された能力であり、下位技能には分類されない (e.g. Lunzer & Gardner, 1979; Rost, 1993)。

2.         リーディング能力は下位技能に分類され得る。しかし、その技能や数は研究者間で様々である (e.g., Carroll, 1993; Lennon 1962)。リスニングについても同様に、下位技能に分類されるが、その詳細についての合意は得られていない (Buck &Tatsuoka, 1998)。

3.         リーディングはdecoding (word recognition) とcomprehensionの2つの技能から構成される。リスニングについても同様に2つの構成要素があると考えられるが、リスニングとリーディングではマテリアルの提示モードが異なるため (文字提示、音声提示)、decodingのプロセスは異なり、comprehensionの部分が共通しているとされる (Larsen & Feder, 1940, p. 251)。

 

2.2 Distinction between listening and reading skills

リスニングとリーディング技能の区別というのは明確ではない。相関分析や重回帰分析、検証的因子分析などを用いたこれまでの研究では、リーディングとリスニングは共通する部分が多くあるものの、それぞれに特有の側面も兼ね備えているという結論に至っている (e.g., Bae & Bachman, 1998; Buck, 1992; Levine & Revers, 1988)。

 

2.3 Establishing the models to be tested

これまでの先行研究の理論を考慮して、本研究では以下の3つの観点からモデル検定を行う。

(a)    Unitary trait or separate traits

リスニングとリーディングが異なる特徴を持っているというモデルと、リスニングとリーディングは共通の理解プロセスを持つというモデルの比較。

(b)    Unitary skill or divisible subskills approaches

L2理解能力は単一の能力から成るとするモデルと、複数の下位能力を想定するモデルの比較。

(c)    Three- or two-subskils approaches

L2理解能力においていくつの下位能力が峻別可能であるかを検証するため、3つの下位能力 (主題把握、詳細情報の理解、推論) を想定するモデルと、2つの下位能力 (明示情報の理解 [= 主題把握+詳細情報の理解]、暗示情報の理解 [= 推論]) を想定したモデルの比較。

 

3. Method

3.1 Participants

UCLAに留学生として在学予定の110名。言語、学習背景は多様。

 

3.2 Instruments

本研究では、WB-ESLPEのリスニング、リーディングセクションを用いる。両セクションとも、主題把握、詳細部分の理解、推論に焦点を当てている。

(a)    Listening test

リスニングセクションでは、初級レベルの大学講義を理解できる能力が測定される。UCLAの実際の講義を録画した20分の映像とその内容に関する20項目のopen-ended questionsが用いられた。

(b)    Reading test

リーディングセクションはテキストの穴埋め課題 (incomplete outline task) 11項目と10項目のopen-ended questionsの計21項目が用いられた。どちらの課題も大学初級レベルの500語程度の同じテキストが使用された。

 

3.3 Creating observed variables

(a)    Categorizing the items

通常、テキストはFigure 1のような階層構造を成している。

この階層構造を参考に、テストに含まれる41項目は以下の3つのカテゴリに分類された。

・   Topic (TOP):テキストの主題・トピックの理解を要する問題。Figure 1のLevel 1, 2にあたる情報を問う問題はこのカテゴリに分類される。

・   Details (DET):主題を支持する情報、詳細情報の理解を要する問題。Figure 1のLevel 3, 4にあたる情報を問う問題はこのカテゴリに分類される。

・   Inference (INF):明示されたテキスト内容からの推論を要する問題。

※  穴埋め課題は全てTOP, DETのいずれかに分類された。

項目の分類は2名のWB-ESLPEの開発者によって行われ、一致率は93%であった。一致しない部分は、協議によって解決された。

 

(b)    Combining the items

2-3の項目をまとめて1つの観測変数が作られた。これは、41項目という数が110というサンプル数に対しては多すぎるものであり、結果が歪む可能性があるからである。また、EQSでは2分法で採点されたデータを分析することができず、集成値として扱う必要があるためである。

項目は、概念的に似通ったもの、同じ構成概念を測定するものがまとめられる必要がある。そこで本研究では、同じ下位技能を測定するもので同じタスクである、同じ文もしくはパラグラフに含まれる情報を問う、相関が高いなどを基準として項目をまとめ、Table 1に示すような7つのリスニングの観測変数、8つのリーディングの観測変数が作成された。

 

3.4. Data analysis procedures

(a) Preliminary statistical analysis

記述統計の尖度、歪度の値からいくつかの項目が正規分布していないが、セットごと (listening set, reading set, total set) のMardia (1970) の多変量尖度 (multivariate kurtosis) の値は有意に大きいものではなく、多変量正規分布が認められた。よって、以下のモデル分析では最尤法が用いられた。

セットごとのα係数は.71-.79であり、各セットに含まれる観測変数の数の少なさを考慮すると、十分であるといえる。

 

(b) Structural equation modeling

先に述べた3つの観点からモデルが検定された。単一能力モデルでは理解能力 (COMP) を唯一の要因とし、3つの下位能力モデルでは上述のTOP, DET, INFを要因とする。2つの下位能力モデルではTOP, DETを合わせた明示的な情報の理解能力 (EXP) と暗示的な情報の理解能力 (INF) の2つを要因とした。

モデルの検定は2つの段階で行われた。まずはじめは、リスニングとリーディングが異なる特徴を持つとする立場を想定して、それぞれ個別の分析を行った。次に、リスニングとリーディングが共通の特徴を持つとする立場を想定して、それらを統合した (全ての観測変数に対する) 分析を行った。

 

(c) Criteria for model evaluation

モデルの適合度の指標として、χ2値、χ2値を自由度で割った値 (χ2/df)、CFI, RMSEAが用いられた。

また、推定値の有意性の基準としては絶対値1.96 (p = .05) と定めた。

 

4. Results

4.1 Testing separate models

3.4の (b) で述べた3つのモデルは、まずリスニング、リーディング別々に検定された。

分析の結果、リスニング・リーディング両方で単一の能力を仮定するモデルは低い適合度を示し、特にそれはリスニングで顕著であった。リスニングについては2つの下位能力を仮定するモデル、3つの下位能力のモデルの両方とも良い適合度を示したものの、後者のほうがやや高かった。リーディングでは2つの下位能力のモデルが3つの下位能力のモデルよりも高い適合度を示した。それぞれ最も高い適合度を示したモデルのパス図と標準化推定値は、Figure, 2, 3を参照。

リーディングのパス図に関しては、観測変数の誤分散が高い値を示している。これはopen-ended taskとincomplete outline taskの2つのタスクの違いである可能性があるため、この2つのタスクの要因のみを含むモデルを検定したが、その適合度は低かった。つまり、テストパフォーマンスにはタスクの違いよりも、2つもしくは3つの下位能力が影響を与えているということである。

この分析結果から、L2におけるリーディング、リスニング能力というのは峻別可能な下位能力から構成されていること、リスニングにおいてはTOP, DET, INFという3つの下位能力、リーディングにおいてはEXP, IMPという2つの下位能力が存在するということが示された。

 

4.2 Testing common subskills models

次に、リーディングとリスニングを構成する共通の能力があるかを検証するため、15の全ての観測変数に対して3つのモデルの検定が行われた。その結果、3つのモデルは全て低い適合度を示した。

そこで、モードの違い、つまりAUDIO, WRITTENという2つの要因を含めて3つのモデルを検証したところ、それぞれの適合度は顕著な改善を示した。しかし、モードの要因だけを含めたモデルでは十分な適合度ではなかった。これは、リスニング、リーディングを統合したデータの説明には、下位能力とモードの違いの両方を考慮することが必要であるということである。しかし、モードの要因だけを含めたモデルは単一の理解能力もしくは下位能力のみのモデルよりも高い適合度であることから、統合データにはモードの違いが大きな影響を与えていると考えられる。

モードの要因を含めた3つのモデルはどれも適合度が高く、1つのモデルを選択するのは難しい。単一の能力を仮定するモデルは3つの中でも最も高い適合度が得られているものの、3つの能力を仮定するモデルとの有意差はない。また、単一の能力を仮定するモデルはリスニング、リーディング個別のデータでは低い適合度を見せているため、それらを統合したデータの最終モデルとして選択するのは妥当でないと考えられる。よって、ここでは複数下位能力を仮定する2つのモデルのうち、より高い適合度を見せ、より多くの有意な標準化推定値が得られている3つの下位能力を仮定するモデルを最終的なモデルとして選択する (Figure 6)。

 

5. Discussion

5.1 RQ1

本研究の結果から、WB-ESLPEのリスニング、リーディングセクションは2つ、もしくは3つの下位能力を測定していることが示された。特にリスニングではTOP, DET, INFの3つの能力、リーディングではEXP, IMPの2つの下位能力が測定されていた。

リスニング、リーディングで峻別可能な下位能力の数が異なる理由はいくつか考えられる。

1.         受験者の英語熟達度の影響

本研究の受験者は、大学用のテキストの主題・詳細情報を同程度理解することはできるが、リスニングでは主題を理解することが難しかった。多くの研究者は、ESL学習者はリーディングよりもリスニングにおける主題把握に困難を示すことを指摘している。

2.         リーディングセクションとリスニングセクションにおけるタスクの違い

リーディングにおいては、テキストが500語程度であり短い、戻り読みすることが可能、open-ended itemsとincomplete outline itemsは同じテキストを基に作成されていた、という理由から受験者は主題把握と詳細情報の理解の両方とも容易だったことが考えられる。一方、リスニングでは、講義内容を書き起こしたものはリーディングテキストの3倍以上の長さがあり、聞く回数は1度のみという特徴から、リーディングテキストを読解するようには主題把握ができなかったと考えられる。結果として、リスニングでは主題把握と詳細情報の理解が峻別可能であった。

上記の2の理由については、実際に、リスニングセクションの平均正答率が30%であるのに対し、リーディングは倍の60%となっている。また、Alderson (2000) では下位能力の分類は熟達度の低い学習者でより明確に行うことができると述べられていることを考えると、より難易度の高かったリスニングセクションで下位能力が3つに分類できたのは妥当であると考えられる。

以上に述べたことを考慮すると、これまでの先行研究で下位能力の数について合意が得られなかったのは、研究間で受験者の熟達度が様々であったためだと考えられる。

実用的な観点から述べると、今回のモデルを用いてテスト項目の改善を行うことができる。例えば、モデルの中で標準化推定値の低い観測変数は、十分に下位能力を測定できていない可能性がある。そのような変数に含まれる項目が低い負荷量を示す理由を特定し、項目が改善される必要がある。

 

5.2 RQ2

RQ2について、リスニングとリーディングを個別にモデル分析した結果からは、リスニングの下位能力はリーディングよりも細かく峻別可能であること、リスニングとリーディングの下位能力の種類は似ていることが示唆される。

一方、リスニングとリーディングを統合したデータのモデル分析からは、リスニングとリーディングでは理解能力という要因が共通しており、2つの違いは提示モードの違いであること、理解能力よりも提示モードのほうがテストパフォーマンスに大きい影響を与えていることが示唆される。しかし、統合データのモデル分析では提示モードを含めた3つのモデル全てで高い適合度が得られているため、リスニングとリーディングで共通するプロセスは単一のものなのか、相関のある下位能力の集合なのかは明確ではない。

これらのことを考慮すると、今回の結果では統計的に最も高い値を示したのは単一の理解能力を仮定するモデルであるが、L2リスニング、リーディングにおいて不可分な理解プロセスがあることの証拠としては解釈できない。RQ1に述べた通り、今回得られたデータが受験者の英語熟達度やタスクの違いの影響を受けていることに注意しなければならない。

 

6. Conclusion and implications for further research

本研究では、WB-ESLPEのリスニングセクションは3つの下位能力を測定する項目から成り、リーディングセクションは2つの下位能力を測定する項目から構成されていることが明らかになった。

また、L2リスニング、リーディング能力は共通の理解プロセスを含んでいるが、異なる提示モードによるdecoding processの違いがあることが示された。

さらに、L2理解能力における下位能力の峻別性は受験者のL2熟達度、テストの特徴によっても変化する可能性が示唆された。

実用的な観点からは、本研究で示された下位能力の存在はテスト開発者がどのような項目をテストに含めるべきかを考えるのに役立つ。主題・詳細情報の理解、推論能力など、大学での学習に必要な下位能力という観点から、L2リスニング、リーディングテストは構成されるべきである。

また、現在のWB-ESLPEではセクションごとに得点を算出しているが、これを下位能力ごとに算出すれば生徒のリスニング、リーディング能力についてより詳細な情報を得ることができ、シラバスデザインなどに役立てることも可能である。

本研究では「下位能力」を示す指標として、ある項目への反応を用いていた。しかし、Alderson (2000) が指摘しているように、必ずしも受験者はテスト作成者が期待する能力やプロセスによって項目に反応するわけではない。そのため、今後は、受験者が実際に今回抽出された下位能力を用いて項目に反応している (問題を解いている) かを検証するような質的なアプローチが必要である。


 

【考察】

Song, M. (2010). Do divisible subskills exist in second language (L2) comprehension? A structural equation modeling approach. Language Testing, 25, 435-464.

 

以下では本論文に関連して、@大規模テストにおけるリーディング・リスニングセクションで測定される下位技能の記述について A SEMによる分析結果の報告について、考察を述べる。

 

@     大規模テストにおけるリーディングテスト、リスニングテストの下位技能の記述について

 本論文では、WB-ESLPにおいて測定されるリーディング、リスニング能力の因子構造が分析されていた。WB-ESLPのような特定の受験者に対するテストに限らず、全てのリーディング・リスニングテストは複数の要素を測定するように作成されている (Alderson, 2000)。そこで、以下ではより一般的に用いられている世界規模の英語能力テストが、どのようなL2理解の下位能力の測定を意図しているのか、確認し得る限り述べていく。

 まず、欧米の大学・大学院へ留学するための英語能力テストとして用いられているTOEFLについては、当然アカデミックな場における読解力・聴解力の測定がその目的である。しかしながら、公式ガイドブック (ETS, 2009) には、リーディング、リスニングともに測定される下位能力について、更に以下のような詳細な記述がある。

 

【Academic Reading Skills】

情報を得るための読解力

重要情報の効率的なスキャニング

読解の流暢さ、速さ

基礎的な理解力

主題、詳細情報、文脈の中での語彙、代名詞照応の理解

推論による暗示的情報の理解

学習のための読解力

文章構成・目的の認識

命題間の関係の理解

図や要約における情報の構成

文章全体を通して命題や考えがどのように関連しているかの推測

【Academic Listening Skills】

基礎的な理解力

主題やそれに関連する詳細情報の理解

実用的な理解力

話し手の姿勢 (attitude) や確信度の認識

話し手の機能や目的の認識

情報の結びつけ・統合

提示された情報の構造の認識

暗示的な情報の推論、及び結論づけ

会話、講義における複数の情報の統合

講義、会話におけるトピックの変化、及び講義における導入・結論の認識

 

 TOEFLのリーディングセクションで測定される下位能力として、大きく「情報を得るための読解力」「基礎的な理解力」「学習のための読解力」の3つが述べられている。このうち、本論文で想定されていた下位能力 (TOP, DET, INFもしくはEXP, IMP) に当たるのが、「基礎的な理解力」であろう。TOEFLでは本論文で細分化された下位能力を「基礎的な理解力」1つにまとめており、その他に2つの下位能力「情報を得るための読解力」「学習のための読解力」の測定を意図している。興味深いのは、「学習のための読解力」について、それを測定する特定の項目が設定されていることである。具体的には、テキストの重要な情報を示す文を選択肢から複数抜き出し、要約を完成させるタスク、テキストに述べられた情報を表の形に表し、それを完成させるのに適する文を選択肢から複数抜き出させるタスクが「学習のための読解力」の測定に用いられている。一方、「情報を得るための読解力」については、これを測定する特定の項目はなく、おそらくテストに用いられるテキストの長さとテスト時間との関係によって、「流暢な読み」を測定しているのだと考えられる。

 リスニングセクションで測定される下位能力としては、「基礎的な理解力」「実用的な理解力」「情報の結び付け・統合」の3つである。これらはさらに細分化されているが、実際の質問項目はその細分化に応じて8種類が用いられている。本研究で想定された下位能力のうち、TOP, DETが「基礎的な理解力」を構成し、INFは「情報の結び付け・統合」の一部に含まれている。WB-ESLPや以下で述べるTOEICと比較してみると、話し手の姿勢や目的の認識を含む「実用的な理解力」はTOEFLが測定する特徴的なリスニング下位能力であるといえる。

 

次に、英語を母語としない者の英語によるコミュニケーション能力の測定を目的としているTOEICについて見ていく。TOEICのリーディング、リスニングセクションの因子構造を検証したIn’nami & Koizumi (forthcoming) では、以下の5つのリーディング下位能力、4つのリスニング下位能力が想定されている (TOEIC側から提供されたデータが、このような項目ごとに得点化されていたようである)。

 

【Reading subskills】

(a) テキストから推論を生成する

(b) テキスト内の特定の情報の理解、位置づけ

(c) 文間及びテキスト間の情報統合

(d) 文脈内での語彙の把握

(e) テキストで用いられる文法の理解

【Listening subskills】

(a) 短いテキストにおける明示情報に基づいた、要点、目的、基本的な文脈に関する推論

(b) 長いテキストにおける明示情報に基づいた、要点、目的、基本的な文脈に関する推論

(c) 短いテキストにおける詳細情報の理解

(d) 長いテキストにおける詳細情報の理解

 

 リーディングセクションにおいては5つの下位能力が想定されているが、このうちWB-ESLPと先に述べたTOFFLに含まれていないものは、(c) (文間及び) テキスト間の情報統合、(e) テキストで用いられる文法の理解である。TOEICでは明示的・暗示的な情報の理解に加え、「テキスト単位での情報統合」と「適切な文法使用能力」がリーディングの下位能力として測定されているのが特徴であるといえる。(c) についてはダブルパッセージを用いたテスト項目により、(e) については短文・長文の穴埋め問題に含まれる項目によって、測定されている。

 一方、リスニングセクションは、WB-ESLPで想定されていたTOP, DET, INFという下位能力構成と非常に近い構成である。異なる点は、TOPとINFが同じカテゴリに属していること、下位能力をさらに短いテキスト、長いテキストを要因にして分類している点である。実際の問題も短いテキストと長いテキストを用いたパートに分かれており、それぞれに含まれる項目で主題の把握や詳細情報の理解を問う形式である。そのため、リスニングセクションにおいては、下位能力と問題項目の関連がリーディングセクションよりも明確であるといえる。しかしながら、本論文で示されたように、L2学習者においてはリスニングのほうがリーディングよりも難易度が高く、峻別性も高いことから、上記の4つの下位能力をさらに細分化する必要があるかもしれない。例えば、(a) (b) について、それぞれを明示的に述べられた主題の把握と暗示的な情報の理解の2つを峻別することも可能であろう。

 

 最後に、ケンブリッジ大学によって作成されているIELTSについては、Official specification of IELTS (Clapham, 1996) によって測定されるリーディングの下位能力が以下のように述べられていた (リスニング能力は確認できなかった)。

 

【Reading subskills】

IELTS attempts to measure

(a) テキストの構造、内容、出来事の順序、手順の特定

(b) 指示の理解

(c) 書き手が強調しようとしている主題の理解

(d) 潜在的なテーマ、概念の特定

(e) テキスト中の命題、及びそれらの間の関連の特定

(f) 事実、証拠、意見、示唆、定義、仮説の特定、区別、比較

(g) 証拠の評価、異議の提示

(h) 潜在的なテーマ、概念、証拠に基づく仮説の生成

(i) 論理的推論の生成

 

 TOEFLと同様に、下位能力が詳細に分類されており、また重なる能力も多い。これは、IELTSのAcademic moduleがTOEFLと同様に留学生の英語熟達度の測定を目的としているためであろう。しかし、IELTSではこれらの下位能力の測定のために、TOEFLよりもより多様な問題形式が用いられる傾向にある。TOEFLと同様の多肢選択問題に加え、パラグラフの小見出しを選ぶ問題、要約文のクローズテスト、リストのマッチング、テキスト構造を図示したフローチャートの穴埋めが用いられている。これらの問題は、(a), (c), (e) などの下位能力を測定するものと推測される。

 

ここまで3つの英語能力テストについて、その測定する下位能力に関する記述の点から概観してきた。それらの下位能力の記述に関しては、テスト間で似通ったものもあるものの、あるテストに特徴的なものもあった。そのため、テストによって測定される下位能力の記述や構成はそのテストの構成概念を明確に反映するものであり、本論文のように下位能力の観点からテストの構成概念を統計的に分析する実証研究は非常に意義がある。そのような研究は、あるテストの構成概念妥当性に支持を与えるとともに、テストの独自性の明示、他のテストとの差別化の点でも有益であろう。

また、これら3つのテストでは、多かれ少なかれ、記述された下位能力によって、特定の問題形式が用いられていた。問題形式によって測定される能力の側面が異なるという指摘 (Alderson, 2000) を考慮しても、測定が意図される下位能力に合わせて問題形式を変えるのは妥当であるといえる。しかし一方で、IELTSのようにそのような下位能力が細分化されすぎていると、本当にそれぞれの能力が独立しているのかという疑念を抱く。上述の9つの下位能力のうち、そのいくつかは共通する部分が大きい (相関が高い) 能力もあるのではないだろうか。また、現実的な問題として、9つもの下位能力を含むモデルについて、SEMによる分析を行った場合、高い適合度が得られるのは難しいと考えられる。同様に、分析上の問題として、観測変数が多いためにより大きなサンプルが必要となること、観測変数を構成する項目の数が不足することも懸念される。そのため、テスト作成における構成概念妥当性の保持という観点ではより詳細な下位能力の記述は利点があるだろうが、実際のモデル分析や妥当性を支持するデータを得るという点では必ずしも望ましいわけではないのかもしれない。

また、もう1つ疑問に感じたことは、テスト機関が測定を意図している下位能力と、先行研究で述べられているリーディング・リスニングのモデルはどれほど関連しているのかということである。今回の論文を読む限りは、主に下位能力の構成に関する研究はリーディングの分野で多くなされているようだが、先行研究で議論されてきたモデルは、TOEFLや IELTSの記述にある能力ほど細分化された下位能力は含めていないようである。先行研究のモデルを基にSEMを行うのか、テスト機関が意図している下位能力を含むモデルを基にSEMを行うのかはどちらが妥当で、どちらが好ましい結果を得ることができるのだろうか。In’nami & Koizumi (2011) ではETSから提供されたデータを基に下位能力を決定しているようだが、実際の分析においては先行研究で議論されてきた「リーディングとリスニングの関係」が異なるモデルを焦点に当てて、検定を行っている。そのため、リーディングとリスニングの関係という観点ではTOEFL, IELTSにおいても同様の分析が可能なのかもしれないが、それらの関係だけでなく、「実際のテスト機関が意図しているような下位能力を含めたリーディング (リスニング) 能力の構成」と、「先行研究が議論してきたリーディング (リスニング) 能力の構成」がどのような点で共通しているのか、またどのような点で異なっているのかを熟考することも必要である。しかしながら、例えばTOEFLの下位能力の1つである「情報を得るための読解力 (流暢な読み)」は、それを測定するための特定の項目が無いために、その能力を含むモデルに対して分析を行うというのは現実的には難しいであろう。今回概観したような大規模英語能力テストのL2理解力の下位能力構成について、今後どのようなアプローチで検証がなされていくのかは非常に興味深いところである。

 

A     SEMによる分析結果の報告について

今回、SEMを用いた実証研究論文を読んだのは初めてであったため、どのような手順・内容で結果が報告されていたのかを今後のために簡単にまとめておく。

まず本論文では、モデル分析の事前分析として、項目ごとの記述統計とセット (リスニング、リーディング) ごとのα係数が算出されていた。記述統計では主に項目ごとの正規性の確認が目的となっており、さらにはセットごとの正規性を確認するために多変量尖度 (multivariate kurtosis) の値も算出されていた。

 モデル適合の指標としては、χ2値、χ2値/df、CFI, RMSEAの4つが用いられていた。In’nami & Koizumi (2011)で報告が推奨されているモデル適合の指標を参照すると、本論文ではTLI (Tucker?Lewis index), SMSR (standardized root mean square residual) が報告されておらず、十分とは言えないかもしれない。

また、そのような適合度の指標だけでなく、標準化推定値の有意性 (モデル内の各パスが有意であるか) についても論文では記述されていた。さらに、モデル内の誤分散の大きさにも着目し、誤分散が大きいことからモデルに含まれない要因が影響を与えている可能性を指摘していた。この可能性を排除するためには、考え得る他の要因のみを含めたモデルの適合度を算出し、それが低い事を示すという手順が用いられるようである。

 もちろん、これらのような統計的な結果のみから最適なモデルを決定するのは不十分であるだろう。本論文のように、先行研究で得られている結果やモデルなどの理論的観点、実験で用いられたマテリアルの特徴や協力者の特徴などの観点も含めて、最適なモデルを決定することが望ましいであろう。

引用文献

Alderson, J. C. (2000). Assessing Reading. Cambridge University Press.

Clapham, C (1996). The development of IELTS: a study of the effect of background knowledge on reading comprehension. Cambridge University Press

Educational Testing Service. (2009). The official guide to the TOEFLR (3rd ed.). McGraw-Hill.

Educational Testing Service. (2009). 「TOEICRテスト新公式問題集 Vol.4」. 東京:財団法人国際ビジネスコミュニケーション協会.

In’nami, Y., & Koizumi, R. (2011). Structural equation modeling in language testing and learning research: A review. Language Assessment Quarterly, 8, 250?276.

In’nami, Y., & Koizumi, R. (forthcoming). Factor structure of the renewed TOEICR test: A multiple-sample analysis. Language Testing.

 

ページトップへ戻る

 

 

Shiotsu, T., & Weir, C. (2007). The relative significance of syntactic knowledge and vocabulary breadth in the prediction of reading comprehension test performance. Language Testing, 24, 101-28. (K. W)

 

0. Overview

■読解能力に寄与する要因に関しては、多くの研究がなされており、その要因の妥当性も検証されている。しかしながら、L2読解におけるtest performanceについては限られている。

■さらに、語彙知識の寄与に関する研究に比べ、統語的知識の寄与についてはあまり研究がなされていない。

■本研究においては、3つの実験結果をSEMを用いて、L2読解に対する統語的知識と語彙の広さの寄与に関して明らかにすることを目的とする。

 

1. Background

■リーディング研究においては、(1)リーディングの過程に関する研究と(2)リーディングに寄与する要因に関する研究の大きく分けて2つのアプローチがある。本研究が焦点を当てているのは後者である。

■L1においては、語彙知識、語の認識能力、音韻的気付き、そして作業記憶のような要因がリーディングに影響をしているとされている (Baddeley et al., 1985; Cunningham et al., 1990; Jackson and McClelland, 1979; Palmer et al., 1985)。しかし、L2においても同じように考えられる訳ではない。

■L2においては、L2の知識、能力に加え、L1読解能力も影響を及ぼすことが考えられる。ただし、ある閾値までは、前者の影響の方が大きいということが言われている。

■さらに、統語的知識のように焦点を当てられていなかった要因を考慮していく必要がある。実際に、統語的知識がL2リーディングにおいて大きな影響を及ぼしているとする研究もある。

■しかし、統語的知識に関しては、語彙知識に比べると、リーディングに及ぼす影響は小さいとされることもあり、統一的な見解は得られていない。

 

2. General method of analysis

■統語的知識と語彙知識のテキスト読解における重要性について調査するために、3つの実験を行ない、その結果を、SEMによって分析した。使用したソフトウェアはAMOSで、最尤法を用いた。

■モデルを以下に示す。

<略>

 

3. Study 1

3.1 Participants

■イギリスの大学におけるpre-sessional EAPプログラムの学生107名(L1と国籍は多様)。

■コース末の認定試験として行われた。

 

3.2 Instruments

■テキスト読解20問 (Mean=11.65, SD=4.19, alpha=.79)

■語彙テスト10問 (Mean=4.12, SD=2.31, alpha=.64)

■統語テスト30問 (Mean=20.90, SD=5.30, alpha=.83)

 

3.3 Results

■χ2=4.821, df=6, χ2/df=.803, GFI=.985, NNFI=1.011, CFI=1.000, RMSEA=.000

■Reading×Syntax: Beta=.47, r=.62

 Reading×Vocabulary: Beta=.42, r=.60

 Syntax×Vocabulary: r=.37

 

4. Study 2

4.1 Participants

■日本にある3つの大学における日本人英語学習者182名。

 

4.2 Instruments

■テキスト読解20問 (Mean=10.07, SD=4.38, alpha=.80)

※Study 1のマテリアルとは異なり、2題はCET (Yang and Weir, 1998)、もう2題はLee and Schallert (1997)を使用した。

■語彙テスト60問 (Mean=24.14, SD=11.50, alpha=.94)

※Study 1のマテリアルとは異なり、VLTを使用した。

■統語テスト32問 (Mean=15.41, SD=5.69, alpha=.82)

 

4.3 Results

■χ2=7.521, df=6, χ2/df=1.254, GFI=.987, NNFI=.996, CFI=.998, RMSEA=.037

■Reading×Syntax: Beta=.61, r=.89

 Reading×Vocabulary: Beta=.34, r=.85

 Syntax×Vocabulary: r=.84

 

5. Study 3

5.1 Participants and instruments

■日本にある5つの大学にまたがる日本人英語学習者624名。

■テキスト読解20問 (Mean=10.49, SD=4.11, alpha=.74)

■語彙テスト10問 (Mean=24.12, SD=12.81, alpha=.95)

■統語テスト30問 (Mean=15.89, SD=5.60, alpha=.79)

※全てStudy 2と同じマテリアルが使用された。

 

5.2 Results of single group analysis

■χ2=16.887, df=6, χ2/df=2.814, GFI=.990, NNFI=.989, CFI=.999, RMSEA=.055

■Reading×Syntax: Beta=.64, r=.85

 Reading×Vocabulary: Beta=.25, r=.79

 Syntax×Vocabulary: r=.84

 

5.3 Results of subgroup analysis

■χ2=25.917, df=15, χ2/df=1.728, GFI=.985, NNFI=.983, CFI=.992, RMSEA=.035

■High achievers

Reading×Syntax: Beta=.50, r=.62

 Reading×Vocabulary: Beta=.19, r=.52

 Syntax×Vocabulary: r=.67

Low achievers

Reading×Syntax: Beta=.62, r=.78

 Reading×Vocabulary: Beta=.26, r=.67

 Syntax×Vocabulary: r=.67

 

6. Discussion

■実験1の結果から、多様な母語やL2の学習経験を有するイギリスのEAPの学生において、統語的知識の方が語彙知識よりも、わずかではあるが、テキスト読解を強く予測する変数であるということが明らかになった。このことは、本研究の一般化において重要な意義を持つ。

■実験2の結果から、日本人英語学習者においては、統語的知識の方が語彙の広さよりも、テキスト読解を強く予測する変数であるということが明らかになった。実験1に比べて、明らかな差が出たが、これには、被験者の違いに加えて、マテリアルの変更の効果も考えられる。

■予備実験に比べて有意に多くの被験者に対して行った実験3の結果から、統語的知識の方が語彙の広さよりも、テキスト読解をより予測する変数であるということが明らかになった。

■この結果は、過去の質的研究 (Bernhardt, 1991)とは一致するが、量的な研究 (Bossers, 1992; Brisbois, 1995; Yamashita, 1991)とは矛盾する。

■しかしながら、Bossers (1992)における両者の差は語彙がr=.41なのに対して、文法がr=.36と大きな差ではなかったことに加え、被験者がオランダ語を学ぶトルコ人学習者と限られていた。

■Brisbois (1995)においても、マテリアルの難しさ故に、結果に床面効果が見られ、その一般化には疑問が残る。

■Yamashita (1991)においては、被験者の数やマテリアルに問題は見られないが、重回帰分析を用いていることから、結果の解釈には慎重になる必要がある。また、読解能力の測定方法が、本研究とは異なるために結果が一致しないのであろう。

■また、統語的知識の方が、語彙知識よりもテキスト読解を強く予測するという結果が得られたが、このことは語彙が重要ではないということにはならないことに注意したい。実際に、語彙知識と統語的知識の相関は、語彙知識とテキスト読解の相関よりも高い (r=.84 vs. r=.79)。

■実際に、先行研究における因子分析においても、“lexico-grammatical ability”とされる共通因子が報告されている (Purpura, 1999)。

 

7. Conclusion

■本研究は、統語的知識に対して語彙知識の方が相対的に重要であると主張する先行研究における問題点の提示と、SEMを用いた頑健な手法を提示することが出来た。

■その結果、従来の研究結果を覆し、統語的知識の方が語彙知識に比べ、相対的にテキスト読解に影響を及ぼすという結論が得られた。

■今後の研究においては、L2の変数として、リスニング・タスクによって測定された一般理解能力や作業記憶の長さ、語の認識速度などを含めていくことが望まれる。また、L1の分野においてもSEMを用いた手法で研究がなされると従来の研究結果もより明らかになっていくのかもしれない。

■本研究においては、L2リーディング能力の精査、テスト点数の予測性、信頼係数の相違、テスト内容の妥当性については、さらなる議論が求められるだろう。

 

 

 

 

<Comment to the study>

 今回の文献は、SEMを用いて、テキスト読解を予測する変数としての統語的知識と語彙知識を比較したものであった。従来の先行研究とは異なる手法でアプローチし、定説を覆す結論を導き出した本研究は革新的であるが、モデル適合度、熟達度、マテリアル、統語的知識と語彙知識の関係の4点について考察してみたい。

 まず、1点目のモデル適合度であるが、実験1〜3のいずれにおいても非常に高い適合度が示されている。ここで、着目すべきなのが、カイ二乗値である。GFI、NNFI、CFI、RMSEAの4つの指標は実験間でそれほどの差はないにもかかわらず、カイ二乗値のみは後の実験になるほど高い値を示しており、実験3においては有意となっている。これは、論文中でも言及されている通り、被験者の数が増えたために、カイ二乗値が高まり、有意になりやすくなったためであろう。SEMのモデル適合度を判断する際に、カイ二乗値のみで判断しないことが推奨されているが、改めて確率理論の安易に解釈することの恐ろしさが示されたといえよう。

 次に、熟達度についてであるが、実験3において、上位群と下位群を分けて分析が行われたが、上位群の方が、下位群に比べて標準化係数も相関の値も低く、テキスト読解に対する統語的知識および語彙の広さの説明率が低くなっていることは実に興味深い結果である。理論的に、L2リーディングにおいては、ある閾値を超えるとL2の知識、能力に加え、L1読解能力も影響を及ぼすと言われている。このような視点を持ち込むことは、本研究の趣旨からは外れる可能性もあるが、今回の結果が、この理論を改めて支持するものであることは間違いないだろう。しかしながら、本研究においては、TOEICやTOEFLといった客観的指標による被験者の熟達度が示されていない上、そもそもその閾値がどのあたりに存在するのかも今後の研究が待たれるため、今回のところはこれ以上の言及は避けたい。

 最後の議論に移る前に、実験1の結果がその後の実験と若干異なることに関して、少し考察しておきたい。実験1においては、後の実験に比べて標準化係数も相関も低いが、これはマテリアルの影響であると思われる。特に語彙知識を測る問題の内的一貫性が著しく低い (alpha=.64)。つまり、語彙知識を測るはずの問題で、語彙知識以外(例えば、統語的知識など)を測っている可能性があるのである。それでは、たとえ語彙知識がテキスト読解を強く予測する変数であったとしても、係数は小さく出てしまう。不純なマテリアルによって、説明率が低くなっているのであるとしたら、その結果の解釈には慎重にならねばならない。

最後は、統語的知識と語彙知識の関係についてであるが、実験2と3において、統語的知識と語彙の広さの相関が非常に高い (r=.84)。ここで取り上げたいのが、語彙知識の深さである。語彙知識には段階的があり、最初は意味だけだったものに、コロケーションや連辞的結合(コリゲーション)の知識などが加えられていくと言われている。コロケーションや連辞的結合の知識を獲得するためには統語的知識が必須である。また、逆に、ある程度のコロケーションや連辞的結合の知識があると、統語的に分析しなくとも、文法問題に答えられることもあろう。このように、ある程度まで語彙知識が深まると、統語的知識と切っても切り離すことのできない一体的な知識が形成される。Pupura (1999)などで言われている“lexico-grammatical ability”とはこのような知識のことを指しているのであろう。一方で、統語的知識も語彙知識も乏しい状態においては、相互のリンクは期待できない。WATなどを用いながら、より詳細な分析を行っていくと、このあたりの問題を解決していける可能性が高い。

 

参考文献

Hudson, T. (2007). Teaching second language reading. Oxford: Oxford University Press.

Nation, I. S. P. (2001). Learning vocabulary in another language. Cambridge: Cambridge University Press.

Purpura, J. E. (1999). Learner strategy use and performance on language tests: a structural equation modeling approach. Cambridge, UK: Cambridge University Press.





ページトップへ戻る





Heilmann, J., Miller, J. F., & Nockerts, A. (2010). Sensitivity of narrative organization measures using narrative retells produced by young school-age children. Language Testing, 27, 603-626.(Y. K)

 

◆  Abstract

口頭での物語り (oral narrative) によって子供のoral language skillを測定することができるが、物語りの評価はその評価法の影響を大きく受ける。本研究は子供のorganization skill (編集スキル) を評価する方法をレビューし、さらに各測定法によって子供の物語技術を評価・比較した。その結果Narrative Scoring Scheme (NSS) が最も敏感な測定法であることが明らかになった。

 

◆  Introduction

■  Oral narrative skills in children

・   口頭で物語を語る能力 (oral narrative skills) は授業の中で評価されることは少ないが、この能力は自分の考えを伝えたり、クラス活動に参加するために必要な技術である。

・   子供のnarrative skillは将来の読解能力 (e.g., Bishop & Edmudson, 1987) や、広い意味での学術的成果 (e.g., Fazio, Naremore, & Connell, 1996)、数学能力 (O’Neill, Pearce, & Pick, 2004) などを予測する、と言われている。

・   narrative skillについては言語損傷の分野でも研究がなされてきた。言語損傷のある子供は一貫性のある物語ができない。したがって、oral narrativeの観察は言語損傷の有無を調べる1つの方法でもある。

 

■  Oral narratives in bilingual children

・  バイリンガルやESL学習者を対象にした研究においても、子供のnarrative skillは読解能力を有意に予測すると言われている (e.g., August & Shanahan, 2006; Miller et al., 2006)。

・  story tellingは他のテスト形式に比べて、より自然で馴染みの深いものである。

・  story tellingは言語能力を測定する指標になる。

 

■  Criterion referenced assessment

・  oral narrativeは目標基準準拠評価 (criterion referenced assessment: CR assessment) によって評価されることが多い。目標基準準拠評価では目標 (e.g., 物語の編集) に対して、パフォーマンスがどの程度達成されているかが評価基準となる。

・  多くのCR oral language assessmentでは、現実のコミュニケーション場面を想定した評価をしており、文脈から離れた言語能力を評価してはいない。

・  子供の言語能力の長所、短所を調べるためにはより詳細な目標基準準拠評価が必要になる。(e.g., 複雑な語彙・文法、登場人物への正しい言及、主要な出来事の説明、出来事の編集、話を聞き手にとって興味深いものにしているか)

 

■  Difficulties associated with developing CR assessments

・  CRの評価法を妥当なものにするためには、評価が子供の言語発達を敏感に測定できているかどうかを評価する必要がある。

・  物語産出に影響を与える要因は多く存在するため、評価は変わりやすい。

?子供の物語産出に影響を与える要因: その話を聞いたことがあるかどうか、その話を何回聞いたことがあるか、ストーリーの中の出来事への親密度、ストーリーの複雑さ、指示の仕方

 

■  Measuring children’s narrative organization skills

・  一貫性のある物語を産出するためには、適切な語彙、文法、統語を用いてストーリーのプロットラインを作成することが必要である。

・  物語文法: 全ての物語は設定 (setting) と出来事 (episode) から成り、出来事や問題の始まり、問題への反応、問題の解決、結末などが含まれている (Stein & Glenn, 1979)。

・  narrative skillの発達プロセスは遅く、成人でも完全に熟達した語り手になれない場合も多い。

・  plot and theme analysis: 子供のnarrative organization skillを測定するための指標の1つとして、子供のが産出した物語の中にプロットとテーマが含まれているかどうかを調べる分析。

?ストーリーの鍵となる物語文法の要素 (プロット、テーマ) が多く含まれているほど、熟達したnarrative skillを持っていると見なされる (e.g., Berman, 1988; Botting, 2002; Bourderau & Hedberg, 1999)。

・  holistic judgements (全体論的評価): 子供が産出した物語に含まれる個々の構成要素を評価するのではなく、物語全体の質や発達レベルを評価する方法。

?Manhardt and Rdscorla’s (2002) Applebee’s categorical level: 物語文法に基づいて読み手の物語産出を5段階 (heap, sequence, primitive narrative, focused chain, true narrative) で評価

?Pearce, McCormack, and James’s (2003) Stein’s scoring scheme: 物語文法に基づいて読み手の物語産出を11段階 (isolated description, descriptive sequence, action sequence, reactive sequence, abbreviated episode, incomplete episode, complete episode, complex episode, multiple episode, embedded episodes, interactive episodes) で評価

 

■  The narrative scoring scheme: A comprehensive measure of narrative organization skills

?Narrative scoring scheme (NSS) はウィスコンシン大学のlanguage analysis labで開発された、子供のnarrative skillを測定する方法。従来の物語文法に基づいた観点にさらに観点を加え、以下の7つの観点から評価される。

 

@introduction: ストーリー内の設定に関わる詳細情報が述べられているか

Aconflict resolution: ストーリー内の問題と解決策が述べられているか

Bconclusion: ストーリーの結末が述べられているか

Cmental states: ストーリーの登場人物の心情が述べられているか

Dcharacter development: 登場人物の展開が述べられているか

Ereferencing: 代名詞や指示語を正しく使用して述べられているか

Fcohesion: 出来事が論理的に、つながりをもって述べられているか

 

◆  Method

■  129名の5~9歳の子供の言語データが収集された。

■  調査者が絵本 (Frog, Where are You?; Mayer, 1969) を音読し、協力者がそれを再話 (retelling) する。再話は全て録音され、systematic analysis of language transcripts (SALT) を用いて表された。

■  再話のトランスクリプトはNSS scoring, plot and theme approach, Applbee’s narrative levels, Stein’s narrative levelを用いて採点し、結果を比較した。

(NSSでは各観点について0~5点で採点。7つの側面があるので、総得点は0~35点になる。)

■  採点者はトレーニングを十分に行ってから採点をした。全データの20%を複数の評価者が個別に採点し、残りのデータを調査者1名が採点した。

 

◆  Results

■  各採点法の結果について、歪度と尖度、天井効果から分布の正規性を比較

・  歪度: |0.8|を超えている場合、分布が歪んでいると判断できる。また、歪度が負の値をとる時、得点が全体的に高すぎることを意味し、採点基準が低すぎると判断できる。

・  尖度: 得点の分布がどれだけ付近にかたまっているか。

・  90%以上の得点データを天井効果と見なした。

 

■  歪度

・   全ての得点法において、歪度は負の値をとった (Skewness for Plot & Theme = -1.0, Applebee = -1.1, Stein = -1.0, NSS = -0.5)。

?得点の分布が全体的に高い方に集中している。

・   NSSが最も低い値をとっている。

・   Plot & Theme, Applebee, Steinは|0.8|より高い値を示しているため、分布が歪んでいると判断できる。

■  尖度

・  全ての採点法で >.00 ?平均値付近に多くのデータが集中している。

・  NSSが最も低い値をとっている。他の3つの採点法では得点の幅が狭い。

■  天井効果: 90%以上を得点しているデータの数

・  NSSでは天井効果は見られなかった。

・  他の3つの採点法では30~35%のデータに天井効果が見られた。

■  Sample Narratives: 採点手法の違いをより明確にするために、3つのサンプル (Sample1,2,3) を質的に観察した

・  Sample3は他の2つに比べて明らかに短く、理解するのが難しい。

・  Sample1はSample2に比べてより熟達したもので、詳細な情報を含んでおり1つ1つの出来事をよく表せている。また複雑な言い回しを用いてストーリーを聞き手にとって面白くしている。

・  実際に4つの採点法を用いて採点してみると、Sample3は他の2つよりも低く採点されたが、Plot & Theme, Applebee, SteinではSample1と2の間に差をつけられなかった。しかし、NSSだけはSample2よりSample1の方が高く採点できた。

 

◆  Discussion

■  Sensitivity Analysis

・   Krippendorff alpha (信頼性係数) を調べたところ、NSSとPlot & Themeはα = .79, Steinはα = .61, Applebeeはα = .69であった。

?Plot & Themeは特定の要素を採点する方法であり、信頼性も最も高いと予測されていたが、NSSによる採点結果もPlot & Themeと同程度の信頼性を有していた。

・   NSSによる採点法は、歪度・尖度が他の3つの採点法より小さく、データの天井効果も見られなかった。

?NSSで採点すると、他の採点法よりもデータの正規分布が仮定されやすく、narrative skillの低い生徒から高い生徒までを測定することが可能。

・   子供のnarrative skillは年齢と共に向上するので、能力を敏感に測定できる測定法が必要である。

?本研究のNSSでは、maximum possible scoreが35点だったが、協力者の最高点が26点であったことからも、今後も協力者のさらなるスキルの向上が予測される。

・   今後は様々なマテリアルを用いて、NSSによる多くの採点データを収集することが必要。

 

■  Use of the NSS in research, educational, and clinical contexts

・  oral language skillは教育カリキュラムにおいても重要。oral language skillとリーディング能力、学術的な成功との関係をさらに探る必要がある。

・  NSSのような測定法を用いることによって、言語学習における困難度や、子供の言語発達を敏感に調査することができる。

◆  Conclusion

■  本研究では4つの異なる採点法を用いて子供の再話を評価した結果、NSSが最も敏感な基準であることが示された。

■  本研究は目標基準準拠評価の性質を評価する1つの事例としても位置付けられる。

-------------------------------------------------------------------------------------------------------------------------

Comments

◆  採点基準の妥当性

本研究は子供の物語産出データを4つの評価法に基づいて評価し、歪度、尖度、天井効果に基づいた正規性の観点から各評価基準の妥当性を検証している。テスト自体の信頼性・妥当性について論じる研究は数多く存在するが、本研究の結果からもわかるように同じタスクやテストを行っても評価法の違いによって評価が異なってくるという点は非常に重要な指摘である。特に、本論文で用いている物語産出のようなタスクでは産出されるデータの自由度が高いため評価は難しく、個々のデータを敏感に評価できる採点法の特定が必要である。テストの妥当性だけでなく、その採点基準が評価したい観点を妥当に評価できているかという「採点基準の妥当性」もタスクの評価において非常に重要である。本研究のように複数の採点基準による結果を比較するという方法は、採点基準の妥当性を評価する1つの方法として有効な方法であると考えられる。

 一方で、本論文で比較されている4つの基準はそれぞれ評価の段階数が異なっている (possible range for Plot & Theme = 0-12; Applebee = 0-5; Stein = 0-11; NSS = 0-35)。したがって、段階数の多いNSSでの評価が他の基準よりも敏感にデータを評価できる、という結果はある意味当然とも考えられる。また実践的な側面からは、評価基準を細かく設定することにより、評価者の負担が大きくなるという点も考慮する必要がある。(本論文ではoral narrative skillを授業内で評価する場面は少ない、という記述があったが) 実践的な言語学習においてoral narrativeというタスクを応用する場合、その評価法については評価法の妥当性と共に評価者の負担についても考慮する必要があるだろう。

 

◆  本論文の分析方法について

 本論文では前述した通りデータの正規性を観察することによって採点法の妥当性を評価しているのに加えて、Sample Narrativesとして3つのデータを質的に観察している点が特に興味深かった。sampleを直観的に評価した時に明らかにSample1>2>3の順に評価できても、Plot & Theme, Applebee, Steinの基準ではSample1と2の間に差をつけられなかった、という点はこれらの評価法の限界を明確に示す結果となっていた。タスクの評価においては、一度基準に基づいて採点をすると、もとのデータの内容を質的に再観察するという手順を踏むことは稀であるが、この方法は基準の妥当性を見直すという意味でも非常に有効であると考えられる。

 

◆  NSSについて

 NSSは従来の物語文法に基づく観点からだけではなく、高度なnarrative skills (e.g., cohesion, referencing) を含むより広い観点からの評価法になっている。本論文のタスクとして用いられている再話 (retelling) というタスクは、単にストーリーの内容を理解するだけでなく、個々の出来事を読み手の心内で再構築して産出するというプロセスをともなうものである、ということを考慮してもcohesion, referencingのような能力は重要であり、これらを評価の観点に入れることは妥当であると考えられる。タスクの評価基準を設定する時には、従来の基準を改定するだけでなく、タスクの性質を考慮した上で評価基準を追加するという手順も重要である。





ページトップへ戻る


 Qian, D. D. (2009). Comparing direct and semi-direct modes for speaking assessment: affective effects on test takers. Language Assessment Quarterly, 6, 113-125. (M. O)

 

INTRODUCTION

■コンピュータ技術が発達したことにより、新しい二つのテスト方法が挙げられる。(a)face-to-faceまたはdirectテスト、(b)person-to-machineまたはsemi-directテストという2つのテストの適切性が新しい議論になっている。

■この論文では、2つのテストへの香港の受験者の反応や感じ方を比較したものである。結果としては、多くの受験者はテスト方法に関して特定の優先傾向は示さなかったけれども、directテストを強く好む受験者の数は、semi-directテストを好む受験者の数をかなり上回っていた。理由として、semi-directでは、テスト中受験者と試験者の交流がないことが挙げられ、これは受験者の心理的障壁を作ってしまうようである。

コンピュータを使ったテストは、効率的で効果的である→人気のある実践方法

 

BACKGROUND

■Chapelle & Douglas (2006)

  Jones & Maycock (2007)

■現在、Cambridge ESOLやTOEFL iBTなど、多くの国際的な言語テストにおいて、コンピュータを使ったテスト形式が採用されている。

■また、TOEFL iBTでは、コンピュータ画面の前でテスト受験者が英語のスピーキング力を示すテストも組み込まれ、アメリカでは、小学校や中高のテストプログラムで、コンピュータを使ったテストの実行可能性が探索されている。

■コンピュータを通した口頭言語熟達度評価が人気の傾向にある。

 →しかし、このコンピュータを通した口頭言語評価のメリットと問題点を判断する必 要がある

Formats for Oral Proficiency Assessment

■口頭熟達度を測る3つの形式→indirect testing, direct testing, semi-direct testing (Clark, 1979; O’Loughlin, 1995, 1997, 2001)

■indirect testing

  ・オーラルスキルを非直接的に評価する項目しか含まれない

  →話すことなしに、発音、アクセントなどをペーパーテストで評価する

 ・テスト作成者が本当に知りたいテスト受験者のオーラルスキルを正確に、確実に評価しているという点で問題がある

 →現在では、indirect testingは基本的にスピーキング評価に関して中止されている

■direct testing (or live testing)

 ・テスト作成者、試験者が知りたい受験者のオーラルスキルを測る妥当性、正確性のあるテスト→indirectと違って、実際に試験者と面と向かって話す必要があるため

 ・direct oral testingは1950年代にアメリカではじめて導入された→the Oral Proficiency Interview (OPI)→他国でも受け入れられるようになる

■semi-direct testing

 ・テープ、CD、コンピュータ、インターネットなどの媒介を通して、オーラルスキルを評価する方法→受験者はタスクを実行し、それらはテープ、ディスク、デジタルファイルなどに録音され、のちに評価される

 ・1980年代にアメリカで言語評価手段として導入される→ Simulated Oral Proficiency Interview (SOPI)

 長所・施設がある限り、短い時間で多くの受験者にテストを実施することができる

   ・現場での試験者を必要とせず、より経済的、効率的にテストを実施できる

   ・OPIよりも信頼性がある→試験者の影響で得点が変わったりしない

 短所・OPIの方が、よりオーセンティックに近い状態でコミュニケーション力を評価することができる

⇒SOPI, semi-direct testingの方が、効率的、経済的、公平で、信頼性が高い

Previous Research Findings

■Stanfield (1991)  Stanfield & Kenyon (1992)

 ・directとsemi-direct testingのスピーキング評価において、そのテスト結果から2つのテスト方法は一致した妥当性のある測定法だとしている。

 →2つのテスト方法は同等のものである

■Shohamy (1994)

 ・実践的談話のパターンと言語のアウトプットにテスト方法がどのように影響しているかを見定めるために、試験者と被験者の交互作用とタスクの特徴や構造を分析した。

■Luoma (1997), O’Loughlin (1997, 2001)

 ・2つのテスト方法の表面的妥当性を見るために受験者のフィードバックを収集した。

⇒受験者のアウトプットや評価者の評価における、テスト構造、デザイン、談話特徴、交互作用、語彙密度を含んだテスト受験と評価の過程を調査→2つの方法に差があった

■Brown (1993), James (1988), McNamara (1987), Shohamy, Donista-Schmidt & Waizer (1993), Stanfield (1991), Stanfield et al. (1990)

 ・受験者のフィードバックによる調査は入り混じった結果が出ている。

  →多くの研究では、受験者はdirect testingの形式の方を好むという結果を示しているが、semi-direct testingを好む受験者の割合の方が大きいという結果の研究もある

Research Issues

■香港の地方の人々にとって、semi-direct testingのような形式がどのように影響するかの研究はほとんどされてきていない→調査する必要性あり

RQ1: direct testingとsemi-direct testingの2つの方法は、どちらが受験者により受け入れられるのか。

RQ2: どちらかのテスト方法を受験者が好むとき、どのような理由が可能性としてあげられるか。

RQ3: テスト受験者が2つのテスト方法に対してどのような感情的反応を示すか。

■感情的反応→テスト方法における表情、アイコンタクト、のような非口語コミュニケーションも含んだ、人との交流、またそれの欠如などの要素に関わる

■RQ1→アンケート調査

RQ2とRQ3→質問に対しての参加者が書いたコメントの質的なデータ

METHOD

Participants and Procedures

■17の分野から集められた香港の最終学年の大学生186人。

■directとsemi-direct testingの両方を受けた後、2つのテストに対する反応を質問紙、アンケートによって調査する。

Tests Used for the Comparative Study

■direct testing ⇒ the International English Language Testing System (IELTS)

 ・11〜14分間で、試験者と受験者1対1で行われる。

 ・3つのパートによって構成される。

  @なじみのある内容について受験者に試験者が質問する(1〜2分)

  A受験者が、与えられたトピックについて1〜2分で短いプレゼンをし、それに関わる

試験者からの1〜2つの質問に答える

  B試験者と受験者間で、Aのトピックについてディスカッションを行う

■semi-direct testing⇒ the Graduating Students’ Language Proficiency Assessment-English (GSLPA)

 ・マルチメディア言語ラボラトリーで40分間行われ、5つのタスクで構成されている

  @ラジオインタビューの情報を要約し報告する

  A就職面接でされる一連の質問に答える

  B仕事の会議に向かって、資料をもとにプレゼンをする

  C仕事に関係する電話の留守電メッセージを残す

  D香港での生活に関する情報を、新しい留学生に向かって説明する

Questionnaire

■受験者全員が2つのテストに対する反応をアンケートによって調査された。

 以下の2つの質問に対して、strongly agree, agree, not sure, disagree, strongly disagree で回答をしてもらった。

 @GSLPAスピーキングテスト(semi-direct)は、公平に自分の英語のスピーキングレベルを評価することができている。

 AIELTSスピーキングテスト(direct)は、公平に自分の英語のスピーキングレベルを評価することができている。

■2つの質問の信頼性は、α係数で0.75であった。

RESULTS

■アンケートの集計結果

・73.1%の受験者がIELTSを支持している一方、GSLPAを支持する受験者は49.5%に留まった。

■対応ありのt検定の結果

・2つのテストに対する反応、好みに有意差があった。

■質問紙を基にした新しい5つのカテゴリーの集計

(a)IELTSだけ好む、(b)GSLPAだけ好む、(c)両方のテストに肯定的、(d)両方のテストに否定的、(e)どちらのテストにも意見がない

・IELTSだけを好む人の方が、GSLPAだけを好む人よりも多かった。

・40.9%の人が両方のテストに肯定的であった。

・16.7%の受験者がどちらのテストにも肯定的ではなかった。

・(c)(d)(e)3つのカテゴリーを合わせると、約58%の受験者が特定の好みを示さなかった。

■受験者の質問紙に書かれたコメントには、IELTSを好む理由がいくつか書かれていた。

 ・IELTSの方が、人と会話をするので、より自分のスピーキング力を的確に評価できる

 ・ネイティブスピーカーとの会話の方が、コンピュータに録音するよりよい

 ・ジェスチャーやアイコンタクトはスピーキング力を評価するのに重要であるから、GSLPAはあまり役立たない など

■GSLPAを好むコメントも少ないけれども書かれていた。

 ・試験者の表情や反応によっておびやかされることがないので、GSLPAの方がよくできたと感じる

 ・自分はシャイであるから、評価者の前で話すよりもリラックスしてできた など

DISCUSSION

Testing Mode Preference

■参加者の多数(57.6%)が、テスト形式に対して特定の好みを示さなかった。

 →特定の好みを示さない割合が大きいという結果が出た先行研究は、今までになかった

■一方、大多数が、semi-direct testingよりもdirect testingを好む傾向にあった。

 →先行研究によって裏付けられた結果である

■どちらのテストが受験者にとって受け入れられるかという結論を出すには、慎重になるべき→結果には、いろいろな要因(テストの質、動機、文化的背景など)が関わるから

■受験者がどちらのテストも受け入れたという結果

 →semi-direct testの発展に有望な将来の前兆となる

Testing Mode and Test Performance

■より多くの実験的証拠が必要ではあるけれども、多くの受験者がdirect testingに好意的な反応を示した。

→情意フィルターは、受験者のパフォーマンスに影響するため、無視できない効果である

Predictive Validity

■direct testingは、実生活に沿ったコミュニケーションを必要とするので、semi-directよりも予測的妥当性があるといえる

■コンピュータに話す、録音することは、表面的妥当性、構造的妥当性が低い

→2つのテストを評価する上で、重要な要素と考えられるべき

CONCLUDING REMARKS

■semi-directに必要なのは、人と人との現実世界のコミュニケーション力を測ること

■技術の発展が進めば、実生活の人間の交流に近いsemi-direct testを行うことができるかもしれない→画面に向かって受験者の発話に対してその場でやり取りができるテスト等

【考察】

今回、directとsemi-direct testに対するテスト受験者の感情的効果をテーマとした論文を選択した。最近、スピーキング力をコンピュータ等の機器を通して評価するテストが国際的にも増えてきている。実際のところ、directとsemi-directのどちらが受験者にとっては受け入れやすいかということに興味があった。Direct testは、実際のコミュニケーション力を評価するのに、semi-directよりも妥当性が高いと思われるが、効率性、コストパフォーマンスの点を取ると、semi-directの方が優れていると考えられる。

 この実験では、試験者と受験者が1対1で面と向かってテストをするdirect testと、コンピュータに向かって提示されたタスクについて話すsemi-direct testの2つの形式に対する受験者の感情的効果をアンケートとコメントの記入によって調査している。結果としては、direct testを好む受験者が多数を占め、また、テストに対するコメントもdirect testの方が、人と人とのコミュニケーションを見る上で適しているという記述が多かった。しかし一方で、どちらのテストに対しても肯定的意見を持つもの、どちらのテストに対しても特定の好みを持たないものも、大きな割合を占めていた。この結果は、semi-direct testが、今後の改良によっては実践的な面でもdirect testと取って代わる可能性があることを示唆していると考えられる。

 しかし、この論文では、リミテーションに関する記述がほとんどなかった。この論文を読んで気になったことを2点挙げたいと思う。まず、1点目は、テスト時間の長さと内容である。Direct testは11〜14分間、semi-direct testは40分間というかなりの開きが見受けられる。ここまでの開きがあると、ただ単純にテストが長いから、短いからという理由でそのテストに対する態度が変わってくるのではないかと考えられる。また、テスト内容も2つのテストではかなり異なっている。Direct-testはディスカッションや質問に対する応答が主であるのに対して、semi-direct testは内容の要約やプレゼンテーションが主である。これらの要素は、アンケートや質問紙の結果に大きな影響をもたらすのではないのだろうか。長い間テストを受け、長時間話すことは受験者に心理的負担をかけてしまうと思われる。よって、direct testが受験者に好まれた理由には、実践的なコミュニケーションを的確に測っているということだけが起因しているとは、この実験では考えにくい。

 2点目は、テストのパフォーマンスの結果に関して記述がないことである。Direct testの方が、情意フィルターを下げる可能性があると考えられることが指摘されていたが、実際、そのパフォーマンスの結果がどうだったのかがわからないままである。情意フィルターが下がったことで、direct testの方が、semi-direct testよりもテストスコアが良かったのであれば、その点に関してsemi-direct testは改善策を考えていく必要がある。そして、そのようにテストスコアを比べるには、前述したようにテスト内容をもう少し統一する必要があるように思われる。

 以上のことから、direct testよりも効率的であるsemi-direct testを導入し広める必要性があるならば、この実験をさらに改良し、semi-direct testの発展につなげるべきである。


ページトップへ戻る

David D. Qian (2009): Comparing Direct and Semi-Direct Modes for Speaking Assessment: Affective Effects on Test Takers, Language Assessment: Affective Effects on Test Takers, Language Assessment Quarterly, 6:2, 113-125(Y. I)

 

1.   背景

■ここ10年ほどの間にコンピューターテクノロジーの発達により言語能力のあらゆる側面を測定する際、コンピューターが用いられるようになった。テスト会社のようなところでもコンピュータータイプのテストが制作されている。Jones and Maycock(2007)の二人は「コンピューターテストを使用する理由は、すべてが迅速に、効率よく便利に行われるからであり、今までと違うより良いテストを可能にする」とコンピューター使用の必要性を熱烈に支持している。

■多くの国際的な英語能力の熟達度テストもコンピューター化されている。例えば、イギリスのケンブリッジ大学によって所持され開発されているビジネス英語測定のCambridge ESOLはコンピューターとペーパーテストの両方に対処している。またアメリカの世界大手のテスト会社のthe Educational Testing Serviceは数多くの国際的主要なテストをコンピューターベースのテストを開発しており、2005年9月にインターネットをベースにした新世代のテストとして紹介されたTOEFL iBTもその一つである。これによりスピーキング要素のなかった従来のテストと違いコンピュータスクリーンの前で受験者の英語スピーキングの力が測れるようになった。■アメリカ合衆国はどんどんコンピューターベースのテストを開発しており、小・中学校向けのテストもすでに開発されており、コンピューターを使ったインターネットやマルチメディアアを利用した語学の口述テスト能力試験の評価が、最近の語学テスト分野のトレンドとなっている。このように、新しい機器の人気により、コンピューターベースのオーラルの言語テストに関連する問題とその利点を評価する必要性が現われてきた。

 

2.   オーラル試験の形式

■先行研究においては、第二言語のスピーキング力を測るテスト形式として、SOPI( semi-direct testing )がOPI (direct testing ) よりも利点があると示唆された。

(1) SOPIは設備があれば、短時間に多数の受験者に対して実施できる。

(2) SOPIのようなテストによって、試験管が一か所に集まる必要性がなくなり、効率よく経済的に実施できるようになった。

(3) SOPIはOPIより信頼性が高く公平であるとみなされているが、OPIも試験管と受験者間で本物に近いオーラルコミュニケーションを通してかなりの信頼性が得られるという利点がある。

@Indirect testing

  ■受験者の発話なしでもpaper-and-pencilによって発音を評価できるとするLado(1961)の言語テストの初期の時代(Shohamy,1998の言うdiscrete-point era:離散的段階時代)のアプローチは、もはや伝達力重視以前のものとして、時代遅れとみなされている。

 ■テスト作成者が測りたいと思っている受験者のスキルを妥当に正確に測ることができないため、この結果によって受験者を説得することができないこのテスト方式は信頼性に問題がある。

ADirect testing ( Live testing )

   ■Hughes(2003)「我々が正確に測定したいスキルを受験者が実演するとき、テストは直接的でなければならない」

   ■この様式のタスクは、テスト実施者が関心のあるスキルの種類やレベルを正確に反映するテスト結果を引き出すことができるため信頼性が高い。作成者は、受験者がオーラルの能力を実演するテストであれば、できるだけオーセンティックなタスクを盛り込むことができ、受験者は一人またはそれ以上の試験官と顔と顔を合わせやりとりを行う。

  ■Direct oral testing (face-to-face oral proficiency)は、1950年代Proficiency Interview ( OPI )テストとそれに伴う評価が、アメリカ合衆国で導入され、後に他の国々でも同様に広く受け入れられるようになった。

BSemi-direct testing

■この評価法は、かつてはテープを媒体としていたが、現在はコンピューターやインターネットといったテクノロジーを基にしており、現在はコンパクトディスクを媒体として使用することが増えている。受験者は視覚、聴覚による様々なマルチメディアから即座にメッセージを受け取り、受け取ったインプットに基づいた数々のタスクを行う。そしてこの実演がテープ、ディスク、デジタルコンピューターファイル上に録音され、訓練を受けた一人以上の評価者が評価を行う。

 ■熟練度の高い評価専門家を簡単に集められない場合、かなりの費用が見込まれる場合に効率性がよく、コストの節約ができる方法である。同時に短時間で多くの受験者に同一テストを行えるため、一つのテストを用意するだけでテストが実施できる点で費用の大きな節約になる。

 ■このテスト方式では評価者によるインプットにバリエーションはなく、受験者は標準化された指示や入力を促すメッセージを受け取ることができるため、信用性と公平性が高い。

 ■1980年代、ワシントンDCにあるワシントン言語機関の評価者達により開発され、後にSOPI ( Simulated Oral Proficiency Interview ) と名付けられた(Stansfield & Kenyon,1988)。SOPIが導入された当時、合衆国で認知度の低い言語の熟達度を評価するのが主であった。

 

3. 先行研究での発見

■direct testingとsemi-direct testingのテスト結果に基づく妥当性の測定、誘導的タスクの構造や特徴の分析、異なるテスト形式のアウトプットや実際的な会話パターンへの影響、それぞれの利点を決定づける受験者のフィードバックの収集の比較研究が数多く行われてきた。

■2つのテストの統計学的妥当性は、r=0.89-0.95であり、同等の数値が得られた。研究者はこの点では2つのテストは概ね同じであると認識している。

■受験者のアウトプットや評価者の診断からみたテスト構造・タスクデザイン・談話の特徴・相互やりとり・語彙密度を含む受験と評価プロセスの調査から、この2つのテストには非常に大きな違いがあることが明確になった。

■受験者からのフィードバックの研究では複雑な結果が出た。ほとんどの報告では生の、顔を合わせたテストを好む受験者が好まれたが、semi-directやまたはどちらも好むという受験者もかなりいた。

 

4. 研究項目

■先行研究で示されたように、受験者はdirect testingを好むと研究者あ考えているが、ハイテクの急速な発達によりsemi-direct testingの使用が高まり、特にTOEFL iBTが注目されている。このような状況から、テスト開発者は様々な声に耳を傾けるべきである

■香港でのコンピュータベースオーラルテストの反応と2つのテストの感想は知られていない。よってテストを実施する必要性が出てきた。

■RQ1:directとsemi-direct testing ではどちらが受験者に受け入れられるか。

  RQ2:そのテストを選んだ理由は何か。

  RQ3:参加した受験者は、情動的な反応に基づいて2つのテストをどのように認識しているのか。

■affective effect(情動的効果)は受験者がテストを受けている時の感情の反応と定義している。

■このような効果は主に、テスト形式に関わる要因によって引き起こされる。

■Krashen(1985)Affective Filter Hypothesis:情動フィルターの存在や除去は、第二言語または外国語学習者に直接影響を与えている

■語学テストにおいて情動フィルターが作動し、受験者の感情的反応がテスト結果に影響を及ぼすとすれば、異なる形式のオーラルテストは受験者にどのような感情反応を引き起こすのだろうか。

 

5. 方法

被験者と手順

■Hon Kong Polytechnic University 17の学部から243人の4年生のボランティア

テスト後にアンケートを実施し2つのテストの反応と感想について尋ねた。受験者全体%にあたる186名が回答した。

 

比較研究に使用したテスト

■direct testing・・・IELTS(International English Language Testing System)Speaking subtest

 British Council, IDP:IELTSオーストラリア, Cambridge ESOLが開発。11〜14分間

試験官と受験者による1対1のインタビュー形式。3セクションから成る。

セクション1 試験官が尋ねたよく知られている性質について、選択肢から選ぶ

セクション2 与えられたトピックについてプレゼンテーションを行った後、1〜2問の質問に答える

セクション3 セクション2のトピックに関連した試験官と受験者とのディスカッション  

 

■semi-direct testing・・・GLSPA(Gracuating Students’ Language Proficiency Assesment-English)

 Hon Kong Polytechnic University のthe GSLPA Testing Teamが開発。 40分間

 

Task 1 ラジオのインタビューからの情報をレポートし要約

Task2 仕事の面接の一連の質問に対する答え

Task3 ビジネス会議の書類からの情報の読み取りとプレゼン

Task4 仕事に関する電話メッセージの吹き込み

Task5香港を初めて訪れた外国人に香港の生活についての情報を与える

 

6. アンケート

■アンケートはオンラインとハードコピーの両方が受験者に送られ、2つのテストについて受験者の明示的な感想が反映する。

■テスト比較の観点→@内容関連性AテストデザインBテスト形式Cテストの有効性D受験者の好み

■アンケートの妥当性はExpert Panelによって保障された。アルファ妥当性0.75.

■アンケートの予備実験を、参加者にとってすべての項目が語句、意味において適当と保障するために、同レベルの学力の学生30人に対して行った。

■全体の質を向上させるために、2回目の予備実験では項目の質的分析が行われ、A-5 point Likert scaleを用いた2つの項目が選ばれた。

■アンケート記入欄は反対意見の記入を考慮して十分なスペースを取った。

 

7. 結果

■分析はテスト形式の比較に焦点を当て、strongly agree, agree, not sure, disagree, strongly disagreeの5段階のカテゴリーでの回答を求め、受験者が2つのテストのどちらも支持するならば両方支持することができるとした。

■73.1%がIELTSの方が49.5%によって支持されていたGSLPAよりも公平にオーラルの力を測定できると支持した。

■a paired-samples t testの値:t= 5.377, two-tailed

  Wilcoxon Signed Rank Testの値:Z=-5.066, p= .000, two-tailed

この調査での2つのアンケート項目に対する参加者の回答には有意な差があった。

  ■New categories

(a) In favor of the testing mode of IELTS ( direct testing)

(b) In favor of the testing mode of GSLPA ( semi-direct testing)

(c) Positive to both testing modes

(d) Negative to both testing modes

(e) No opinion about either testing mode

■回答者186人中76人(40.9%)は両方のテストを支持。31人(16.7%)が両方を不支持。

 

8. ディスカッション

■多数(57.6%)の受験者がテスト形式に不支持であったが、残りの受験者のほとんどが、semi-direct testingよりもdirect testingを好んだ。この結果は多くの研究者らが関与し『圧倒的多数の受験者がsemi-direct testingよりもdirect testingを好むだろう』と結論づけた結果を裏付けるものとなったと調査したデータから得られた統計的結果に基づいて言える。

■かなりの割合の受験者がテスト形式に対して特別の好みがないことを報告する先行研究は今までになかった。

■今回の調査結果は、多くの受験者がdirectよりsemi-directを好むとしたBrown’s(1987)の発見を否定するものとなった

■受験者の好みは、テストそ自体や受験者の文化・伝統・個性などの影響によるものかもしれないので、テスト形式が受験者に受け入れやすいという点からのみ結論を引き出すことに慎重でなければならない。

■この調査の回答者の多くが両方のテスト形式を受け入れたことに、テストデザイン者は安堵している。この研究結果によってsemi-direct testingのさらなる発達が促され、新しいテストの開発時に建設的な要因が付加されるだろう。

 

9. テスト形式とテストの実施

■テスト形式によって情動要因は受験者に影響をあたえる。受験者が自分が心地よいと感じたテストにおいて評価されるとき、そのテストで能力を発揮する。このことは、実験で立証された証拠を伴って証明されなければならない。

■Krashen(1985):新しい言語の習得時、怒る、緊張する、心配するなどの感情が起きるとインプットのフィルターははずれる。

つまり、もし受験者が何か否定的な気分に影響されているとすれば、情動フィルターはテストで力を発揮することを妨げてしまう。

 

10. 今後の妥当性

■semi-direct testingには十分な妥当性が欠けている。Direct testingと違い人工的要素がテストに持ち込まれるからであるが、今後2つのテストを比較する際に大事な要因としてこの相違点が考慮されるべきである。

 

11. 終わりに

オーラルテストの発展においてコンピューターテクノロジーの出現は画期的でありかつ必要であるが、今回の実験結果は私たちに今まで無視してきた何かを思い出させてくれる。この技術革新は実生活の人間のやりとりを犠牲にしている。現段階では解決は難しいが、将来必ず言語テストの中心をなす課題となるに違いない。

 

考察

・アンケートの項目をたてる場合その質の検証を統計的に行うことに、研究分析の厳しさを感じました。

・スピーキングの評価の基準や有効性については、今後使って覚える英語の授業がさらに推進されると、教室内外でも関心が持たれるトピックではないかと思う。コンピューターを使用するテストよりも、実際に試験官と向き合っておこなうテストを支持する人数が多いことから、述べられている情意フィルターとの関連について実証されればコミュニケーションを測定するよりよいツールの開発がうながされると思われる。

・今回の実験はほぼESL環境の香港で行われたことから、EFL環境の日本で行った場合どのような結果が出るか興味深い。


ページトップへ戻る

Thi Cam Le, N., & Nation, P. (2011). A bilingual vocabulary size test of English for Vietnamese learners. RELC journal, 42(1), 86-99. doi:10.1177/0033688210390264 (T. I)

Abstract
■本論文では、筆記における受容的語彙サイズを測定するためのVocabulary Size Test(以下、VST)のベトナム語と英語の二言語版の開発と妥当性について論じる。
■学習者の合計語彙サイズはVSTの結果に100を掛けて産出し、本研究の結果は以下の3点で語彙サイズテストに関する知識に寄与した。
1. 二言語版VSTは一言語版VSTと同じように上手く機能し、異なる熟達度の学習者の弁別・頻度レベルに伴う点数の低下を確認できた。
2. 全頻度レベルのテスト項目を受験させなければ、学習者の語彙サイズを過剰に低く見積もってしまう事が判明した。この発見は、学習者の語彙の成長が語の頻度と高い関連性を有しているという既存の仮定の限界を示すものである。
3. 二言語版VSTは、学習者にとってより難易度が高く時間も要する一言語版VSTの代わりに用いる事のできる適切な代替テストとして機能した。

Introduction
■学習者の語彙サイズは、言語運用にとって必要不可欠な言語知識の重要な側面と考えられており、その測定は長い歴史を有している。そして、語彙サイズテストは、大きく分けて以下の4点から重要である。
■1点目に、語彙サイズテストの結果は、学習者に適した英語学習プログラム(語彙だけでなくリーディング等も)を決定する基準となる。Hu & Nation (2000)やPaul Nation (2006)の先行研究では、指導者のサポートなしでテキストの内容を理解するために、学習者はテキスト内の98%の語を知っている必要があると論じられており(Table 1参照)、幅広い単純化されていない口語・筆記テキストの運用には、約8,000ワード・ファミリーの獲得が重要である。

■ベトナム国内のベトナム人EFL学習者は、Year 3から12年間英語を学習するが、中学校が始まるYear 6までは英語の学習は必修ではない。また、高等教育開始までは学習プログラムや教材はMinistry of Education and Trainingによって定められているが、その後は学習者の必要性に応じた英語教育が可能である。
・尚、高等教育開始までの非常に制限されたカリキュラムの中でも、個々の学習者の語彙を促進するための柔軟な処置(単語カード,リーディングのテキストの選択,書籍・ウェブサイト形式の補助教材の使用)が取られている。
■2点目に、語彙サイズテストは、ESL/EFL学習者と母語話者の語彙の成長に関する比率を検証するための良いツールである。
■3点目に、学習者が英語に関するスキル(例えば、語彙知識と密接と関連性を有するリーディングやライティング等)に問題を抱えている場合に、語彙サイズテストは有益な診断の基準となる。
■4点目に、因子分析に基づく研究や熟達度に応じた学習者の分類をする上で、語彙サイズテストは有益な研究ツールとなる。
■本研究の目的は、効果的なベトナム語と英語の二言語版VSTの作成及び機能の有効性を示す事である。また、縮小版のテストが効果的かどうかも併せて調査する。

Measuring Vocabulary Size
■一言語版VST及び派生の二言語版は、British National Corpus (Nation & Webb, 2011)から開発された語彙頻度リスト(word frequency lists)を基に作成されており、語彙頻度リストはBauer & Nation (1993)により提唱された語の構築基準(word-building criteria)を基にリスト内の各語のワードファミリーを含んでいる。
■ワードファミリーは、見出し語,屈折形,密接な関連性を有する派生形で構成されており、見出し語は自由形式(=単独で語として成立)で、その見出し語に接辞を付与する事で屈折形・派生形が作られる。
・一例としてAccessという単語は、ワードファミリー全体でBauer & Nation (1993)のLevel 6の基準を満たす8つの単語(Access, Accessed, Accesses, Accessibility, Inaccessibility, Accessible, Accessing, Inaccessible)を有している。
■受容的知識の測定において、学習者が既に見出し語を知っていて、英語の屈折・頻度と生産性の高い派生接辞の知識があれば、屈折形や派生形の意味を推測する事は難しくない。
⇒よって、ワードファミリーに基づくテストは受容的知識の測定には適している(但し、生産的知識の測定には適していない)。

The Vocabulary Size Test
■VST (Nation & Beglar, 2007)は、ESL/EFL学習者の総合的な語彙サイズの測定を目的として設計され、British National Corpusのワードファミリーの頻度による数え方に基づいた14段階の1000語レベルより、各10単語(合計140単語)で構成されている。
■テストは4つの選択肢からなる筆記選択式で、選択肢で用いられている語はテスト項目の語よりも高頻度である。また、各テスト項目の語は特定の文脈を持たずに配置される。
■各テスト項目の語は100ワードファミリーを代表しているので、学習者の点数は100倍され、総合的な語彙サイズが算出される。

Validating the Test
■Belgar (2010)は、Raschモデルを用いて一言語版VSTの妥当性の検証を行い、以下7点の特徴を発見した。
1. 一言語版VSTは、幅広い熟達度の学習者に対して用いる事ができる。
2. 一言語版VSTは、測定が予期される因子を測定すると同時に、他の因子は測定しない。
⇒Beglarの検証では、単一の側面(筆記における受容的語彙知識を予期していた)を明確に測定でき、それ以外の側面はテストに関する言語運用にほとんど影響を与えなかった。
3.一言語版VSTは(上記2の通り)予期した結果を産出できるだけでなく、異なる熟達度の学習者を弁別でき、テスト項目の語の頻度に関連した幅広い難易度を有し、異なるレベルの語彙知識を明確に分類できる事から、長期的な語彙の成長を測定する事も可能である。
4. 一言語版VST は、たとえテストに関する要因が変化しても、一貫性と信頼性を有する結果を産出する事ができる。Beglarの実験では、テスト環境の変化として受験者の性別による言語運用140項目のテストと70項目のテスト,異なる熟達度の学習者の比較を行った結果、Raschモデルでの信頼性が.96であった。
5. 一言語版VSTにおいて、点数付けと点数の解釈は容易である。
6. 一言語版VSTのテスト項目は明瞭であり、曖昧性を有していない。
7. 一言語版VSTを効果的に実施する事も可能であり、(上記4の結果から)必ずしも140項目のテストではなく70項目のテストを実施しても良い。
■まとめると、一言語版VSTは、幅広い頻度レベルをカバーし、注意深く選ばれ検証された多くのテスト項目(この半分でも上手く機能する事を確認済)で構成、更に語彙知識の中の一つの側面を測定できる事から、非常に良く機能した。
■重要なのは、テスト使用者が一言語版VSTによって測定される因子と測定されない因子を把握している事である。一言語版VSTは、筆記における受容的語彙知識を測定する一方で、リスニングの語彙サイズやスピーキングやライティングにおける語彙知識は測定できない。
⇒筆記における受容的語彙知識はリーディングに必要不可欠な語彙知識の側面ではあるが、リーディングのスキルの一要素でしかないので、一言語版VSTではリーディングのスキルを測定する事は不可能である。

The Value of Bilingual Versions of the Test
■一言語版VSTでは、学習者は複雑な文法に関する一定の知識・適度なリーディングのスキルを有している必要がある。
⇒一例として、一言語版VSTでは、関係節や前置詞句等を用いて選択肢が長い事がある。
・marsupial: It is a marsupial.
a. an animal with hard feet
b. a plant that grows for several years
c. a plant with flowers that turn to face the sun
d. an animal with a pocket for babies
■理想的には、語彙サイズテストは可能な限り語彙知識のみに焦点を当てるべきであり、この種の問題を解決する一つの方法が学習者のL1を用いる事である。
・3. marsupial: It is a marsupial.
a. loai ??ng v?t co chan r?t kh?e
b. cay lau nien
c. hoa h??ng d??ng
d. loai thu co tui
■つまり、二言語版VSTは、テストの結果に影響を及ぼす非語彙的な要素を減らした、より正確な語彙サイズテストと言う事ができ、それ故に(特に熟達度の低い)学習者の点数が僅かに上昇するだけでなく、文法知識やリーディングのスキルを除いた語彙知識をより正しく反映する。
・一言語版VST及び二言語版VSTに関しては、以下のウェブサイト( http://www.victoria.ac.nz/lals/staff/paul-nation.aspx )にて使用可能である。

The Development of the Bilingual Test
■二言語版VSTの開発では、各テスト項目に対する4つの英語の選択肢を学習者のL1に翻訳する必要があるが、逐語訳ではなく、選択肢に合ったL1を用いなければならない。
⇒逐語訳を用いてしまうと、学習者に問われるのが語彙知識(テスト項目に関する定義)ではなく、翻訳能力になってしまう。また、基本的に、L1で対象の選択肢に対応する等価の語は存在しない。
■二言語版VST(この場合、ベトナム語と英語の二言語版VST)作成において、まずL1の母語話者(英語とベトナム語の二言語話者)によって翻訳された後、もう一人のL1の母語話者に校正された。翻訳者は、共に英語のベテラン教員である。
■校正の後、二人の翻訳者は共に、翻訳した項目の正確さ,明瞭さ,自然さを検討した。また、翻訳に際して、可能な限り定義の翻訳よりもテスト項目を言い表すような単一の語を当てはめるように試みた。
■テストの目的と点数の解釈に関する説明も同様に翻訳・テストに添付された。更に、テスト開始前に学習者への説明も行った。

Trialling the Bilingual Test
■二言語版VSTは、ベトナム内の2つの大学で、英語専攻のベトナム人3年生62名を対象に実施した。尚、テスト開始前にテストの説明とテストに関する質疑応答を行った。
■学習者達はテストを終えるまで望む限り時間を掛けて良く、最初の翻訳者が試験監督を務めてテストに関する質問に解答した。
■テストの結果は、まず翻訳版VSTの妥当性を検証するために分析された後、以下の2点を確認するために用いられた。

1. Does the test distinguish learners of different proficiency levels?
■語彙知識は言語能力の重要な要素であるため、VSTにおいて、高熟達度の学習者は低熟達度の学習者よりも高い点数を獲得する。
■4年学士コースの2年次2学期のリーディング,ライティング,リスニング翻訳,翻訳理論のテストの平均点に基づき、学習者は等しく3つの熟達度のグループ(高・中・低)に分類された(Table 2参照)。語彙サイズが集計された時点で、学習者は3年であった。

・高熟達度グループ21人(10点中8点以上)
・中熟達度グループ21人(10点中7点以上8点未満)
・低熟達度グループ20人(10点中5点から6点の間)
■以上の点数に基づく熟達度分類において、類似した点数の場合はリーディングの点数で最終的な熟達度の評価を行った。
■Table 3の通り、100倍した各グループの平均点は、6060.00(高熟達度),6509.52(中熟達度),7385.71(低熟達度)であった。

■2回の7段階のVSTにおいて、高熟達度グループは、中熟達度・低熟達度のグループよりも高い点数を獲得していたので、本テストは異なる熟達度の学習者を弁別できていると考えられる。
■しかし、3つのグループ間の標準偏差(=点数のバラつき)は高熟達度グループで最も大きかったので、同様の事が低熟達度グループにも言える可能性がある。3グループ間の差異が統計的に優位である事を検証するため、一元配置の分散分析を行った(Table 4参照)。

その結果、3グループの差異は、VSTの総合的な点数 F (2, 61) = (3.081, p < .05)・最初の7段階のVSTの点数 F (2, 61) = (3.220, p < .05)で互いに有意であった。
⇒2回目のVSTで有意差が出なかった理由としては、2回目のVST の7段階のレベルが全学習者の語彙サイズを大幅に超えていた可能性が推測される。
■3グループの差異を確認するため、事後テストも実施した所、総合点数 (p < .05),1回目のVST (p < .05),2回目のVST (p = .052)全てで、高熟達度グループと低熟達度グループ間の平均点で有意差が見られた一方、高熟達度グループと中熟達度グループ間の平均点では有意差は見られなかった(Table 5参照)。

■語彙知識は外国語の熟達度の中心的要素の一つであり、本テストの結果もその主張を支持するものであった。但し、語彙知識は熟達度を構成する一要素なので、この弁別効果は完全ではない点にも注意が必要である。

2. Do scores drop from one frequency level to the next?
■Read (1988)の先行研究でも述べられている通り、学習者は(高頻度語をよく見聞きするため)低頻度語よりも高頻度語を知っている可能性が高い。 従って、二言語版VSTが上手く機能していれば、同様の結果(=頻度レベルが上がるに連れて、点数が低下する)が示されるはずである。
■Table 6の通り、頻度レベルに伴う点数の低下は概ね一貫しており、1回目の7段階でより高い点数・ 2回目の7段階でより低い点数となった。

⇒Table 6における平均点を最小から最大まで並べたものがTable 7であり、最大平均点はレベル2 (8.69)とレベル1 (8.63)で、レベル4 (6.63),レベル 3 (5.92),レベル5 (5.06),レベル6 (5.03),レベル8 (4.56),レベル7 (3.85),レベル10 (3.76),レベル11 (3.48),レベル14 (3.13),レベル9 (2.76),レベル12 (2.68),レベル13 (2.42)と後続(低下)した。

■頻度レベルと正答数の間には大まかな関連性が見られ、本テストが主として上手く機能している事が示された。尚、頻度レベルに伴う点数の低下が完全には一貫しなかった理由は次節で考察する。

Using the Test
Is it necessary to sit all fourteen levels of the test?
■学習者が全14レベルのテストを受ける必要があるか否かは、総合的なVSTの点数で判断を下す事ができる。本実験では、総合的なVSTの点数(可能な最高得点は14,000点)を用いて、同サイズの4つのグループに学習者を分類した。
■Table 8の通り、全学習者が2回目の7段階の頻度レベルのテスト項目にも(70項目中3項目から46項目の幅で)正答しているため、全14段階の頻度レベルの受験が必要である事が判明した。

⇒140のテスト項目が多すぎる場合は、1回目の頻度レベルのみでテストを構成する(7つのレベル×各10項目=計70項目)よりも、14のレベルから5項目ずつ項目を選んでテストを構成する方が良いとされており、Beglar (2010)の実験では一言語版VSTでは、この70項目の縮小版も140項目の完全版と同等に上手く機能すると報告されている。
■本実験において、全学習者(低熟達度グループも含む)が2回目の頻度レベルの項目にも正答できた・頻度レベルに伴う点数の低下が完全には一貫しなかった理由は、以下の4点が考えられる。
1. 学習者の意味の推測
・但し、VSTは総合的な語彙サイズを測定するための物なので、推測による点数は修正されるべきではない。
2. 英語からの借用語及び同系語の影響
・ベトナム語と英語の二言語版VSTでは、ベトナム語における英語からの借用語が各レベルで見られた。
Level 1: 9. standard
Level 2: 9. microphone; 10. pro
Level 5: 7. miniature
Level 7: 1. olives; 10. yoghurt
Level 8: 5. eclipse
Level 11: 3. yoga
Level 12: 7. caffeine
Level 13: 3. rouble
・これらの外来語は学習者の語彙の重要な側面であり、意味の透明性や学習の負荷の低さの反映でもあるので、VSTで維持されるべきである。
・借用語の他に、学習者が知っている他の外国語との同系語の可能性も考慮されるべきである。但し、二言語版VSTにおいて、同系語の語形を選択肢に用いてはならない。
3. British National Corpusの代表性の限界
・テスト項目のレンジと頻度の基準となっているBritish National Corpusは、ベトナム人EFL学習者の必要性と経験を代表しているとは言えず、必ずしもベトナム人EFL学習者にとっての頻度レベルを表しているとは言えない。
⇒辞書基準の語彙サイズテストの代わりに、頻度レベルを基準とする語彙サイズテストが選ばれたのは、適切な代表性を有しているためである。
4. 不適切なテスト項目
・回答に何らかの影響を与えるような不適切なテスト項目が存在した可能性も存在する。
⇒一言語版VSTは、こうした項目を取り除くために何度も検証が重ねられており、Beglar (2010)ではテスト項目の適切さが報告されている。
・二言語版VSTに関する将来的な研究では、徹底したテスト項目の分析を行い、必要に応じた書き換え・テストの信頼性の検証が有効だと考えられる。
■将来的な研究では、数名の学習者に(テスト受験後に)個別の面談を行なって、どうして低頻度語に正答できたかを質問する事も有益である。また、一言語版VSTと二言語版VSTを(被験者内要因・被験者間要因で)比較して、二言語VSTの点数と学習者の熟達度の測定を検証するべきである。更に、70のテスト項目の縮小版を作成して、140のテスト項目の完全版と同じ結果を産出できるかの確認も重要であろう。
■ベトナム語と英語の二言語版VSTは非常に上手く機能する事が示されたので、将来的な実用化が望まれる。

Links
■本実験で用いた一言語版VSTは、以下のウェブサイトで利用可能である。また、ベトナム語や他の言語での二言語版VSTは、一番目のウェブサイトで利用する事ができる。
・http://www.victoria.ac.nz/lals/staff/paul-nation.aspx
・http://jalt-publications.org/tlt/resources/2007/0707a.pdf
・http://www.lextutor.ca/



Comments
本論文は、11月2日の異文化言語教育評価論で発表した以下の論文(の結果及び発見)を引用した論文である。
Beglar, D. (2010). A Rasch-based validation of the Vocabulary Size Test. Language testing, 27(1), 101-118. doi:10.1177/0265532209340194
まず、この引用部分に関してコメントしていく。引用元のBelgar (2010)では、Raschモデルを用いて、内容的側面(代表性等),本質的側面,構造的側面,一般化可能性,反応性,解釈可能性の6つの観点から一言語版VSTの妥当性を調査している。
Belgarの先行研究を概観した本論文のValidating the Testのまとめ(2点目・3点目の■部分)は、先行研究を良くまとめていると言える。しかし、1点目の■で示した個々の項目の分析では、疑問の余地(発見の拡大解釈の可能性)が1点存在する。Belgarの先行研究の発見3点目で著者は「長期的な語彙の成長を測定する事も可能である(learners’ vocabulary growth over time could be measured)」と断言している。この点はBelgarの

本実験では焦点を個体相互(=個々の協力者の潜在的構成概念の変化方法)の測定に当てたので、将来的なVST研究では長期間での同一の協力者による個体相互の変化を調査するべきだと考えられる。そして、本調査は、学習者の長期間に渡る語彙学習の進歩の測定というテストの本質的価値に繋がる物である(In this study . . . the focus was on interindividual measurement, that is, the way in which the latent construct varied over different persons. In future studies of the Vocabulary Size Test, intraindividual change should be investigated by measuring variation in person measures over time with the same persons. Indeed, the greatest value of the test will likely be in measuring learners’ progress in vocabulary learning over time) (Belgar, 2010, p. 116)

という結論に反しており、結果を拡大解釈した可能性も考えられる。
 また、Belgarの先行研究に関する問題点から、その発見に基づく著者の一言語版VSTに関する前提は幾つかの脆弱性を有する虞がある。特に、異なる熟達度レベルの弁別に関して、Belgarの先行研究では日本人EFL学習者の熟達度別分類が若干不鮮明・母語話者のグループが弁別結果に対して負の影響を及ぼしている可能性も考えられた。従って、熟達度レベルに応じた弁別に関する前提は断定ではなく、「〜と考えられる」程度の説明が適切かもしれない。
 次に、本論文の内容に関して、5点コメントしていく。1点目に(これは本論文の結果に直接は関係ないかもしれないが)著者はベトナム国内のEFL教育における柔軟さについて述べており、Ministry of Education and Trainingにカリキュラムを指定されている高等教育以前の英語教育でも、個々の学習者の必要性・語彙促進のための柔軟な処置として単語カード,リーディングのテキストの選択,書籍・ウェブサイト形式の補助教材の使用が取られている事を挙げている。しかし、クラスでの授業の中で、これらの個々の学習者に応じた処置がどの程度取られているのか。また、限られた授業時間の中で、メインの学習内容との兼ね合いはどうなっているのか。上手くカリキュラムに組み込む事、ましてや一般的事実として述べる事は非常に難しいと考える。
 2点目に、本実験の熟達度に基づく分類では、2年次2学期のリーディング,ライティング,リスニング翻訳,翻訳理論のテストの結果を用いているが、実験時には協力者は3年生になっている。少なく見積もっても4ヶ月前後(場合によっては半年程)の期間が空いており、基準とした過去の点数と協力者の実験時点での知識・スキル(特に、語彙サイズや著者が述べている「推測」に関する能力)に乖離が生じていないかどうかが気になる点である。例えば、望月,上村,笠原,相澤(2011)では、熟達度の分類の参考にするテストと語彙サイズ等を測定するテストを同時・短期間で行なっていたはずである(※)。
3点目に、本実験のVSTにおいて「学習者達はテストを終えるまで望む限り時間を掛けて良く(The learners were told to spend as much time on the test as they wished until they finished it)」となっているが、将来的な研究では、時間制限を設けなかった事による影響も(例えば、時間制限を設けて同様の手順で二言語版VSTの実施と比較した上で)検証されるべきだと考える。時間制限を設けなかった事で、テスト項目の意味の推測を促進した可能性等も予想される。
 四点目に、一言語版VSTと異なる点かもしれないが、借用語や同系語、意味の推測も是(=学習者の語彙知識の重要な一側面として、総合的な語彙サイズに含む)とする考え方がVSTの点数に何らかのバイアスを与えていないかの調査も必要だと考える。意味の推測は一言語版VSTでも行われている可能性があるが、例えば本論文で引用しているBelgar (2010)の先行研究では、借用語の影響は将来的な研究では考慮すべき点としている。ベトナム語においても幅広い頻度レベルに借用語が分散していると報告されていたが、英語からの借用語が多い日本語と英語の二言語版VSTでは更に分散する可能性も考えられ、もしそうだとしたら、日本人EFL学習者の一言語版VSTと二言語版VSTの結果は大きく異なるかもしれない。
 最後に、一言語版VSTでもBritish National Corpusの代表性は完全ではないとされているので、二言語版VSTに関しては更にその傾向は強いと思われる。また、不適切なテスト項目に関しても、VSTを含む一言語版の語彙サイズテストが改良を重ねて来た歴史を考慮すると、作成されたばかりの二言語版VSTに存在する可能性は高い。従って、著者も述べている通り、この二点は今後の二言語版VSTについての研究で改良されていくべき重要な点だと考える。

※下記の参考文献の通り、望月,上村,笠原,相澤(2011)の詳細は、現時点では福岡の西南大学で開催されたJACET全国大会での口頭発表のみで述べられており、4つのテストが全てそうだったと明言する事はできない。しかし、少なくとも望月・笠原の2名に関しては、熟達度の分類の参考にするテストと語彙サイズ等を測定するテストを同時・短期間で行なっていたと記憶している。

参考文献
Beglar, D. (2010). A Rasch-based validation of the Vocabulary Size Test. Language testing, 27(1), 101-118. doi:10.1177/0265532209340194
望月正道,上村俊彦,笠原究,相澤一美(2011).『多次元的語彙テストの新たな試み』[PowerPoint Slides]

ページトップへ戻る