ABOUT/CONTACT

SEMINAR

SLAA
（Second Language Acquisition & Assessment Research Group）

FOR STUDENTS

TEASY

LINK

2017年度　　異文化言語教育評価論

0.　はじめに

本レポートでは対面式のスピーキングテストとオンラインのスピーキングテストの違いに関連する2つの文献を概観し、分析手法を中心に考察をしている。

1.　Qian (2009). Comparing direct and semi-direct modes for speaking assessment: Affective effects on test takers. ※章番号は筆者加筆

1.1　本研究の目的

本研究では、スピーキングの評価方法として、Direct Mode (DM) とSemi-Direct Mode (SDM) のどちらをテスト受験者が好むかを検証している。DMはテストが受験者と評価者が直接対峙して行われるテスト形式のことを意味し、SDMは受験者と評価者は対峙せず、評価は録音したものなどを聞いて行われるテスト形式を意味する。リサーチクエスチョンは以下の通り。

1. DMとSDMはどちらがテスト受験者に受け入れられるか。

2. テスト受験者が特定のテスト形式を選んだ理由は何か。

3. テスト受験者はDMとSDMについて情意面でどのような認識をしているか。

1.2　手法

対象者は香港の大学4年生243人で、DM、SDMのテストを受け、そのあとにアンケートでそれらのテストの認識について記入してもらう。なお、アンケートに回答したのは全体の77％の186人である。テストに関して、DMはIELTS、SDMはGSLPAを利用する。IELTSは3つのパートから成る1対1のインタビュー形式のテストで所要時間は11～14分程である。GSLPAはコンピュータで行い、5つのタスクから成る約40分のテストである。

アンケートは紙とオンラインで配布し、内容は「GSLPA speaking testのテスト形式は自分の口語英語のレベルを正しく評価できている。」、「IELTS speaking testは自分の口語英語のレベルを正しく評価できている。」の2項目からなり、5段階で評価する。

1.3　結果・考察

IELTSがスピーキング能力を適切に評価していると答えている人は73.1％であるのに対してGSLPAがスピーキング能力を適切に評価していると答えた人は49.5％であった (Table 2参照)。この差をt検定 (t＝5.377, p＝.000) とウィルコクソンの符号順位検定 (Z = -5.066, p = .000) で検証したところ、有意であることが示された (Table 3参照)。

このことから、リサーチクエスチョン1に関して、DMとSDMの二つのテスト形式を比較するとDMの方がテスト受験者に支持されていることが分かる。しかしながら、全体の40.9％は両者によい印象を持っていることや16.7％は両者を支持していないということに注意が必要である (Table 4参照)。

また、リサーチクエスチョン2、3については、アンケートのコメントを答えとして示す。DMを支持するアンケートのコメントとしては、「機械と話すよりネイティブスピーカーと話す方が良い。」、「テスト中に良い雰囲気を作り出してくれてよりよいパフォーマンスができる。」「評価者との相互交流ができる。」などが挙げられていて、DMの特徴でもある「話し相手が人間である」という点を理由に挙げているものが多かった。中には、SDMを批判するコメントもあり、「GSLPAは試験官との相互交流がないので嫌いである。」や「ジェスチャーやアイコンタクトを測定することができないので、GSLPAはあまり有用ではない。」などが挙げられていた。

一方でSDMを擁護するコメントもあり、「GSLPAは評価者との相互行為がない方がリラックスできてよかった。」や「すぐにレスポンスが返ってくるので良い。」のようなものあることから、どちらのテストを好むかは個人差があるということが分かる。

2.　Kiddle & Kormos (2011). The effect of mode of response on a semidirect test of oral proficiency. ※章番号は筆者加筆

2.1 本研究の目的

　本研究では、テストパフォーマンスやテスト受験者のテストへの認識に、モードの違いが与える影響を検証するため、間接的なオンラインのスピーキングテストと直接的な対面式のスピーキングテストを比較している。リサーチクエスチョンは以下の通り。

1.　モードはsemidirect computer-assisted testとface-to-face testのパフォーマンスにどのような影響を与えるのか

2.　administration, fairness, 目的への適合性という観点での、テスト受験者の2つのモードへの認識はどうなるか。

2.2　手法

　42人のチリ人大学生が本研究に参加した。英語教育の授業を取っている学生で、英語の熟達度は比較的高く、CEFRではB1からC1レベルである。

協力者はオンラインのスピーキングテストと対面式のスピーキングテストの2種類のスピーキングテストを受けた。なお、協力者がテストを受ける順番はカウンターバランスが取られた。

オンラインのテストは、タスクが3種類あり、協力者はあるビデオを見て、そのビデオ内容に関するトピックについて話す。対面式のスピーキングテストでは、タスクの内容はオンラインのものと同じだが、協力者は面接官に向かって話す。面接官は質問することは許されず、非言語的な反応 (表情、相づち、アイコンタクトなど) のみが許された。協力者の発話は両手テストで録音された。

テストを受けた後、協力者はアンケートに答えた。アンケートの主なトピックは面接官の有無やテストのパフォーマンスなどに関するもので、全26項目から成り、5段階で評価された (1: 全くそう思わない、5: 強くそう思う)。

採点者は2名で1日の評価者トレーニングを受け、サンプルの音声について採点の協議を行っている。音声は6つのbandに評価され、各領域はCEFRのA1 ~ C2に対応している。

テストのモードが、テストのスコアやテスト受験者の認識に与える影響を検証するため、t検定と相関分析が行われた。今回はテストが3つあるため、ボンフェローニ法を採用している。また、サンプルサイズが少ない多面、第2種の過誤を避けるため有意水準はp < .01とする。

また、採点基準に基づいたband-scoreがモード間でどのように異なるかを分析するため、多層ラッシュ測定が使用された。採点基準やモードはFACET programを用いてモデル化された。3つのファセットは受験者、モード、テストのスコアで構成されている。協力者の人数が少ないため、本研究では採点の厳しさなどはモデルには含まれていない。

2.3　結果

　まず初めに、評価者間信頼性を算出した。その結果、オンラインのテストではCronbach α = .84で対面式のテストの場合はCronbach α = .85であった。次に、テストを受けた順番が結果に影響を与えていないかを調べるため、対面式のテストを最初に受けた受験者のテストの平均値と2回目に受けた受験者のテストの平均値をt検定で分析し、両グループ間に有意な差がないことが示された、t (40) = 0.738, p = .472。同様にオンラインのテスト結果に対してt検定が行われたが、両グループに有意な差は見られなかった、t (40) = 1.571, p = .125。これらの結果から、テストを受けた順番はテストの得点に影響を与えていないということが示された。

　Table 1は両テストの記述統計、t検定、相関分析の結果である。両テストの平均値はほぼ同じような値になっているが、わずかに対面式のテストの得点が高くなっている。Band-scoreは3,4,5の学生がほとんどであった。

t検定の結果、2つの各タスクの平均値には有意な差が見られず、全てのスコアで強い相関がみられた。一方でBand-scoreについては2つのテスト間で67％の受験者しか同じbandを与えられておらず、対面式のテストの方がオンラインのテストよりも21％の受験者が高いBand-scoreを取り、12％の受験者が低いBand-scoreを取っていた。

　各採点基準については、Grammar and vocabularyとFluency and deliveryは対面式のテストの方が、わずかに得点が高かったが、有意な差ではなかった。Pronunciationは対面式のテストの方が有意にオンラインのテストよりも得点が高かったが、効果量は小さかった (Cohen’s d = .28)。Grammar and vocabularyでは強い相関関係が示されたが、Task achievementの決定係数 (r² = .53) を見ると47%の変数を両テストは共有しておらず、低いということが分かる。

　モードがBand-scoreに与える影響を検証するため、多層ラッシュ測定を使用した。Band-scoreは6段階で評価されたのだが、受験者が4つのband内にしか入らなかったため、ラッシュ分析には4段階のスケールしか含まれていない。Figure 1がその結果で、受験者能力、モードの影響、採点基準に関するロジットスケール上の違いを示している。この結果より、1より小さいロジットスコアの違いが2つのテストの間にはあり、χ²検定の結果、モードの違いはテストの難易度に影響を与えていないことが示された、χ (1) = 3.0, p = .08。Table 2はinfit mean-squareを示しており、協力者の得点はモデルに適合していることが示された。また、separation index (= .72) やseparation reliability (=.45) が低いことは、モードがテストの得点に有意な影響を与えていないということを示している。

　各テストの認識についてのアンケートは、対面式のテストの方がCronbach α = ..75で、オンラインのテストがCronbach α = .73だった。Table 3は各項目とt検定の結果である。

t検定の結果から、いくつかの項目に対する受験者の反応は、モード間で有意に異なるということが示された。最も重要な違いは、受験者がfairnessの観点で異なる評価をしている点だ。両テストでほぼ同様の能力を発揮しているのにもかかわらず、受験者は対面式のテストに高い評価をつけており、効果量も大きかった (Cohen’s d = .78)。clarityの観点では、両テストに有意な差はなかったが、response-timeについてはオンラインのテストの方が受験者は十分な時間を与えられたと感じていた。また、興味深いことに、プランニングの時間は受験者の自由であったのにもかかわらず、対面式のテストの方が好まれていた。

2.4　考察と結論

　リサーチクエスチョン1について、ほとんどの得点で2つのテスト間には有意な差が見られず、両者の間に強い相関関係が見られたため、モードの違いは受験者のスピーキングのパフォーマンスには大きな影響を与えないということが示された。また、ラッシュモデルにおいてもモードの違いはテストの難易度に影響を与えていないということが示されている。ただ、発音に関しては対面式のテストの方が有意に高く評価されているということには注意すべき点である。

　受験者のテストに対する認識については、両テストとも公正であり、準備時間は十分にあったと評価された。しかし、2つのテストに対する認識を比較すると、いくつかの違いが見られた。公正さについて違いが見られたのは、受験者がオンラインのテストと対面式のテストが完全に同等のものだとは認められなかったということを示している。このような結果は、他の先行研究でも示されている (Luoma, 1997; Dean, 2008)。

これらの結果から、多少の違いはあるものの、本研究で行ったスピーキングテストをオンラインで行っても対面式のテストと同等の評価をできるということが示された。ただ、本研究では参加者が42人と少なく、幅の広い熟達度を対象に検証ができなかったという限界点があるため、今後の研究で改善していく必要である。

3.　全体の考察

　本レポートでまとめた2本の文献は、研究の目的が類似しており、どちらも対面式のスピーキングテストとオンラインのスピーキングテストに対する、受験者の認識の違いを検証している。そしてこの目的に関して、両文献ともアンケートを受験者にとっており、その結果をt検定で検証している。結果はどちらの文献でも対面式のテストの方が好まれるというものであったが、1本目の文献であるQian (2009) が有意差にしか触れていないのに対し、2本目の文献のKiddle and Kormos (2011) は効果量の大きさにまで言及しており、詳細に分析されているといえる。加えて、Kiddle and Kormosで実施されたアンケートの方が項目に含まれている観点が多く、より多面的に両テストへの認識に違いが検証されている。この他にも、Kiddle and Kormosではテストを受ける順番のカウンターバランスが取られていたり、順番による影響がないことがt検定によって検証されていたりとかなり丁寧に分析が行われているような印象を受けた。

　また、Qian (2009) はテストに対する認識の違いを中心に分析したのに対し、Kiddle and Kormos (2011) では、実際の受験者の得点を、多層ラッシュ測定を用いて分析をしている。多層ラッシュ測定を用いることで、受験者能力やテストの難易度、得点などを同一尺度上で推定することが可能になり、より詳細に両テストにおける受験者のパフォーマンスの違いを検証している。

加えて、Kiddle and Kormosでは各テストのパフォーマンスをt検定でも比較しており、効果量は小さいながらも発音の項目で有意な差が示された。このような結果が生じた原因の1つとしては、「評定者バイアス」の存在が考えられる。英語音声評価においては、習熟している評定者であっても、協力者の音声能力と評価項目において、評定の際にバイアスが存在し、評定者バイアスは従来型の評価者トレーニングでは取り除くのは難しいということが先行研究で示されている (Yoshida, Inoue, Imai, Ueda, & Otsuka, 2006)。このように音声評価、特に発音については一貫した評価が難しいため、評価に僅かな差が出てしまった可能性が考えられる。

　今回取り扱った文献では両者とも帰無仮説による検証が行われていたが、近年では、平均間の差について理論をもとに階層構造の仮説を立て、分析しながら仮説を改善していくというベイズ分析が用いられている研究も増えている。このベイズ分析では、不要な帰無仮説の検証を避けることができるだけでなく、多重比較における誤りや平均値の複雑な比較なども避けることができるため、今後の研究では取り入れていく必要があると考えられる。

4.　参考文献

Kiddle, T., & Kormos, J. (2011). The effect of mode of response on a semidirect test of oral proficiency. Language Assessment Quarterly, 8, 342?360.

Qian, D. D. (2009). Comparing direct and semi-direct modes for speaking assessment: Affective effects on test takers. Language Assessment Quarterly, 6, 113?125.

Yoshida, H., Inoue, K., Imai, Y., Ueda, H., & Otsuka, T. (2006). Investigating rater bias in measuring English pronunciation: A FACETS analysis. JACET Bulletin, 43, 73?85.