![]() |
2017年度 異文化言語教育評価論 |
Zhou, Y. (2015). Computer-delivered or face-to-face: effects
of delivery mode on the testing of second language speaking. Language
Testing in Asia, 5(1), 2.
■コンピュータを使用したスピーキング評価が増えてきているが,対話者が存在しないことがスピーキングテストにおけるパフォーマンスに与える影響が懸念される。
■そこで,本研究ではスピーキングテストのパフォーマンスにおけるdelivery modeの違い (computer vs. face-to-face)を検証した。
■Research
Questions (RQs)は以下の通り。
1.
delivery
modeの違い (computer vs.
face-to-face)によって,受験者に割り当てられた得点に違いがあるか?
2.
delivery
modeの違い (computer vs.
face-to-face)によって,潜在する因子構造に違いがあるか?
■日本人大学生61人,高校生18人の合計79名が参加した。
■narrative
taskとopinion taskが用いられた。モノローグタイプのtaskには,reading-aloud, sentence repetition,
information transfer, oral presentation の4種類が存在し (O’Sullivan, 2008),が存在し,対話者とのinteractionのない,個人の長い談話を引き出すことが可能である。
■本研究ではface-to-face条件とも比較を行うため,face-to-face条件では行われないreading-aloudと sentence repetitionの2つのtaskタイプは除外した。
■computer-delivered
tasksにはGTEC for Studentsが用いられた。narrative
taskには4枚の絵からなる簡単なstoryの描写を1枚1分で行なった。opinion
taskでは,1つのグラフが与えられ,それについて2分以内で意見を言うものであった。Video promptではアメリカ人女性の指示と簡単なFeedback (e.g.,
very good) が与えられた。
■narrative
taskには2分間,opinion taskでは3分間の準備時間がそれぞれ与えられた。
■face-to-face
tasksの内容と形式は,computer-delivered tasksと同じであり,中国語を母語とする筆者が行なった。またpromptとfeedbackも同様に与えられ,制限時間と準備時間も同じであった。
■また,以下の3つの理由から言語によるfeedbackは最小限に抑えた。まず,narrative taskとopinion taskはモノローグであること。2つめに,taskの信頼性に関係する問題においてインタビュアーの言語的反応は潜在的な変数であること。最後に,先行研究との一貫性である
(O’Loughlin, 2001)。
■A群 (n =41) は,session 1でcomputer-delivered tasksを行い,続くsession2でface-to-face tasksを行なった。
■B群はsession 1でface-to-face tasksを行い,続くsession2でcomputer-delivered tasksを行なった。
■各sessionの間は7日から10日であった。また,同じ内容のtaskを繰り返し行うことは参加者には知らせなかった。
■GTEC for
STUDENTS認定評価者である5人のNSEにより採点された。1人の受験者に対し2人の評価者が文法,語彙,流暢さ,発音の4つの観点を1から4までで採点し,その平均点が与えられた。
■評価の一貫性を示すために,ピアソンの相関係数と評価一致率の2種類の指標が産出され,
■ピアソンの相関係数では, computer-delivered tasksで .52 から .75 をとり, face-to-face tasksでは .60 から .74 であった。一致率においてはexact agreement では49.4%から72.2%,そしてadjacent agreement では26.6%から40.5%であった。 face-to-face
tasks においては,exact agreementが
54.4%が68.4%,adjacent agreement が29.1%から45.6%であった。
■満足のいかない一致率は採点を行うペアが多様であったことが理由だと考えられる。
■スコアの比較の前に,delivery
modeを被験者内要因,test orderを被験者間要因とし,それぞれMANOVAを行なった。従属変数は文法,語彙,流暢さ,発音の4つ。
■まず,narrative
taskにおける分析の前提条件を確認した。まず,サンプルサイズが異なるのでBoxのM検定が行われ,等分散性が確認された。
■4つのrating scaleにおけるMauchleyの球面性検定が有意であったため,後の1変量ANOVAでは,自由度がGreenhouse-Geisserテストの値に調整された。
■Repeated
measures MANOVAの結果,modeの主効果e
(F(74, 4) = 5.91, p < .05, η2 = .24),modeとorderの交互作用(F(74, 4) = 3.01, p < .05, η2
= .14)が有意であった。
■単純主効果は発音においてのみ有意であったが,modeとorderの交互作用は語彙(F(77,
1) = 7.58, p < .05, η2 = .09),流暢さ(F(77, 1) = 7.02, p
< .05, η2 = .08),発音(F(77, 1) = 6.59, p < .05, η2
= .08)において有意であった。Interaction effect (Cohen, 1977)は中程度であった。
■opinion
taskにおいても当分賛成が確認されたが,球面性が仮定できなかったため,後の1変量ANOVAでは自由度がGreenhouse-Geisserテストの値に調整された。
■MANOVAの結果,modeの主効果(F(74, 4) =
11.66, p < .05, η2 = .39),modeとorderの交互作用が有意であった(F(74, 4) = 4.51, p < .05, η2 = .20)。
■1変量ANOVAの結果,文法,語彙,流暢さにおいて単純主効果が優位であった。また,各rating elementのmodeとorderの相互作用も有意であり,文法 (F(77, 1) = 10.38, p < .05, η2 = .12),
語彙(F(77, 1) = 6.52,
p < .05, η2 = .08), 流暢さ (F(77, 1) = 12.94,
p < .05, η2 = .14), 発音 (F(77, 1) = 7.08,
p < .05, η2 = .09)であった。Interaction effect (Cohen, 1977)は中から大であった。
■異なるmodeのcarryover効果が観察されたため,Vispoel
et al. (2001)に従い,Session
1のデータのみを用いてmode間のスコアを比較する。1元配置の多変量分散分析がnarrative taskとopinion taskそれぞれに行われた。delivery modeが被験者間要因,従属変数は4つのrating scaleとした。
■MANOVAにおける仮定条件はBoxのM検定,レビンの検定の結果より確認された。Mauchleyの球面性検定が有意であったため,F値とp値はGreenhouse-Geisserの補正によって調整された。
■検定の結果,有意差はなく,delivery modeによる違いは見られなかった。
■delivery
modeによって測定している構成要素が異なるかを調査するために4つのrating scaleに対して探索的因子分析を行なった。
■データは平均値を引き,中心化された値を用いた。よって平均は0である。
■変数は全部で16(4つのscale×2種類のタスク×2つのmode)あった。
■サンプル数は最低でも変数の5倍以上
(Field, 2005) 必要である。本研究の参加者hあ79人であるため,この条件を満たしている。
■EFAの仮定が確認された。尖度と歪度は-2から2の間であったことから,正規性から逸脱している変数はなかった。変数間のピアソンの相関係数は.56から.84の間であり,多重共線性の問題はなかった。また,外れ値も存在しなかった。
■バリマックス回転による主成分分析の結果,固有値が1以上の主成分は1つであり,この要因が分散の71.12%を説明していた。
■また因子負荷量は.78から.88であり,2種類のdelivery modeで行われたタスクの変数は,同程度に主要な1つの因子に起因していると考えられる。
■これらの結果は,computer-delivered
monologic tasksの結果はface-to-face
monologic tasksのスコアを推測するために用いることができることを示唆している。さらに,潜在する因子構造も同様であることから,computer-delivered
monologic tasksの結果はface-to-face
monologic tasksの結果と同様に解釈ができることが示唆された。
Nakatsuhara, F., Inoue, C., Berry, V., &
Galaczi, E. (2017). Exploring the use of video-conferencing technology in the
assessment of spoken language: a mixed-methods study. Language
Assessment Quarterly, 14(1), 1-18.
■本研究は,スピーキングテストのdelivery modeの違い (computer vs. face-to-face)が,test takerとexaminerの振る舞いにどのように影響するかを比較したものである。
■RQsは以下の通り。
1. Test takerのスコアに統計的有意差はあるか
2. アウトプット,特に言語機能に違いはあるか
3. テスト管理者が自身の振る舞いに違いがあると認識するか
4. 採点について何か違いがあるか
■ロンドン大学のIELTS準備コースを受講している32人の学生が参加した。IELTSのスコアは5.0から8.5だった。
■参加者はcomputer と face-to-faceのテスト を両方受験した。Topicは2つのバージョンが用意され,カウンターバランスが取られた。Research designは以下の通り。
■テスト は11から14分で行われ,Part 1?Introduction and interview (4?5 minutes);
Part 2?Test-taker long turn (3?4 minutes), and Part 3?Examiner and test-taker
discussion (4?5 minutes)で構成されていた。また試験官は4人だった。
■評価は文法,語彙,流暢さ,発音の4つの観点から採点された。
■Delivery modeによるテストスコアへの影響を比較するために,2つの得点に対して対応ありのt検定,2種類(4相(受験者の能力,採点者,テストのバージョン,モード,スケール)と5相受験者の能力,採点者,テストのバージョン,スケール))の多相ラッシュ分析を行なった。
■言語機能分析には O’Sullivan et
al. (2002)の30の機能から構成されるチェックリストを修正したものを用いてコーディングし,カイ2乗検定が行われた。
■また,モードによる評価者の振る舞いに関するノート,コメントを用いて主題分析が行われた。
■2つのDelivery modeの観点ごとの点数と合計スコアに対応ありのt検定をおこなった結果,全てのスコアにおいて有意差は見られなかった。
■多相ラッシュモデルの結果,face-tofaceにおける語彙(わずかに過剰適合,Infit Mnsq = 1.33)以外の全ての要素のinfit値は基準値内におさまっていた。
■評価者にmisfitがないことから,4人の評価者の評価は一貫性のないものではな買ったことがわかった。
■また4相で行なった分析において8つの分析項目にmisfitがなかったことから,一次元性が確認され,delivery modeが異なる2つのテストは同じ構成概念を測定していることがわかった。
■5相で行われたラッシュ分析のモードの相から,computerを用いたテストの方がわずかに難しかったが,カイ2乗検定の結果,2つのモードの違いによる難易度の差はなかった(χ2 = 1.8, p = .19)。
■言語機能分析では,asking
for clarification, comparing, suggesting, asking for clarificationの4つにおいて出現頻度に有意差があった。また,有意差はテスト内のpart 1とpart 3において見られた。Part 2はTest-taker long turnであり,やりとりが少なかったことが原因だと思われる。
■インタビュアーのノートから,自身の振る舞いについて以下のことがdelivery modeのよって異なると考えていると言うことがわかった。
■反応の役割と頻度
■発話の速度と発音の明瞭さ
■イントネーション
■ジェスチャーの使用
■順番交代における問題
■明確化要求
■しかしながら,面接官の主観的な印象とは異なり,発話機能分析における「質問」の頻度にmode間での統計的な有意差はなかった。
■また,computerを通したスピーキングテストの改善点としてあげられたのが次の項目である。
■映像の遅延
■音質
■指示の統制
■採点については,音質が原因で採点の一貫性に自信が無くなることがインタビュー結果からわかった。
■Computerを用いてのテストでは発音と文法に関するコメントが多く,流暢さに関するコメントはなかった。
【総合考察】
今回扱った2つの論文はどちらもスピーキングテストにおけるcomputerとface to faceというdelivery modeの違いに焦点を当てた研究である。1つ目の論文では,モノローグタスクにおいて対話者の存在がスピーキングパフォーマンスに与える影響を検証したものである。多変量分散分析と探索的因子分析の結果からcomputerとface to faceというdelivery modeの違いはスピーキングパフォーマンスの違いに影響を与えず,同じ高背概念を測定していると結論づけられている。2つ目の論文では,ダイアログタスクにおいてコンピューターを媒介としていることで,スピーキングパフォーマンスにどのような影響を与えるかを検証したものである。t検定,多相ラッシュ分析,機能分析,コメントとインタビューによる質的な分析の結果,2つのmodeでスコアは似た結果になるが,産出される言語機能が異なること,computerで行う上での課題が明らかとなった。Practicalityの観点から,スピーキングテストがコンピュータ条で行えることは大きな利点だろう。
この2つの研究では特点の比較を行なった上で,それらの結果を裏付けるためのエビデンスの示し方が異なっている。1つ目の研究では,探索的因子分析を行なっているのに対し,2つ目の研究では混合研究法の研究デザインが採用されており,質的研究にが行われている。しかしながら,以下の点には疑問が残る。まず1つ目の研究において,computerとface
to faceのmodeの違いはスピーキングパフォーマンスには影響しないと結論付けられているが,これは柳瀬 (2011)とは異なる結果である。柳瀬の研究と本研究の違いはジェスチャーの違いである。本研究ではface to faceの際に面接官のジェスチャーの使用は制限されていた。これは,対面コミュニケーションという状況がジェスチャー頻度を上げるという柳瀬の主張を考慮すると,やや不自然である。Practicalityの観点から,スピーキングテストをComputerで実施できることは大きな利点であるが,比較をする際にface to face条件に不自然さを要し,行動の制限を与えてしまうことは研究においてデメリットとなると考える。本研究のlimitationでも述べられているが,一般化には注意が必要である。2つ目の研究においては,統計的には,同じ構成概念を測定していることになっているが,本当にそうなのかは疑問である。実際に,言語機能分析ではタスクのinteraction性が高いと産出される言語機能が2つのmodeで異なっていた。これは,求められる言語形式やターンのデザインが異なっている可能性が十分にあり,さらなる研究の余地があると考える。それに加え,limitationにも書かれているが,同一面接官がテストを繰り返し行なっているため,質問デザイン等が変化している可能性がある(Kasper, 2013)。評価者は面接を繰り返し行う中で,受け手が理解しやすい質問形式になるよう細く調整していく事例もあるように (Okada, 2016),面接官側の変化を考慮する必要があるだろう。
上記したように,computerを用いるためのエビデンスとして,統計的に変わりがないことを示すことは大切である。しかしながら,スピーキング,特にやりとりのようにinteraction性の高いものに関しては数値には現れない部分での平等性を確保する必要があると考える。
参考文献
柳瀬 (2011). 「英語スピーキングテストにおける対話者の存在がスピーチパフォーマンスに与える影
響」. STEP BULLETIN, vol. 23, 81-93.
Kasper,
G. (2013). Managing task uptake in oral proficiency interviews. In Assessing
second language
pragmatics (pp. 258-287). Palgrave Macmillan,
London.
Okada,
Y. (2016). Explicating the Development of Interactional Competence: The Method
and Value of
Longitudinal Conversation Analysis
(Japanese Title: 相互行為能力の発達を解き明かす:
縦断的会
話分析の方法と意義). IEICE ESS
Fundamentals Review, 9, 304-317.