Iimura, H(2011). The Influence of Test Format on Performance: Focusing on the Presentation of Questions and Answer Options in Multiple-choice Listening Tests. ARELE, 22, 361-376.

 

1.   Introduction

n  多肢選択式(MC)リスニングテストは、本文(text)、質問文(question)、選択肢(options)の3構成で成る。本論文ではそれらの表示形式とタイミングの2点からテスト形式に変化を付けて実験を行った。

n  質問文や選択肢があらかじめ印刷されているようなテスト形式の場合、受験者のリスニング能力だけではなくリーディング能力も試している事になるためテストの妥当性に欠けるという指摘があることからも、テスト形式が受験者の能力測定にどのように影響しているかを確かめる必要性は高い。

n  また、テスト形式以外の要因がリスニング理解に関係をしているということが明らかであるため、今回はテスト項目の特性についても調査を行う。

 

2.   Background

2.1   The Effects of Question Preview on Listening Comprehension

n  Berne(1995)によると、質問文を事前に提示することは他のpre-listening活動よりもリスニング理解に効果があるということが言われている。

n  一方、Buck(1991)Sherman(1997)らは、受験者の熟達度などにも触れながら、質問文を事前に提示することがリスニング理解の向上に寄与するとは必ずしもいえないとしている。

2.2   The Effects of Question Preview on MC Listening Tests

n  Iimura(2010)の研究などにより、本文が読まれる前に質問文と選択肢が提示されているテスト形式が最も容易であるということが明らかとされたが、熟達度などの関係から全員の受験者が提示された情報の全てを利用していた訳ではないことも判明した。

2.3   The Relationship Between Item Difficulty and Characteristics of MC Listening Tests

n  Kostinの枠組み(2004)によると、MCリスニングテストの難易度に影響する変数は(a)word-level  (b)sentence-level (c)discourse-level (d)task-processingの4つに分類される。(a)~(c)は、リスニング理解の難易度と関連のある言語的特性をもつ、本文そのものに関する変数であり、(d)は本文とテスト項目それぞれの特徴の相互作用を含む、質問文や選択肢に関する変数である。

 

3.   Study1

3.1 Research Questions

RQ1:テスト形式はMCリスニングテストの成績に影響を及ぼすのか。

RQ2:テスト形式のどの特徴がMCリスニングテストの成績に影響を与えたのか。

3.2 Participants

n  専攻が多岐にわたる日本人大学生219名を対象に実験を行った。

3.3 Design

n  質問文と選択肢の提示形式、タイミングを変えた4つのテスト形式を準備した。(Table1参照)

n  協力者を無作為に4つのグループに分け、テスト形式を割り振って実験を行った。実験の設問(EI)の前に、4つのテスト形式を網羅した設問(CI)を用意して協力者のリスニング能力を測った。(Table2参照)

3.4 Materials

n  英検のリスニング試験問題(3~準1)を使用した。問題は全て、2人の会話(3095)を聞いてそれぞれ4つの選択肢から1つ解答を選ぶというものである。

3.5 Procedure

n  本文、質問文、選択肢の音声は1度のみ再生された。聞き取り中にノートをとっても良い。

3.6 Results & Discussion

n  各グループのEIの平均点を比較したところ、質問文が音声で提示されたBDグループよりも、文字で提示されたACグループの方がよい成績となることが分かった。このことから、MCリスニングテストにおいては、質問文の提示形式がテストの成績に影響を与えているといえる。

n  今回の研究では、選択肢の提示形式や質問文・選択肢提示のタイミングはテストの成績とあまり関係がないといえる。これらの理由としては使用した選択肢の形式や設問項目の特性があげられた。

 

4.   Study2

4.1 Research Questions

RQ1: テスト項目のどのような特性がMCリスニングテスト項目の難易度と関係しているか。

RQ2: それらの項目はテスト形式によって異なるのか。

4.2 Selection of Characteristics of Test Items

n  Kostin(2004)の枠組みに従い、13MCテスト項目の特性を変数としてword-levelsentence-leveldiscourse-leveltask-processingの4つに分類した。

4.3 Date Analysis

n  まず研究者らによってそれぞれの変数項目を分析し、主観的な判断を要する項目についてはSLAを専攻とする博士学生によって再分析して信頼性を高める。

n  13の変数とそれぞれの項目の難しさについて相関係数を用いて分析する。

4.4 Results & Discussion

n  分析の結果、本文そのものに関する変数のうち低頻度語数、語彙の多様性、単語親密度、文法複雑度、文の長さ、話者の役割がテストの難易度に関係している変数であることが明らかとなった。特に語彙の多様性と文法複雑度はテスト形式に関わらず難易度に関係がある。

n  質問文が音声で提示されるテスト形式においては、必要情報位置と質問の明白さが、質問文が文字で提示される形式では本文と正解選択肢との語彙の重なりが特に関係している変数であるとされた。

 

5.   Conclusion

n  本研究では、MCリスニングテストにおける質問文と選択肢の提示方法とそのタイミングが回答者の成績にどのような影響を与えるかを調査した。

n  実験結果より、質問文が音声ではなく文字で事前に提示される場合に受験者は最もよい成績になるということが分かった。これは、日本人EFL学習者のリーディングとリスニング頻度の不均衡(Hirai,2010)が影響した結果だと考えられる。

n  また、テスト形式を問わず、本文に関する6つの変数がテスト項目の難易度に関係しており、テスト形式によっては質問文や選択肢に関する3つの変数がその難易度に関係している。

n  今後は、テスト形式の種類や作成方法、マテリアルなどの範囲を広げた更なる研究が必要である。


Iimura, H(2014). Attractiveness of Distractors in Multiple-Choice Listening Tests. JLTA journal, 17, 19-39.

 

1.   Introduction

n  多肢選択式(MC)テストは、妥当性や効率などの点から到達度を測る大規模なテストとして広く実施されている一方、回答者の当て推量を許してしまっていることなどの限界点も指摘されている。

n  よいMCテストを作成するためには誤答選択肢の役割が重要になる。誤答選択肢は、これまで弁別性と解答頻度の2つの観点から評価されてきた。(Fulcher,2010)

n  これまでの先行研究の多くは、解答頻度を基準として誤答選択肢についての分析を行ってきたが、MCテストの性質上、解答頻度の低い誤答選択肢は価値が低いと一様に言うことはできない。

n  そのため、本研究では解答頻度という観点とは別に、回答者の選んだ選択肢やその他の選択肢に対する理解と自信度を調査することで誤答選択肢についての分析を行う。

 

2.   Study Aims

     受験者の自信度について正解選択肢と誤答選択肢の比較を行う。

② 受験者の自信度と解答頻度の観点から誤答選択肢の引きつけやすさを比較する。

 

3.   Method

3.1  Participants

n  日本の私立大学に通う大学生75名を対象に実験を行った。

3.2  Materials

3.2.1 Listening Test

n  TOEIC preparation book(Educational Testing Service,2010)に掲載されている15問のリスニングテストをマテリアルとして用いた。選択肢の数はそれぞれ3つである。

n  受験者に十分な解答時間を与えるため、付属のCD音声を編集して選択肢間及び設問間の間合いを数秒伸ばしたものを使用した。

3.2.2 Questionnaire

n  各選択肢に対する受験者の理解を測るために、以下の様な質問紙を使用した。(Figure1.参照)

3.3 Procedure

n  リスニングテストはそれぞれのクラス担任によって以下の通りに実施された。(Figure2.参照)

 

3.4 Analysis

3.4.1 Listening Test

n  クロンバックのα信頼係数、点双列相関などを用いて統計的な分析を行った。

3.4.2 Questionnaire

3.4.2.1 Confidence Level(Keys)

n  受験者の正解選択肢に対する自信度を元に7段階に分けて点数化した。

3.4.2.2 Distractor’s attractiveness

n  受験者の誤答選択肢に対する自信度を元に7段階に分けて引きつけやすさの指標とした。

 

4. Results and Discussion

4.1 Test Taker’s Listening Proficiency

n  リスニングテストの平均点は15点中9.15点であった。統計学的にも、このテストの難易度と信頼性は妥当であると判断された。この点数を元に受験者は熟達度別の3つのグループに分けられた。

4.2 Comparison of Distractors With Keys

n  グループの熟達度が高いほど正解選択肢に対する自信度が高く、一方でグループの熟達度が低いほど誤答選択肢に引きつけられやすいということが結果から明らかになった。

n  受験者の熟達度が高いほど、メタ認知的なストラテジーを利用してリスニング理解を進めることができるということが先行研究で明らかにされていることから、今回の結果が裏付けられる。

4.3 Comparison Between Attractiveness and Frequency in Distractors

n  統計処理の結果、今回のテストで用いた問題の誤答選択肢の弁別性は十分であると分析された。

n  誤答選択肢の引きつけやすさと解答頻度の関係を調べるため、熟達度も考慮に入れて分析を行った。

n  分析の結果、15問中9問において誤答選択肢間の引きつけやすさに差はないとされたことから、解答頻度は常に誤答選択肢の引きつけやすさの指標となっているわけではないということが明らかとなった。

n  しかし、誤答選択肢の価値付けについては従来の方法だけではなく、test-takingプロセスの性質なども考慮に入れる必要があると考えられ、まだ研究の余地があるといえる。

 

5. Conclusion

n  本研究では、MCリスニングテストにおけるそれぞれの選択肢に対する受験者の自信度を測るという従来の研究とは異なる方法を用いて実験を行った。

n  その結果、誤答選択肢の引きつけやすさと解答頻度の相互関係は特に見られないことが明らかとなったことから、これまでの先行研究の結果は不十分であると指摘できる。

n  また、受験者の熟達度と誤答選択肢への引きつけられやすさ、正解選択肢に対する自信度は関係があることも明らかとなった。

n  ただし、サンプル数が少なかったことやテスト問題の数やタスクの種類、選択肢の数が限定されてしまったこと、受験者の熟達度の幅が比較的狭かったことなどが限界点としてあげられるため、今後より良いMCリスニングテストを作成するためにも更なる研究が必要である。

 

 

YI

<考察>

n  実際に実施されているリスニングテストのテスト形式はほとんどが多肢選択型である。他の形式である場合はライティング力と統合したテストなどがあげられるため、純粋にリスニング力を測るのであれば多肢選択型のテストが最も利点が大きいと思う。しかし、論文中でもあげられているように、質問文や選択肢などが文字として提示されている場合、受験者はリーディング力も求められるためリスニングテストとしての妥当性は劣る。そのため、本文、質問文、選択肢がすべて音声で提示されるテスト形式が最も好ましいものであると考える。

n  そのため実際の学校教育においても、期末試験などでリスニングテストを実施する場合は全てを音声で提示する形式で行うことで、生徒の全体的なリスニング力の向上を目指すことができると考える。また、多くのテストは質問文や選択肢の一方が、あるいは両方が文字として提示されている形式であり音声で提示する形式はあまり多くはないため、学校のテストであえて実施することで生徒はその形式に慣れ、どのような形式で出題されてもよいテストパフォーマンスをすることができるようになっていくのではないか。

n  また、多肢選択型テスト作成に関する一番の留意点は誤答選択肢の設定であると思う。取り上げたIimura(2014)の論文でも述べられていたが、テスト受験者が迷ってしまうような誤答選択肢を用意することで、受験者の理解の程度をより詳しく測定することができるため、誤答選択肢の役割は大きい。また、熟達度との関係も指摘されていることから、リスニングテストの点数だけでなく、誤答選択肢も受験者の熟達度を測る指標になりうるのではないかと感じた。

n  リスニングテストのテスト形式や誤答選択肢の設定法など理想とされるものは多いが、それを実現するとなると、作成者である教師にかかる負担が大きくなってしまうということが、そもそもリスニングテストが学校教育であまり行われない原因の1つであるのではないかと感じた。この点については、ALTの先生の協力やリスニングテスト教材を参考にすることなどで負担を減らすことができるが、実用性・妥当性・信頼性が高いリスニングテスト作成をするにはどうすればよいかということは今後の課題となるだろう。

n  Hirai(2010)でも指摘されている通り、同じインプットの能力でもリーディングに比べてリスニングの機会はかなり少ないと感じる。そのため、その傾向を助長しないためにも学校教育においてリスニング能力の育成、評価する機会をより積極的に設けていくとよいのではないだろうか。

n  疑問点として、リスニングテストの形式について、聞き取り中にメモを取ることができるかという条件が受験者のテストパフォーマンスにどのように影響するのかということがあげられる。また、タスクの種類について、本文は会話を聞くものであるのか、説明文や物語文を聞くものであるのか、回答形式については当てはまる文を選ぶのか、図や表を選ぶのかなど多くの種類があるが、センター試験などのようにそれら多くの形式を取り入れてタスクに多様性を持たせることは受験者のリスニング力を測ることにどのような効果があるのかということも疑問点の1つとして残った。

n  また、多肢選択型テストはリスニングテストだけではなくリーディングテストや語彙・文法のテストなどでも用いられる形式であるため、それぞれに対する受験者の能力を正確に測定できるようなより効果の高いテストを作成するためにも、多肢選択型テストについての研究は今後も重要であると考えた。