![]() |
2020年度 英語教育学Ⅶ |
Chapter 10
Testing Speaking
R.R & M.K
Introduction
Assumptions about teaching speaking:
Comprehension is given attention in
addition to production to successfully interact in the target language.
Informal observation, rather than formal
testing, is necessary in the early stages of learning.
Problems related to testing speaking:
1.
We want to set tasks that form
a representative sample of the population of speaking tasks that we expect
candidates to be able to perform.
2.
The tasks should elicit
behavior which truly represents the candidates’ ability.
3.
The samples of behavior can and
will be scored validly and reliably.
Representative
Tasks
Functions or skills related to speaking:
Cambridge English B2 First, lists these functions together with other specifications
including, types of text, addressees, and topics. Dialect, accent and style are
not specified.
A more in-depth categorization of skills
based on Bygate (1978) separated the skills into three categories:
·
Informational skills
Provide personal information, narrate, give
instructions, apologize, etc.
·
Interactional skills
Express purpose, elicit opinions, modify
statements or comments, indicate uncertainty, etc.
·
Skills in managing interactions
Initiate interactions, change the topic,
come to a decision, end an interaction, etc.
Points to consider
Dividing the skills with a higher degree of
specificity aids in creating tasks to better elicit samples of the desired
skills.
“The greater the detail in the
specification of content, the more valid the test is likely to be.”
Include a
representative sample of the specified content when setting tasks
In the materials from a Cambridge
English B2 First test, we can consider how well the tasks elicit the test
specifications:
We can easily anticipate the functions from
the test specifications because it effectively includes representative samples
such as “Good morning/afternoon/evening. My name is…”
The test also includes a script of
interlocutor/candidate interactions. This promotes reliability and fairness
while improving the control interlocutors have over the content of each task.
These prompts need to be checked and
trialed well to ensure they effectively elicit desired responses.
The lack of flexibility might hinder
participants from performing at their best. Balance between tight scripts and
flexibility is necessary “so that every candidate is given an equal opportunity
to show what they can do.”
Focusing on the “why” behind the question
rather than the word for word question itself is crucial.
Elicit a valid
sample of speaking ability
Choose appropriate techniques
1. Interview
The most common format for testing.
Outcomes can be affected by the power
dynamic between the tester and the candidate. It’s important for the tester to
actively create a less formal atmosphere to increase the candidate’s
initiative.
Due to the nature of this format, only one
style of speech is represented. To increase the presence of a variety of
functions, the tester must introduce a variety of elicitation techniques in the
interview.
Such techniques, including points to note,
are:
·
Questions and requests for
information
-Avoid yes/no questions
·
Requests for elaboration
·
Appearing not to understand
-Helps to test the candidate’s
ability to cope with being misunderstood.
·
Invitation to ask questions
·
Interruption
·
Abrupt change of topic
·
Pictures
-Helps elicit narration or
discussion
·
Role play
-While it can
elicit a variety of skills, it is an explicit reminder to the fact that the
candidates are being tested, and is difficult for less confident candidates to
perform, thus reducing the validity of the task.
·
Interpreting
-Can test production and
comprehension.
·
Prepared monologue
-Candidates are
more likely to memorize monologues, making this task a better technique for
courses where making a presentation is an objective, rather than a way to test
the candidate’s speaking ability.
·
Reading aloud
-Reading aloud
is best used for assessing pronunciation or for lower-level students. It’s not
the best indicator of a candidate’s speaking ability.
2. Interaction with fellow candidates
Reduces the power dynamic but can cause
problems if candidates dominate the task. Thus, it’s best to limit interactions
to pairs and carefully match the candidates as much as possible.
Techniques used in this format are:
·
Discussion
·
Role play
-More natural in this context than in interviews, but still might
not be the best choice of testing
technique.
3. Responses to audio- or video-recorded
stimuli
Increases reliability through the
uniformity of testing procedures across all candidates and semi-direct format.
Is economical by testing multiple candidates at the same time. But is
inflexible.
Techniques used in this format are:
·
Described situations
·
Remarks in isolation to respond
to
·
Simulated conversation
-Written
information is provided to the candidate so that they can participate in a
simulated conversation with the prerecording.
Reading
Activities
Activity A
1.
Visit the Trinity College
website and familiarize yourself with the performance descriptors for the Graded
Examination in Spoken English (GESE).
Grades 1-3 (According GESE Guide for
Teachers)
Performance Descriptors
·
understand what is said
clearly, slowly, and directly in simple everyday conversation with support
·
communicate in basic and
routine tasks requiring a simple and direct exchange of information on familiar
and routine matters
·
use basic sentence patterns and
communicate through simple phrases, groups of a few words and formulae about
themselves and other people, what they do, places and possessions
·
ask and answer simple questions
about personal information and everyday life
Exam Format
1.
Greetings and setting at ease
(not assessed)
2.
Conversation (assessed)
3.
End of conversation and
leave-taking (not assessed)
Grades 4-6 (According GESE Guide for
Teachers)
Performance Descriptors
·
understand the main points of
clear speech on familiar matters
·
enter into conversation,
express personal opinions and exchange information on familiar subjects of
personal interest or related to everyday life
·
demonstrate a sufficient range
of language to describe experiences and events and give reasons and
explanations for opinions and plans
Exam Format
1.
Greetings and setting at ease
(not assessed)
2.
Topic discussion (assessed)
3.
Conversation task (assessed)
4.
End of conversation and
leave-taking (not assessed)
Grades 7-9 (According GESE Guide for
Teachers)
Performance Descriptors
·
understand complex and extended
speech used in the discussion of reasonably familiar subjects
·
communicate with some
spontaneity and engage in extended conversation by giving clear descriptions
and expressing and explaining views on most general subjects
·
initiate, maintain and end the
discourse with effective tun-taking
·
demonstrate a sufficient range
of language to produce stretches of discourse, using some complex sentence
forms and without much searching for words, while correcting most of his or her
mistakes
Exam Format
1.
Greetings and setting at ease
(not assessed)
2.
Candidate-led discussion of a
prepared topic (assessed)
3.
Interactive phase (assessed)
4.
Conversation on two subject
areas (assessed)
5.
End of conversation and
leave-taking (assessed)
Grades 10-12 (According GESE Guide for
Teachers)
Performance Descriptors
·
understand arguments,
inferences, changes in register and emphasis in extended, complex and sometimes
unstructured speech, even when delivered at fast native speed
·
express themselves
spontaneously, very fluently and precisely, differentiating finer shades of
meaning
·
control the direction of a
spoken interaction and maintain its flow with ease, relating skillfully to the
contributions of the listener
·
exploit a comprehensive and
reliable mastery of a very wide range of complex language structures,
vocabulary and language functions
·
produce speech at word,
sentence and discourse level which rarely deviates from an internationally intelligible
model
Exam Format
1.
Greetings and setting at ease
(not assessed)
2.
Formal topic presentation task
(assessed)
3.
Discussion of topic
presentation task (assessed)
4.
Interactive task (assessed)
5.
Listening task (assessed)
6.
Conversation task (assessed)
7.
End of conversation and
leave-taking (not assessed)
2.
Now watch the sample GESE
videos on the same website and assign a grade (A-D) to each candidate.
Assessment
A-
Distinction (reflects an
excellent performance)
B-
Merit (reflects a good
performance)
C-
Pass (reflects a satisfactory
performance)
D-
Fail (reflects an
unsatisfactory performance)
Grades 1-3
Michail (1) A
Dhatri
(2) A
Rosita (3) B
Grades 4-6
Alessia (4) Topic Phase: C Conversation Phase: C
Immacolata
(5) Topic Phase: C Conversation Phase: C
Antonella
(6) Topic Phase: C Conversation Phase: C
Grades 7-9
Andrea (7) Topic Phase: B Interactive Phase: B Conversation Phase: B
Radoslav
(8) Topic Phase: A Interactive Phase: A Conversation Phase: B
Paolo
(9) Topic Phase: C Interactive Phase: A Conversation Phase: B
Grades 10-12
Havisha (10)
Formal Topic Presentation Phase: C Discussion Phase: B Interactive Phase: B
Listening Phase: B Conversation Phase: B
Saprina (11)
Formal Topic Presentation Phase: D Discussion Phase: C Interactive Phase: C
Listening Phase: A Conversation Phase: B
Jakub (12)
Formal Topic Presentation Phase: B Discussion Phase: A Interactive Phase: A
Listening Phase: C Conversation Phase: A
3.
Look at the ‘Marks and
Rationale’ document and compare the designated grades with those that you gave
the candidates. What do you notice?
Grades 1-3
Michail (1) A
Dhatri
(2) A
Rosita (3) B
·
At the low level, it’s easy to
recognize the difference between an A and a B grade. Rosita paused a lot but
was able to express herself. While the youth participants, Michail and Dhatri
were able to fluently express themselves and perform a variety of tasks.
Grades 4-6
Alessia (4) Topic Phase: C Conversation Phase: C
Immacolata
(5) Topic Phase: C Conversation Phase: C
Antonella
(6) Topic Phase: D Conversation Phase: C
·
I had assumed that Antonella
had passed all the phases of the test but was surprised to see she received a D
in the topic phase. The assessment combines both letter scores which will
denote whether the candidate passes or not. I was surprised that a candidate
could pass with a C and a D.
Grades 7-9
Andrea (7) Topic Phase: B Interactive Phase: B Conversation Phase: B
Radoslav
(8) Topic Phase: B Interactive Phase: A Conversation Phase: B
Paolo
(9) Topic Phase: C Interactive Phase: A Conversation Phase: B
Grades 10-12
Havisha (10)
Formal Topic Presentation Phase: C Discussion Phase: B Interactive Phase: B
Listening Phase: C Conversation Phase: A
Saprina (11)
Formal Topic Presentation Phase: D Discussion Phase: C Interactive Phase: D
Listening Phase: A Conversation Phase: B
Jakub (12)
Formal Topic Presentation Phase: B Discussion Phase: A Interactive Phase: A
Listening Phase: C Conversation Phase: A
·
Higher levels are a bit harder
to assess at a glance. Some candidates such as Saprina seem to speak smoothly,
but she was failed because her topic wasn’t complex enough to demonstrate her
level. Taking into account aspects such as hesitancy and repeated comments also
gave her a lower score than I originally anticipated. Havisha on the other hand
was able to perform the tasks well but was held back a little by her
pronunciation and lack of inviting questions.
Discussion
Questions
1.
Have you ever taken a speaking
test? What kinds of techniques have you experienced?
スピーキングテストを受けたことがありますか?どのような技術を経験しましたか?
2.
Which of these techniques do
you feel is the most natural (most likely to occur in actuality)? Which do you
feel is the least natural (less likely to occur or a misrepresentation of
“real” speech)?
これらの技術のうち、最も自然(実際に起こりそう)と感じるのはどれですか?どれが一番不自然(実際には起こりなさそう、または実際のスピーチを誤って表現している)だと感じますか?
Chapter 10
Testing Speaking
(後半)
自動採点
■現在では、スピーキングを採点するためにコンピューターが使用されることがある。
■スピーキング自動採点することの利点として、実用的(迅速、経済的)で、信頼性もあることが挙げられる。
■しかし、テストの目的が、クラス分けのためなど、スピーキング能力の大まかな推定値を得るためだけのものである場合を除き、その有効性には疑問があるとされている。(➡DP4)
スピーキングテストの実施に関する実践的なアドバイス
テストの計画と構成を慎重に行う
1. スピーキングテストの時間をできるだけ長くする。
■15分以内では信頼できる情報を得ることはできないが、30分あればほとんどの目的に必要な情報を得ることができる。
■しかし、クラス分けテストの一環として、生徒をクラスに割り当てる際には、5分または10分で十分である。
2. テストの計画を慎重に立てる。
■テストを行う際に、流れを設定してから始める必要がある。
3. 受験者にできるだけ多くの”fresh starts”を与える。
①可能であれば、複数のフォーマットを使用すべき。(1つのtテストだけでは正確に測定難しい)
②可能であれば、受験者が複数の試験官と対話することが望ましい。
③一つのテストの中には、できるだけ多くの質問項目を用意すべき。特に、受験者が発言に困っている場合、1つの項目に多くの時間を費やすべきではない。その一方で、受験者が言いたいことを別の言葉で表現しようと再挑戦することを妨げてはいけない。
4. テストは、2人以上の試験官を同席させる。
■面接を行い、受験者のパフォーマンスを把握するのは難しいため、2人目の試験官で評価するのがよい。
5. 受験者が自分の言語で苦労しないと思われる課題やトピックのみを設定する。
■優秀な生徒がディベートやプレゼンテーションなどの課題に苦戦することはよくある。これは、自信のなさや興味関心など、言語以外の問題が原因であることが多い。
6. テストは、音響の良い静かな部屋で行う必要がある。
7. 受験者が安心して、自分の能力を発揮できるようにする。
■個人のスピーキングテストは、受験者にとって特にストレスのかかるものである。
■受験者の発言に関心を持ち、言語的・非言語的手がかりを用いて、終始楽しく安心感を与えることが重要である。
■特に、テストの初期段階では、すべての受験者が無理なく参加できるようにすることが重要である。例えば、テストでは、個人的なことを尋ねたり、天気について発言したりすることから始める。
■試験官は、受験者が評価を受けていることを常に思い出させないようにする。
■テストは、受験者が安心できるレベルで終了させ、達成感を持ってもらうようにする。
8. 十分な関連情報を収集する。
■テストの目的が、受験者がある決められたレベルで能力を発揮できるかどうかを判断することであるならば、最初に簡単な導入を行った後、そのレベルでテストを実施するべき。受験者が明らかに答えられず、基準レベルに達する可能性がないことが明らかになった場合はそれ以上テストしても何も得られないので、終了させるべき。
■一方、テストの目的が受験者のレベルを見ることである場合、面接官は初期の回答に基づいてこのレベルを推測することから始めなければならない。その後、そのレベルでテストを行い、確証を得るか、最初の推測が不正確であることを明らかにする。後者の場合は、受験者のレベルが明確になるまで、レベルを上げたり下げたりする。
9. 喋りすぎないようにする。
■面接官が話しすぎて、受験者に十分な話す時間を与えられないこともある。受験者が誤解していることを長々と説明したり、何度も説明したりするようなことは避ける。
10. 面接官を慎重に選び、訓練する。
■面接官には、人の気持ちに寄り添うことができ、柔軟性があり、言語能力にも優れていることが求められる。しかし、適任者であってもトレーニングが必要である。
スピーキング評価尺度
■スピーキングテストの例として、アメリカのFSI(Foreign Service Institute)のテストでは、2人の試験官が受験者を全体的にレベル分けするとともに、アクセント、文法、語彙、流暢さ、理解力のそれぞれについて6段階で評価することになっている。そして、これらの評価を合計しスコアを出す。その結果得られたスコアは、スコアをレベルに変換する表で調べられる。
使用する尺度の校正
■スピーキング尺度の校正は、ライティング尺度の場合とほぼ同じ手順で行われる。
■違いは、ビデオ録画を使用すること。
納得のいくスコアリング手順を踏むこと
■スコアリング手順は前章のライティングの場合と同様であるが、強いて言うなら、受験者の言語能力の評価とは関係のない個人的な資質を無視するように細心の注意を払わなければならないということ。
■筆者によると、髪色を派手に染めた若い女性の能力を評価者が著しく過小評価したという場面を見たようだ。スピーキングテストでは、感じの良さや自信のなさ、あるいは服装の好みなどを言語能力から切り離すことは難しいかもしれないが、切り離して評価する努力は必要である。
結論
■スピーキング能力を正確に測定することは容易ではない。有効で信頼性の高い結果を得るためには、トレーニングを含め、かなりの時間と努力が必要である。
■スピーキングテストで使用される内容、評価尺度のレベル、聞き出し技術の適切性は、個々の機関や組織のニーズに依存する。
Reader
Activities
Activity B
1. For a group of students that you are
familiar with, prepare a holistic rating scale (five bands) appropriate to
their range of ability. From your knowledge of the students, place each of them
on this scale.
2. Choose three methods of elicitation (for
example, role ploy, group discussion, interview). Design a test in which each
of these methods is used for five to ten minutes.
3. Administer the test to a sample of the
students you first had in mind.
4. Note problems in administration and
scoring. How would you avoid them?
5. For each student who takes the test,
compare scores on the different tasks. Do different scores represent real
differences of ability between tasks? How do the scores compare with your
original ratings of the students?
1.2.3. テスト&評価の実施
日本人高校生3年生8名を対象とした。
評価尺度は、本章のPROFICIENCY DESCRIPTIONSを使用
授業内で、4人でグループになり、5分程度、英語ディスカッションを行ってもらった(評価していることは伝えていない)。
➡評価結果2(4人), 2+(3人), 3(1人)
4. テストの実施や採点における問題点をどのようにして回避するのか?
①評価されていると意識すると、「文法とか間違えて悪い評価付けられるなら黙っておこう」と思い話さない生徒がいる
➡ディスカッション中にテストをしていると思わせないようにする。
➡必ず話さなければいけない状況をつくる(ディスカッションでは発言の回数を設定するとか)
②採点者(評価者)が数名いないと正確な評価ができない
➡教員全員がネイティブ並みであるわけではないので、発音はネイティブに、文法や理解度は日本人教員に、など分担をするとよいと思った。→ 現実的に可能かは?
③PROFICIENCY DESCRIPTIONSだと、ディスカッションにあまり参加せず態度が悪くても、文法が正確だったり幅広い語彙を使ったりしていればスコアは高くなる。そして、ディスカッションに意欲的に取り組んで発言回数も多いのに、文法ミスが多かったり、流暢性が欠けていたりすると、スコアは低くなってしまう。スピーキングの評価としてはそれでよいかもしれないが、授業の評価の際は、このスコアだけを使用することは問題であると感じた。
➡ただ単にスピーキングの能力を測るだけなら上記の評価表でよいが、授業評価に含めるスピーキングの評価をすることが多いので、その際は、(テスト形式にもよるが)、Attitudeを加えてもいいのではないか。
5. テストを受けた各生徒について,異なる課題の得点を比較した結果は?
➡ロールプレイとインタビューは実施できなかったので確認はできなかった。
しかし、現場の先生によると、ディスカッション形式インタビュー形式では、生徒のパフォーマンスが変わるとのこと。ディスカッション形式では、そもそもおとなしい生徒や、自分の意見をあまり持っていない生徒だと、英語力があってもあまり話さないので、正確な評価ができない。一方で、インタビュー形式なら、一人ひとりに質問内容を柔軟に変えられるし、全員に平等に話す機会が与えられるので、スピーキング能力を正確に測れる可能性が高い。
➡タスク形式によって同じ生徒(同じ英語力)でもスコア(評価)が変わる可能性はある。
ディスカッションポイント
3. Nowadays, English is used as Lingua
Franca. As a result, there are more non-native English speakers than native
English speakers in the world.
Do you agree or disagree with the
inclusion of “pronunciation” in speaking assessments?
(今日では、英語はリンガフランカ(国際共用語)として使われる。そのため、世界で英語を話す人は、ネイティブよりも非ネイティブの方が多いといわれている。
そのような中で、スピーキング評価に「発音」の項目を取り入れることに賛成ですか?反対ですか?)
4. What do you think are the advantages
and disadvantages of automatic scoring for speaking?
(スピーキングの自動採点のメリットとデメリットは何だと思いますか?)