Hirai. A., Ito. N., & O’ki. T. (2011) 『Applicability of peer assessment for classroom oral performance』 JLTA(Japan Language Testing Association) Journal,14, 41-59

Abstract
生徒の評価は授業内で行う試験における実用的な手段である。この研究では、それがスピーキング活動に対しどれほど適しているかを調べるために日本人の生徒による生徒間評価が教師による評価との間にどの程度対応関係を持つのかを以下のように調査する。
(a)評価者は匿名
(b)評価の前に生徒がスピーキング活動の評価を議論する
生徒と教師は生徒のスピーキング活動(物語文の再話タスク)を評価する。そのあとそれらの評価を比較する。その結果、以下の結果が得られた。
(1)評価者の匿名性が保証されている場合、生徒と教師の評価にはかなりの対応関係が見られた
(2)2人一組で行った評価では生徒と教師の評価の間の対応関係は大きくならなかった
以上より、生徒の評価が成績をつけるうえで真っ当な手段であるかどうかについては疑問が残る結果となった。
Key Word: peer assessment, oral performance, prior discussion, anonymity

Introduction
英語コミュニケーション能力育成についての日本人英語教師の関心が高まるにつれて、コミュニケーションの一環としてスピーキング能力に特に注意が向けられるようになった。しかし、スピーキング能力について扱うのには時間がかかる。負担を軽くして授業時間をより効果的に使うために、教師は生徒による生徒間評価という手法を使うことを検討することがある。
Saito(2008)によれば、生徒間評価の特徴と利点は
生徒間評価は教師による評価と密接な対応関係を持つとされること
生徒間評価では生徒が自身の学習を反映することができること
生徒が積極的に参加しやすいこと
評価によって生徒が”shared responsibility”の考え方を育むこと
であるとされる。これらの生徒間評価の利点は想定されるとはいえ、決定性に欠けておりさらなる調査が求められる(とりわけ上記(1)について)。そこで当研究では「生徒間評価は教師による評価に代替できるほどの充分な信頼性を持つのか」を調査することを目的とする。
生徒間評価という手段はふつう大きなテストで用いられることは想定されていないが、生徒間評価の点数が評定目的として使用されるであろうその程度によっては、生徒間評価は最終的な成績に影響を与えることがあるかもしれない。したがって、教師は生徒間評価の性質と、生徒間評価が持つ教師による評価に対する代替可能性を理解しなければならない。

Issues of Peer Assessment
生徒が行う評価の有用性については、何本かの研究が「生徒間評価と教師による評価の間の対応関係(以下「対応関係」)が高いため生徒間評価が教師による評価と同じくらいの信頼性を持つとされており、スピーキング活動において教師による評価は生徒間評価に代替されうる(e.g., AlFalley, 2004; Campbell, Mothersbaugh, Brammer, & Taylor, 2001; Fukazawa, 2009; Hughes & Large, 1993; Langan et al, 2008; & Ng,1994)」と示している。しかしながら、両者の間に強い対応関係を認めることはできなかったという研究(e.g., Freeman,1995; Jafapur, 1991)も存在する。
これらの対立する結果は、それぞれの研究の中での評価を行った環境と生徒の特徴の違いを反映している可能性がある。Table 1は生徒のスピーキング活動の評価を扱った9つの研究の結果をまとめたものである。結果は
(a)その研究がL1、L2どちらを中心に扱ったものか
(b)生徒が評価を行う前に評価の議論を行ったか
(c)最終的な評価が複数の点数を平均することによって獲得されたか
(d)研究に参加した生徒は何人か
によって異なっている。
上記(1)の違いについては、L2の生徒間評価はL1の生徒間評価に比べて信頼性に劣るとみられる。結果として、ネイティブスピーカーよりもL2言語の知識に乏しいL2学習者は、相手のスピーキング活動に対して矛盾した判断を下すことがある。
上記のような問題点があるにもかかわらず、強い対応関係があるとするL2研究がある(e.g., AlFallay, 2004; Patri, 2002)。これは評価の前に議論に取り組んだことの効果によるものである。しかしながら、Fukazawa(2009)の研究では、生徒は生徒間評価の前に議論をはさまなくても強い対応関係を持つ評価をし得るとされている。このように、全体的に見て、先んじた議論の有効性は変わるようであり、評価の前に議論を行うかどうかが生徒間評価の信頼性を保証する重要な要素かどうかには疑念が残る。
匿名の条件下では、参加者は評価者がだれなのかわからない。この条件には良い点と悪い点がある。Orsmond, Marry, and Reiling(1996)では、2つの生徒グループに、評価を行う前に部屋の交換を行って匿名性を保護した。その場合の対応関係は高かった。対照的に、生徒の匿名性を単に評価者の名前を被評価者に明らかにしないことによって保証したJafapur(1991)の研究では信頼性はと低かった。この2つの研究の結果の違いはタスクの違い(前者はポスターのプレゼンテーションのタスク、後者はスピーキング活動のタスク)に起因する。信頼性の高い日本人EFL学習者の評価について匿名性が本当に重要な条件なのかを確かめるために、同一のタスクを使ったさらなる調査が必要である

Research Question
RQ1. 生徒間評価は英語を学習する日本人生徒のスピーキング活動において、どの程度対応関係があるのか
RQ2. 生徒間評価の採点は教師による評価と大きく異なるのか
RQ3. 評価者の匿名性が保証されている場合、そうでない場合と比べて対応関係は向上するのか
RQ4. 評価の前に議論を交わした場合とそうしなかった場合とではどちらがより高い対応関係を持つのか
これらのResearch Questionsは2つの実験を通して調査された。RQ1とRQ2は実験1と実験2で調査され、RQ3とRQ4は実験1と実験2の結果を比較する形で検証された。

Experiment 1
5.1 Method
5.1.1 Participants
参加者は自然科学を専攻する80人の日本人大学生(大学1年生で、18歳または19歳)。参加者はクラスA(40名)とクラスB(40名)の2クラスに配属されている。実験は2つの隣接したCALL教室で行われ、2つのCALL教室の間にはCALL環境が整っている。それによって、1人の教師(研究実施者のひとり)が2つのクラスに同時に説明をすることが可能である。データは両方のテストへの欠席や記録の不良などがない限り利用可能であるが、最終的には50人の学生のデータのみが利用可能として分析対象になった。
5.2 Materials
5.2.1 The oral test
Hirai & Koizumi(2009)で提唱された再話課題が利用された。SRSTで使う3つのテキストは2005年と2008年に行われた英検準2級の試験に拠る。Flesch-Kincaid Grade LevelはA、B、Cの3つの英文についてそれぞれ7.4、6.2、6.1であり、参加者にとって困難な点は考慮されているといえる。
5.2.2 The EBB scoring scale
Empirically-derived, Binary-choice, Boundary-definition (EBB) scaleはSRSTを採点するために準備されている。EBBは、もとはUpshur & Turner(1995)によって開発されたものだが、Hirai & Koizumi(2008)によってスピーキングテスト用に改良された。その尺度の基盤には以下の3つの基準がある。
Communicative Efficiency …主に生産量、流暢さ、結束性を測る
Grammar & Vocabulary …文法の正確さ、語彙の使用の適切さを測る
Pronunciation …発音、強勢、イントネーションなどについて、音節や文を評価する
参加者はそれぞれの評価項目について1点~5点の5点満点で評価する。

Procedure
参加者はいくつかの内容理解問題を解きながら物語文を読む。そしてプリントに記されたキーワードを見つつ物語の再話を行いそれについての自分の考えを述べる。生徒のスピーキング活動は産出と同時に録音テープに録音される。
生徒間評価の実験では、生徒は隣の生徒と録音テープを交換しEBB尺度を使って録音を採点する。互いのスピーキング活動を評価する前に、EBB尺度の3つの基準について詳細な説明を受ける。
録音はのちに研究者によっても評価され、この評価は「教師による評価」として扱われる。半数の生徒のスピーキング活動ははじめに評価者間の信頼性のチェックのために2名の研究者によって評価される。2名の研究者による採点の対応関係は3つの基準につきそれぞれ.84、.79、.69となった。

Results and Discussion
Table 2は集計した結果を表したもので、対応関係を示している(Figure 1も参照のこと)。全体的に見て、生徒間評価は教師による評価と比べて点数が高い。
Table 2に示されているように、生徒間評価と教師による評価の間にさほど重要でない弱い対応関係も認められた。また、ほかの2つの評価基準に比べてCommunicative Efficiencyの基準は生徒にとって扱いやすいということが分かった。
3つの評価基準において生徒間評価と教師による評価の間の違いを調べる方法として、2×3で設計されたtwo-way repeated ANOVA尺度が使用された。結果的に、評価者と基準の間には大きな相互作用が見られた。それによって2名の評価者が違った方法で基準を扱ったことが示された。すべての基準において、生徒の評価は教師の評価よりかなり高かった。
さらに、post hocテストによって3つの基準の間の相違は教師による評価において顕著であるということが分かった。生徒はすべての基準についてほぼ等しくすべての基準を採点したのに対し、教師はGrammar & VocabularyをCommunicative Efficiencyよりかなり低く採点した。ゆえに、とりわけ教師は生徒よりも厳しくGrammar & Vocabularyを採点したといえる。
以上の結果には3つの原因が考えられる。
生徒は相手の生徒のスピーキング能力を評価するうえで教師にくらべて寛容である傾向がある。
生徒は知識が欠けていて誤りを認められないことがある。
EBB尺度は新しく、生徒が慣れられないものであった。また、それぞれの基準について5段階で評価を分けるのは難易度が高すぎたのかもしれない。

Experiment 2
Experiment 1の結果によって、対応関係が低くなった原因は匿名性と事前の議論と評価の訓練に問題があったからであると推察される。そこで、Experiment 2ではこれら3つの条件が含むことにする。

Method
9.1 Participants
参加者は引き続きExperiment 1の2つのクラスの生徒である。今回は60名の生徒が研究に参加した。2つのクラスを平等に扱うことができるかを決めるため、習熟度テストを実施した。このテストには3つのセクションに分けられた134個の問題が含まれる。
複数選択肢の文法問題(16問)
記述の語彙テスト(78問)
口頭の語彙テスト(30問)
参加者の平均的な語彙サイズは語彙テストで計算され、2000語レベルであると判明した。2つのクラスの習熟度テストの得点とExperiment 1の参加者の習熟度テストの得点に大きな差異は認められなかったことから、2つのクラスは平等なグループとして扱い、Experiment 1での参加者と比較ができるものとする。

9.2 Material
9.2.1 The oral test
Experiment 1とは異なる2つの物語文でSRSTを行う。2本の物語文は長さが違うが難易度は変わらない。英文D(1992年の英検3級の試験で使われたインタビューテストから)、英文E(2001年の英検4級の試験で使われた読解テストから)はそれぞれFlesch-Kincaid Grade Levelが4.1と4.5であった。
9.2.2 Questionnaire
SRSTと生徒間評価に参加することへの生徒の態度を調査するため13問からなるアンケートを実施した。そのアンケートでは以下の事項を6段階の選択式で調査した。
生徒間評価と匿名の評価についての態度
生徒間評価を行う上での責任感
生徒間評価を行うことによって期待される言語学習への効果

Procedure
グループAとグループBがMaterialで述べた2本の物語文でSRSTを被験した。その後、参加者は匿名の条件下で生徒間評価を行った。評価者の匿名性を保証するために、生徒間評価の前に2つのグループ間で録音したテープをシャッフルした。
Figure 2にあるように、グループBの生徒が完全に独りで評価を行うのに対し(これはExperiment 1と同様の条件である)、グループAの生徒は隣に座る生徒と一緒にほかの生徒の評価について議論した。
指導者は生徒に対し、いくつかの基準となるスピーキング活動の録音を聞かせながらEBB尺度について15分ほど詳細に説明した。
Experiment 1で教師の評価者がExperiment 2と同一で、しかも2つの実験の間隔が短かったので、一人の教師がすべての録音を評価した。

Results and Discussion
Table 4とFigure 3は2つのグループの評価を示したものである。Experiment 1であったように、どちらのグループでも生徒間評価はわずかに教師による評価より高くなっている。
評価を匿名にした効果を調べるため、2つの実験の間での生徒間評価と教師による評価の対応関係をTable 5に示した。評価者の匿名性が生徒間評価の信頼性を高めるのに大きな役割を担うことが分かった。しかし、匿名性の効果は2人が評価を下した場合には現れなかった。言い換えれば、
2人の生徒が議論をしたことの評価については、グループBがCommunicative EfficiencyとGrammar & Vocabularyの基準において高い対応関係を示したのに対し、グループAにおける対応関係がどの基準においても低かった。高い対応関係は、教師が2人の評価者生徒に議論の結果としてともに評価を下すようにしたときよりも、それぞれの評価者生徒にペアとして組んだ生徒との議論の後に自分なりの評価を下させた場合に現れた。
グループA、グループBともに、3つの基準の中ではCommunicative Efficiencyの対応関係が最も高かった。これはExperiment 1で得られた結果と一致する。
評価者と基準の2つの要素がどのように関係しているのかを調べるために、両グループに、2×3で設計されたtwo-way repeated ANOVA尺度が用いられた。グループAのデータはたいして評価者と基準の間に相互作用を見せなかった。しかし、主な評価者の効果は顕著だった。また、生徒によって与えられた得点は教師によって与えられたものよりかなり高かったことが示された。また、生徒と教師は3つの基準に対し異なった評価を下すことが示された。それから、t-テストはそれぞれの基準について生徒と教師の評価を比べるためにpost hocテストと同様に実施された。その結果は生徒がGrammar & Vocabulary、Pronunciation、合計得点の各基準について教師より高い得点を与えたことを明らかにした。しかしながらCommunicative Efficiencyについては生徒と教師の評価の間にはたいした違いは見られなかった。
アンケートの結果の要約がTable 6にまとまっている。この結果では、匿名性は生徒間評価に信頼性を持たせる重要な条件だということが分かった。
それに加えてアンケートの結果によれば、生徒はスピーキングを録音する際も同級生の録音を評価する際も、同級生を評価することに対してある種の責任を感じている。生徒がテストを受験するにしろ評価者の役割を担うにしろ、生徒間評価は生徒の学習を促進する可能性がある。
生徒たちはアンケートで、特にGrammar & Vocabularyについて「生徒間評価は難しくて、自信をもってそれぞれの基準を評価できない」と述べた。
2人または個人に評価を割り当てることについて、アンケートの結果はどちらのグループも得点は4.0を上回らなかった。はっきり言うと、実際に生徒が2人一組で作業を行ったグループAの得点は、生徒が独りで作業を行ったグループBの得点をわずかに下回っていた。これはたくさんの生徒が特に2人一組での評価は不適当だとは感じなかったと示している。
 最後に、先行研究と本研究の結果の比較をするために、メタ分析を行った。その結果がTable 7である。

Conclusion
この研究では5つの発見が得られた。
ほかの2つの評価基準に比べてCommunicative Efficiencyの基準は生徒にとって扱いやすく、生徒が信頼性の高い評価を下すことができる
生徒は同級生のスピーキング活動を評価する際に寛容になる傾向があった
生徒と教師の評価には明確なパターンが認められた。たとえば、生徒はGrammar & Vocabularyを寛容に評価したのに対し、教師はGrammar & Vocabularyを特に厳しく採点した
評価者に匿名性を与えることは生徒間評価の信頼性が改善されるための重要な要素である
2人一組で評価を行う場合は、生徒が独りで行う場合と比べて信頼性は大きく向上しなかった。メタ分析によって、議論をはさまない生徒間評価の研究では整合した結果を得られた一方で生徒が議論を行う場合の効果はつじつまの合わないものであることがわかった
(1)、(2)、(3)によりRQ1とRQ2への回答が得られた。特にスピーキング活動の流暢さが評価の基準であるときは生徒の評価が教師の評価に一致しやすく、言語的側面が基準であるときは教師の評価から逸れやすい。また、(4)によってRQ3への回答が、(5)によってRQ4への回答が得られた。
全体を通して対応関係は変異した。そのため、生徒間評価が必ずしも教師の評価に代替するうえで信頼性の高いものとは言えない。それゆえに、生徒間評価が担う別の役割にしっかりと関心を向けることが肝要である。言い換えれば、もし生徒間評価が生徒の成績をつけるためでなく有効なフィードバックをもって用いられるなら、教師の評価に似ている信頼性の高い評価方法を探すのではなく、採点方法を見直すことで評価方法を共同学習のためにより有益なものにできるかもしれない。

Discussion Point
2人一組で行う生徒間評価について、評価者生徒の主観性を排除することと相手の意見とすり合わせ妥協してしまう問題を解決することを両立させる手段はないか
スピーキング活動と同じように英作文の評価を生徒が行った場合も今回のような傾向が現れるのか