![]() |
2020年度 英語教育学Ⅶ |
9 Testing writing
Y.M & K.T
Representative tasks
i. Specify all possible content
■テストのタスクが生徒に出来てほしいタスクを代表しているかを判断するため、テストの使用が特定されるべきである。
■テスト内容の使用についてのフレームワークは、運用、テストタイプ、想定される受信者、テストの長さ、トピック、方言とスタイルである。
■Cambridge English B2 Firstを例に取る。ライティング試験を見ると仕様が何かわかる。
■e.g., 機能:陳述への同意か反対する、テキストタイプ:エッセーやレポート、想定受信者:英語学雑誌の記事、友人への電子メール、トピック:健康と運動のような範囲のトピック、方言とテキストの長さ:140語から190語程度で方言は特定されていない
■上記の使用は、コミュニカティブな目的を持った言語コースでの学生ができることが期待されているライティングタスクということがわかる。すべてのテストの仕様はテストの目的を明確化するために大切である。
■2つ目の例であるアカデミック用の英語テスト(English for Academic Purposes: EAP)は制限された仕様を持つ。
■e.g., 運用:描写、説明、比較や対比、賛成または反対の主張、テストタイプ、2パラグラフまででの解答、想定受信者:専門家や大学講師、トピック:アカデミックで扱えるどんなものでも、方言とスタイル:標準的英語でフォーマル、テキストの長さ:約1ページ
■必要の観点から分析すると、測定したいもっとも重要なライティング能力はノートテイキングと2パラグラフまでのエッセー解答能力である。また試験問題の点から分析した場合、描写や比較、主張などが含まれている。大学1年生は幅広いトピックを学ぶため、テストトピックの仕様も広く設定されている。
■このようなフレームワークを持ちることで、関連タスクを簡潔に説明できる。
ii. Include a representative sample of the
specified content
■内容妥当性の観点から、理想的なテストは関連する潜在的ライティングタスクを受検者が実施することを要求する。
■テストで入手できるトータルスコア(各タスクのスコアの総計)は、受検者の能力を最も良く見積る。これが可能であれば受検者間のスコアが全く同じことは考えられない。受検者はある個々のタスクについて他者よりスコアがよいためである。
■しかし個々のタスクを含めることが出来ない場合、受検者がそのタスクが特に得意または不得意な場合、結果は異なりうる。タスクの選定が重要である。
■よりタスクをテストに含めるほど、サンプルの全体はより受検者の能力を表しうる。
■またテストが広い範囲の仕様のサンプルを含むとき、テストはより波及効果の利点が大きいことは覚えておく価値がある。
■B2テスト1(pp. 90-01)では4つのタスクで構成されているが、そのうち2つのみ解答する形式である。運用やタスクタイプの一部分のみテストされる場合、テストの内容妥当性には疑問符が付く。
■潜在的タスクの望ましい範囲をカバーすることは、単一バージョンのテストでは不可能である。
■Cambridge English B2 Firstテストなどの幅広い範囲の英語テストに比べ、英語圏の大学用のテストの場合、代表的なライティングタスクの選定は困難ではない。
■Cambridge English B2 Firstテストの場合、フレームワークの「運用」の点にのみ大きな変異性があるので、受検者に4つの答えを書かせるタスクは幅広い範囲のタスクをカバーしうる。そのためトピックの違いは重要ではない。
■もちろん広いサンプリングの望ましさは実用性とのバランスで捉えられるべきである。しかしどのタスクを含めるかはテストの正確性に影響する。
Elicit a valid sample of writing ability(ライティング能力の妥当性あるサンプルを得る)
Set as many separate tasks as is feasible
■出来るだけ多くのタスクを実行可能なものにするという要求は、特定の内容を代表するサンプル必要性と関係する。
■個々のタスクでの受検者のパフォーマンスは完全に一致しない傾向があるため、個々のタスクは「フレッシュスタート」、つまりつながりを持たせず取り組めるよう設定する。
Test only writing ability and nothing else
■ライティング能力のみを測ることが必要である。学生の想像性や知性、幅広い意見をもっているかなどは、言語テストにおいて我々は関心を持たない。それゆえ妥当性のために、これらの能力を測定するタスクを設定すべきでない。
■設問例の4つを見ると、1つ目は創造性や想像力を要求しているように見える。2つ目はすくなくとも会話能力が問われている。3つ目と4つ目はトピックについて即座に一連の主張を形成できる受検者を好んでいる。
■ライティング能力の正確な測定に干渉する他の能力に、読解能力がある。簡潔な設問指示について受検者が理解できることを期待するのは問題ないが、彼らの読解能力が設問理解に影響を与えないか配慮すべきである。
■設問指示は長すぎるべきでない。受検者の読解力への依存を下げる方法に、イラストの使用が挙げられる。
Restrict candidates
■「妬み」についての設問は異なる状況の個人によって異なる結果を生みうる(個人差がうまれやすい)。こうした刺激への反応を開発するさまざまな方法がある。
■ライティングタスクは次のように定義されるべきである:受検者は彼らに求められているものがわかっているべきで、それ過ぎてはならない。
→受験者がよく理解できているトピックでライティングを行うべき
■有用なツールはノートの形式での情報の提供である。Cambridge B2 First の例では、英語とアラブ語の大学教育の利点を比較させるタスクを示している。アラブ語と英語それぞれの利点が3つずつ示され、結論までを1ページで作成させるタスクである。
■ノート形式での情報提示では、フルセンテンスにしないなどの配慮も必要である。
■もう一点は、タスクが仕様と一致すべきだけでなく、真正性を持たせるべきものという点である。あるタスクがある人にとっては真正性(現実的な内容かどうか)があり、他の人にとってはない場合もあることに配慮が必要である。
■真正性を確保するため、現実世界で使用することのおおいコンピューターを用いることも適切である。
Set
tasks which can be reliably scored(信頼性の高いスコアリングが可能なタスクの設定)
代表的なパフォーマンスを得るためのいくつかの提案が、信頼性の高いスコアリングを容易にする。
Restrict
candidates
課せられた制約が大きければ大きいほど、異なる書き手のパフォーマンスをより直接的に比較することができる。
Give
no choice of tasks(タスクの選択を与えない)
すべてのタスクを行わせることで、書き手間の比較が容易になる。
Ensure
long enough samples
判断の信頼性を高めるためには、十分な時間をかけてライティングのサンプルを抽出する必要がある。これは、診断情報を求める場合に特に重要である。例えば、生徒の文章構成能力に関する信頼性の高い情報を得るためには、構成が明らかになるのに十分な長さの文章が必要となる。テストの期間が決まっている場合、長さと、できるだけ多くのサンプルを用意する必要性がある。
Create
appropriate scales for scoring
「パフォーマンスの基準レベル」の中でパフォーマンスを評価するための尺度を見つけることが期待される。採点には全体的と分析的という2つの基本的なアプローチがある。
Holistic
scoring
n 全体的採点(「印象的」採点と呼ばれることもある)では、文章の全体的な印象に基づいて1つのスコアを割り当てる。この種の採点は、非常に迅速に行えるという利点がある。経験豊富な採点者であれば、1ページの文章をわずか数分、あるいはそれ以下の時間で判断することができる(TOEFL® Test of Written
Englishの採点者が作文を採点する時間は1分半程度)。つまり、1つの作品が複数回採点される可能性があるということであり、それは必要なことでもあるため、それは幸運なことである。
n Harris (1968)は、各学生が20分の作文を1回だけ採点した場合、信頼性係数はわずか0.25だったという研究を紹介している。よく考えられ、よく組織されていれば、各学生の作品を4人の訓練された採点者が採点する全体的採点は、高い採点者間信頼性を得ることができる。4という数字には何の不思議もない。単に、ライティングを4回採点した場合、満足いくほど高い採点者信頼性を示す研究結果があるというだけである。我々は、このような採点がよく練られる必要があることを前述した。どのような採点システムでも、どのような状況でも同じように妥当で信頼できる結果が得られるわけではない。受験者のレベルやテストの目的に合ったシステムでなければならない。この章で紹介した英語圏の大学で使われている次のような採点システムがある。
NS
Native speaker standard
NS- Close to native speaker standard
MA Clearly more
than adequate
MA- Possibly more than adequate
A
ADEQUATE FOR STUDY AT THIS UNIVERSITY
D Doubtful
NA
Clearly not adequate
FBA Far below adequate
この尺度は、設計された状況では完璧に機能した。ライティングテストの目的は、学生のライティング能力が、その大学で英語を学ぶのに十分かどうかを判断することだった。設定された基準は、学部生の作文と、そこに書かれている英語の受け入れ可能性についての教師の判断に基づいていた。学生が2つの作文を書き、それぞれが独立して2回採点された場合、上記の尺度を用いたところ、採点者の信頼性は0.9であった。これは、実用性が重視されない実験や研究ではなく、通常の状況で達成される可能性のある高さである。これは特定の目的のために設計されたものであり、他のほとんどの状況ではほとんど役に立たないことは明らかである。テスターは、既存のスケールを自分の目的に合わせて変更する覚悟が必要となる。
ADVANCED LOW
n サブレベルの書き手は、基本的な仕事やアカデミックなライティングのニーズを満たすことができる。大まかな時間軸の中で、アスペクトをある程度コントロールしながら、叙述や説明ができる。身近な話題について、簡単な要約を書くことができるようになる。
n Advanced Low writersは、文を組み合わせて段落の長さや構造の文章を作ることができる。彼らの文章は、上級レベルの基準を満たすのに十分ではあるが、実質的なものではないかもしれない。Advanced Lowサブレベルの書き手は、限られた数のcohesive
devices(接続表現)を組み込む能力を示しており、いくつかの冗長性や不適切な繰り返しに頼ることがある。口頭での会話のパターンや母国語の文体に依存している。
INTERMEDIATE HIGH
n Intermediate Highサブレベルの書き手は、中級レベルの実用的なライティングニーズをすべて満たすことができる。また、仕事や学校での経験に関連した作文や簡単な要約を書くことができる。日常的な出来事や状況について、さまざまな時間軸で語り、説明することができる。
n これらの物語や説明は、パラグラフの長さであることが多いが、必ずしもそうではなく、通常、上級レベルの1つ以上の特徴を崩している証拠がある。例えば、適切なメジャータイムマーカーの使用に一貫性がなく、結果的に明確さを欠いていることがある。中級レベルの書き手の語彙、文法、スタイルは、基本的に口語のものに対応している。中級レベルの文章は、多数の、そしておそらく重大な誤りを含んでいても、非ネイティブの文章に慣れていないネイティブには一般的に理解できるが、理解にギャップがある可能性がある。
INTERMEDIATE MID
n Intermediate Midのサブレベルの書き手は、多くの実用的なライティングのニーズを満たすことができる。個人的な好み、日常生活、よくある出来事、その他の個人的なトピックについて、短くて簡単なコミュニケーション、作文、情報の要求を、ゆるやかにつながったテキストで書くことができる。彼らの文章は現在の時間で構成されていますが、他の時間枠への言及もある。文章のスタイルは、口頭での会話によく似ている。
n Intermediate Midサブレベルの書き手は、基本的な文構造と動詞の形をコントロールする証拠を示している。この文章は、個々の文や質問がゆるやかにつながったものとして定義するのが最適である。意図的な構成はほとんど見られない。
n Intermediate Midレベルの書き手は、非ネイティブの文章に慣れているネイティブには容易に理解できる。中級者が上級者向けの文章に挑戦すると、文章の質や量が低下し、メッセージが不明瞭になることがある。
INTERMEDIATE LOW
n Intermediate Lowレベルの書き手は、限られた実用的なライティングのニーズを満たすことができる。身近なマテリアルを使って、文を作ったり、質問をしたりすることができる。ほとんどの文章は、学習した語彙や構造を組み合わせたものである。基本的な語順で、短くて簡単な会話形式の文章が書ける。ほとんどが現在進行形で書かれている。ライティングは、いくつかの簡単な文章で構成され、しばしば繰り返し構造になっている。トピックは、予測可能な内容の分野や個人的な情報に関連している。語彙は初歩的なニーズを表現するのに十分である。
n 文法、単語の選択、句読点、スペル、およびアルファベット以外の記号の形成と使用に基本的な誤りがあるかもしれない。彼らの文章は、追加の努力が必要かもしれないが、非ネイティブの文章に慣れているネイティブには理解できる。中級レベルの書き手が上級レベルのライティングタスクを実行しようとすると、文章は著しく悪化し、メッセージが不完全なままになってしまう可能性がある。
n これらの記述は、すべての言語学習者に共通する発達のパターンを示唆している。文法的能力の特定のレベルが、語彙的能力の特定のレベルと常に関連していると仮定している。これは控えめに言っても非常に疑問であり、この尺度は様々な要素の習得順序に関する研究に基づいていないと批判されている。達成度を測定するために尺度を使用する場合、この批判は正当なものであると考えられる。もし、異なるレベルが、時間の経過に伴うパフォーマンスの変化に関する研究に密接に基づいていなければ、その使用は達成度の有効な測定につながらないだろう。これは、すべての尺度が言語の学習方法について知られていることに基づいている必要があるということではない。
n ILR(Interagency Language Roundtable)レベルは、ACTFLの尺度と多くの点で似ている。違いは、ILRレベルは、個人の外国語能力が特定の仕事に十分であるかどうかを判断するために、個人をレベルに割り当てるように設計されていることである。その目的は、どのように達成されたかに関わらず、純粋に習熟度を測定することにある。
n ACTFL(およびILR)の尺度を使用する際に問題となるのは、あるレベルで部分的に表現され、別のレベルで部分的に表現される言語を持つ人をどのように評価するかということである。何を決めるかは、評価の目的にもよる。例えば、ある人が外交官になるのに十分な言語能力を持っているかどうかを調べようとしているのであれば、その人の言語を(部分的に)記述する最も低いレベルに配置しなければならないと判断するかもしれない。達成度を測ることが目的であれば、ある分野での強みが他の分野での弱みを補うことをより積極的に認めることができるかもしれない。
Analytic
scoring
n 分析的採点:タスクのいくつかの側面のそれぞれに個別のスコアを必要とする採点方法は、分析的であると言われている。John Andersonが考案した以下の尺度は、Harris (1968)のoral ability尺度に基づいている。
n 分析的スコアリングにはいくつかの利点がある。第1に、個人のサブスキルの不均等な開発の問題を解決する。第2に、採点者は、他の方法では無視してしまうようなパフォーマンスの側面を考慮せざるを得ない。そして3つ目は、採点者がいくつものスコアを出さなければならないという事実が、採点の信頼性を高める傾向にあるということである。採点者が他の側面から独立して各側面を判断できるかどうかは疑問だが (いわゆる「ハロー効果」)、学生のパフォーマンスを評価する際に 5つの「ショット」を持つという事実だけでも、より高い信頼性につながる。P101~103
n Andersonのスキームでは、各構成要素は同じ重みで評価される。他のスキーム (下のJacobs (1981) のスキームなど) では、テスターが認識した
(統計的な裏付けの有無にかかわらず) さまざまな側面の相対的な重要性が、さまざまな構成要素に付けられた加重に反映される。例えば、文法的な正確さは、スペルの正確さよりも重要視されるかもしれない。受験者のトータルスコアは、重み付けされたスコアの合計となる。
n 分析的手法の主な欠点は、時間がかかることである。練習を重ねても、ホリスティック方式に比べて採点に時間がかかる。分析法と全体法のどちらが経済的に採点者の信頼性を得ることができるかは、それぞれの状況に応じて判断される。
n 2つ目の欠点は、異なる側面に集中することで、文章の全体的な効果から注意がそれる可能性があることである。全体は部分の総和よりも大きいことが多いため、複合のスコアは、信頼性は高いが妥当ではないかもしれない。実際、別々に採点された側面(「部分」)は、おそらく特定の分析的枠組みのauthorにとって最も魅力的な言語パフォーマンスの理論に基づいているが、実際にはそのような側面の完全な「正しい」セットを表していない可能性がある。これを防ぐために、採点者にはそれぞれの作文に印象的なスコアを追加することが求められることがあり、このスコアと分析的な合計値との間に大きな矛盾があるかどうかが調査される。
n Andersonの尺度の潜在的な問題について注目する。これは、エラーの頻度と、エラーがコミュニケーションに与える影響を結びつけることから生じるものである。この2つは必ずしも高い相関関係があるとは言えない。ある種類の文法的な誤りが少なければ、別の種類の誤りが多い場合よりもはるかに深刻な影響をコミュニケーションに及ぼす可能性がある。もちろん、この問題は分析的尺度に限ったことではなく、より全体的な尺度においても同様に難しい問題である。エラー分析の研究、特にエラー重力の研究は、この問題をさらに追求しようとする人々に示唆を与えてくれる。
n 北米の大学レベルで広く使われている分析尺度は、上に掲載されているJacobsら(1981)のものである。見ての通り、この尺度は5つの要素で構成されており、contentが最も重視され、mechanicsが最も重視されていない。この重み付けは、大学レベルのライティングにおける各要素の重要性の認識を反映している。mechanicsのコントロールがより重要と考えられるような、より初歩的なレベルのライティングのテストには、必ずしも適切ではない。また、mechanicsの場合を除いて、各記述にはスコアの範囲が設定されており、採点者はパフォーマンスが記述子にどの程度適合するかによって、割り当てられるスコアを変えることができることにも注意しなければならない。
n 全体的な採点と分析的な採点のどちらを選択するかは,テストの目的にもよる。与えられた評価から直接診断情報を得る必要がある場合は、分析的採点が必須となる。また、スコアリングを行う状況によっても選択は異なる。一つのサイトで少人数のグループで行う場合は、時間的に余裕のある全体的採点が最も適しているかもしれない。しかし、バラバラで訓練を受けていないグループや、複数の場所で採点を行う場合は、分析的採点が求められるだろう。いずれにしても,高い精度を求めるのであれば,多重採点が望ましい。
n 全体的なものであれ、分析的なものであれ、どのような尺度を使用するにしても、テストの特定の目的と、そのテストで報告されるスコアがどのような形をとるかを反映したものでなければならない。有効な尺度を構築することは容易ではないので、まず既存の尺度を検討し、自分のニーズに最も近いものを選ぶことは極めて合理的である。ただし、選択した尺度は、ほぼ確実に、使用される状況に合わせて適合させる必要がある。スケールは実質的に受験者に「これがあなたを判断する基準です」と伝えるものであるため、受験者がそのことを認識していれば、スケールがもたらす波及効果の可能性はかなり大きい。
Calibrate
the scale to be used
使用するスケールは、まず校正しなければならない。前の章で述べたように、これはテスト条件下で収集されたパフォーマンスのサンプルを集めることを意味し、スケールの全範囲をカバーする。テストチームのメンバー(または別の専門家)は、これらのサンプルを見て、それぞれを関連するスケールのポイント(分析スケールの場合はポイント)に割り当てる。割り当てられたサンプルは、今後そのスケールを使用する際の基準点となり、またトレーニングにも欠かせない資料となる。
Select
and train scorers
トレーニングを受けていても、誰もが同じように文章を評価できるわけではない。訓練を受けた採点者は、テストされる言語のエキスパートでなければならない。言葉に敏感で、文章を教えたり、文章を採点したりした経験があること、また、テストのトレーニングを受けたことがあると助けになる。私たちは、トレーニングを3段階に分けて、それぞれ別の日に実施することを勧めるが、現実的でない場合も多い。可能であれば、トレーニングは3日間連続して行われるべきである。トレーニングの概要はP106~107を参照。
Automated
scoring
n ライティングの採点にコンピュータを使用することは、特にハイステークステストでは議論の的となっている。しかし、自動採点は現在、主に大規模なテスト機関で使用されているが、将来的にはより多くの人に利用されるようになるだろう。この点を考慮して、以下にライティングの自動採点に関する問題点を簡単にまとめた。
n 自動採点の利点は明白で、コンピュータは、人間が採点するよりもはるかに速く、複数の文章を採点することができる。ある程度の期間が経過すれば、コンピュータを使用した方が人間の採点者を雇うよりも安くなる。時間とコストの節約に加えて、自動採点システムは、ある文章を提示すると、先週も先々週も今日も同じ評点をつけることが保証されている。この意味で、コンピュータは完全な信頼性を得ることができるはずである。
n しかし、ライティングの評価をコンピュータで行うことには、重大な妥当性の懸念がある。最も大きな欠点は、論旨の展開やアイデアの論理的なつながりといった、より高度な文章の特徴をコンピュータが評価できないことである。これに関連して、読みやすさがあるが、このような人間の品質をコンピュータが効果的に評価できるかどうかは疑問である。さらに、コンピュータのアルゴリズムの性質上、受験者は、高得点が得られるとわかっている言葉を盛り込むことで、自動採点システムを騙すことができる可能性があり、必ずしも適切な内容を提供しているわけではない。また、教師や生徒が、自動採点システムから高い評価を得られると思われる文章の側面に注目することによる、潜在的なマイナスの影響についても懸念される。最後に、より一般的な懸念として、コントロールをコンピュータに委ねることへの懸念がある。特に、ライティングを評価する正確な方法が、私たちの多くにとって明確ではなく、理解できない場合にはなおさらである。現在、コンピュータは非常に便利な機能を果たすことができるが、ライティングを完全に評価することはできないため、自動採点を使用する場合は、人間の評価者によって補完されるべきだと考えられている。現在、TOEFL®では、人間の評価者は内容と意味を重視し、自動採点者は言語的特徴を重視している。同様に教室でも、自動採点が文章の単純な側面に焦点を当てることで、教師がより高度な側面に焦点を当てることができるようになるという大きな可能性がある。これは、特に形成的評価において有用である。
Follow
acceptable scoring procedures
n 採点者はすでにトレーニングを受けているものとする。テストが完了したら、各ライティング課題における主要な能力レベルを代表する「基準」スクリプトを特定する。そして、これらのコピーを採点者に提示し、最初の採点をしてもらう。これらの基準スクリプトについて合意が得られた場合にのみ、採点を開始する。各学生の各課題は、2人以上の採点者 (できるだけ多くの採点者が各学生の課題の評価に関与することが望ましい) によって独立して採点され、スコアは別々のシートに記録される。チームの3分の1のseniorメンバーは、スコアを照合し、同じ文章に与えられたスコアの不一致を確認する。矛盾が小さい場合、2つのスコアを平均することができる。矛盾が大きい場合、チームのseniorメンバーがスコアを決定する。また、異なるタスクでの個人のパフォーマンスの間に大きな差がないかどうかを確認することも重要である。これは、個人のパフォーマンスを正確に反映している可能性もあるが、不正確なスコアリングの結果であることもある。
n 採点は、静かで明るい環境で行うことが重要である。採点者が疲れすぎないようにする。全体的採点は非常に迅速に行うことができるが、集中力が維持されていないと非常に厳しいものとなる。複数回の採点を行うことで、すべての採点者がまったく同じ基準で採点していなくても、採点者の信頼性を確保することができる。とはいえ、採点が完了したら 誰かの採点が許容できないほど異常であるかどうかを発見するために、簡単な統計分析を行うことは有用である。例えば、ある人が他の人よりも高い(または低い)評価をしていることに気づくかもしれない。これは、その人に注意を促すことができる。誰かの評価が著しく逸脱していて、それが一方向ではない場合、その人には今後仕事の評価を依頼しない方が賢明かもしれない。
Comparative
Judgement
Ch3で述べたように、Comparative Judgement(CJ)は、近年注目されているライティングの採点方法です。各審査員は、ランダムに選ばれた2つの原稿(紙またはコンピュータ)を与えられ、どちらが優れているかを判断することを求められる。より良いと判断された原稿はwinnerと呼ばれ、より良いと判断されなかった原稿はloserと呼ばれる。このようにしてすべての原稿が判定されると、winnerとwinner、loserとloserという違いはあるが、このプロセスが繰り返されることになる。このプロセスを4回繰り返すと、すべての原稿を1つのスケールに割り当てることができる。CJの利点は、採点者間の信頼性が高いこと、実用性が高いこと、タスクの設定が上記のような考慮事項に制限されないため、内容的妥当性が高い可能性があることである。欠点は、この方法で得られたスコアは基準に関連していないことと、フィードバックの形で診断情報を与えることができないことである。
Feedback
受験者のパフォーマンスに関するフィードバックが役立つ場面はたくさんある。形式的なフィードバックの暫定的な内容は、校正の際に決めることができる。例えば、我々の一人が参加した校正セッションで、盛り込む価値があると考えられた要素のリストはP110参照。
Computer-based
feedback
n フィードバックにコンピュータを使用することは、自動採点よりもはるかに議論の余地がある。これにはいくつかの利点があるが、一般的には全体的な評価ではなく、形成的な評価に適用される。教師が文章を読み、誤りを訂正し、重点的に取り組むべき分野を選ぶのを待つのではなく、生徒は自動化されたフィードバックを即座に受け取ることができる。また、生徒は何度も作文を提出し、提出するたびに修正したり改善したりすることができる。もう一つの利点は、匿名性があることで、学生がリスクを負って文章を書く可能性があることである。しかし、教師からの個人的なフィードバックを期待しているときには、間違いをするリスクを負うことを厭わない学生の姿勢は、必ずしも明らかではない。
n 文章を投稿してすぐにフィードバックを受けられるウェブサイトはいくつもある。よく知られているものに、Cambridge English Write
& Improveがある。この無料のオンラインサービスでは、さまざまなレベルの生徒を対象としたライティングタスクの中から、ユーザーが選択することができる。このサービスでは、様々なレベルの生徒を対象としたライティング課題が用意されており、ユーザーが回答を送信すると、そのライティングにA1からC2までのCEFRレベルが割り当てられる。さらに、「問題がある」と判断された文章はハイライト表示される。学生は、これらのセクションを修正して再提出するように促される。
n Write & Improveのような自動フィードバックプログラムの利点は前述のとおりだが、その限界は明らかである。問題のある単語や文章がハイライト表示され、その理由が詳しく説明されていないような一般的なフィードバックでは、学生は混乱してしまう。生徒と教師の関係では、この混乱は、問題を分析し、代替案を引き出す有益な会話につながりますが、自動フィードバックツールではこのようなことはできない。フィードバックの重要な特徴である対話の欠如は、このようなプログラムを使用する上でのフラストレーションになる。このことは、このような技術が、教材としては有用であっても、人間が行う作業を再現したり、代替したりすることには程遠いということをよく表している。
Reading
Activities
3.
Think of a time when you were trained as a rater (if you ever were). How
similar was the training to the outline presented on pages 106-107? If there
were differences, why do you think that was? (評価者としてのトレーニングを受けたときのことを考えてください(受けたことがあれば)。そのトレーニングは、106~107ページに掲載されているアウトラインとどの程度似ていましたか?違いがあったとしたら、それはなぜだと思いますか?)
受けたことがないため省略
4.
This activity is best carried out with colleagues. Score the following three
short compositions on how to increase tourism, using each of the scales
presented in the chapter. Which do you find easiest to use, and why? How
closely do you and your colleagues agree on the scores you assign? Can you
explain any large differences? Do the different scales place the compositions
in the same order? If not, can you see why not? Which of the scales would you
recommend in what circumstances?
(この活動は、複数人で一緒に行うのが最適です。「観光客を増やす方法」について書かれた次の3つの短文を、この章で紹介されている各尺度を使って採点してください。どの尺度が一番使いやすいと思いますか、またその理由は何ですか。あなたが付けた点数について、あなたと他の人はどの程度一致していますか?大きな違いを説明できますか?異なる尺度では、作文が同じ順序で配置されていますか?そうでない場合は、その理由を説明できますか?どのような状況でどの尺度を推奨しますか?)
比較はなし。
P99の全体的採点 0~5の6段階
1.4 内容は理解できるが、誤字や文法上の間違い多い。3つの具体例を挙げていて、構成もされている。
2.5 thesis statementがあったり、As
a resultなどのディスコースマーカーを使って構成がよくできている。文法や語彙の誤りも少ない。幅広い語彙や文法を使っている。
3.2 段落の構成があまりされていない。ディスコースマーカーをあまり使っていないため、分かりづらい。例の説明があまりない。
P101~103の分析的採点
1.Gra 5 + Voc 4 + Mec 4 +
Flu 4 + For 4 = 21
2.Gra 5 + Voc 5 + Mec 5 +
Flu 5 + For 5 = 25
3.Gra 5 + Voc 4 + Mec 4 +
Flu 3 + For 3 = 19
P104の分析的採点
1.Con
25 + Org 18 + Voc 15 + Lan 18 + Mec 3
= 81
2.Con 27 + Org 19 + Voc 17 + Lan 20 + Mec 4
= 89
3.Con 21 + Org 13 + Voc 15 + Lan 20 + Mec 4
= 75
5.
This activity is also best carried out with colleagues. Construct a holistic
writing scale and an analytic writing scale appropriate for use with the group
of students you have already identified, if possible, score the students'
efforts on the two tasks (Activity 1), using both methods. Look at differences
between scorers and between methods, as in the previous activity. What changes
would you make in the scales? Which of the two scales would be most useful for
your purposes?
この活動も複数人で一緒に行うのが最適です。すでに特定した生徒のグループに使用するのに適した、全体的なライティング尺度と分析的なライティング尺度を構成しなさい。可能であれば、両方の方法を使用して、2つのタスク(アクティビティ1)の採点をしなさい。前述の活動と同様に、採点者や方法の違いに注目してください。尺度にどのような変更を加えますか?2つの尺度のうち、どちらがあなたの目的に最も役立つでしょうか?
Reading Activities
1. Writing task
"Read the following two articles. This is
summaries of newspaper about vaccination. Each article has a different
perspective for vaccination. Which perspective of articles are you for? Make
your argument withing 100 words."
2 Writing & Improveにアクセスしてライティングを試した結果
Feedback from Writing & Improve
■ライティングのタスク
A postcard: An exciting day
You are on a trip with your school group to
the capital city in your country. Yesterday you visited a museum and an art
gallery.
Write a postcard home telling your mum and dad
about your day.
You must include:
what you liked best in the museum
what you liked best in the art gallery
your favourite part of the day
書いた英文
Hi, how are you? I had a
great time in the museum yesterday. Let me share my experience. I am
interested in a beautiful gift shop in the museum. There were a wide
variety of goods I could choose. It was so amazing. In the art
gallery, I liked the painting by Piccaso the best because it was very
inspiring. Though I enjoyed all the day, one of my favorite part of the
day was having great lunch with my children. I hope everything goes
fine! See you soon.
アクセスして得たフィードバック
Great! Your writing level is B1.
Now try to improve your writing to raise your level. Use the feedback to revise
your writing. Then, click Check again. 4/5
間違った文法事項はハイライトされる。
Discussion points
1.Considering the feedback from Writing
& Improve, how would you use this writing learning tool in your classroom?
(Writing & Improveのフィードバックを考慮して、このライティング学習ツールをあなたのクラスでどのように使用しますか?)
2.Could you share your task in your
research project? Based on the framework of specificity, do you think it would
have validity to some extent?
(研究プロジェクトでの課題を共有していただけますか?具体性の枠組みに基づいて、ある程度の妥当性があると思いますか?)