筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2020年度  英語教育学Ⅶ

 

7. Stages of test development

Y.K

■この章では,言語テストを作成するための一連の手順について説明する。以下の手順が理想的である。

1.テストにおける問題(何のためのテストか)を全て明確に記述する。

2.テスト細目を作成する。

3.テスト細目のドラフトを専門家や関係者に確認してもらい,フィードバックをもらう。

4.テスト細目を修正する。

5.テスト細目に基づいて,テスト項目を作成する。

6.テストを実際に実施し,必要に応じて項目の修正を行う。(→試行テスト)

7.テスト対象者に近いグループ(本実験の対象者と同じようなバックグラウンドと熟達度のグループ)に対してテストを行う。(→事前テスト)

8.テスト結果を分析し,必要に応じて変更する。

9.尺度(能力を評価するための基準)を調整する。

10.検証を行う。

11.受験者やテストユーザー,スタッフ用のハンドブックを書く。

■テスト開発の各段階で客観的に検討する必要があるため,チームでテストを開発するのが望ましい

 

1.Stating the problem

■テスト開発の最初の段階として,テストによって何を知りたいのか,テストの目的は何なのかを明確にする必要がある。例えば,(a)どのタイプのテストなのか(熟達度テスト,到達度テストなど),(b)テストの目的は何か,(c)どの能力をテストしたいのか,(d)結果はどの程度詳細で正確でなければならないか,(e)テストの波及効果の重要性はどの程度か,(f)テストの制約にはどのようなものがあるか,などを明確にする必要がある。

■これに加えて,作成予定のテストと似たようなテストの情報を収集して,自身のテスト開発に役立てることも必要である。

 

2.Writing specifications for the test

■テスト細目とは,テストで何をどのような方法で測定するのかを明示した設計書であり,テスト内容,テスト構造,パフォーマンスの基準,採点方法などの情報を記載する。

 

Content

■テスト内容に関する情報が充実しているほど,テスト作成の際に何を含めるのかについて恣意的な決定はなくなる。しかし,具体的に書くことによって,言語能力の構成要素やそれぞれの構成要素の相互関係についての理解を超える恐れがある。(正確に言語能力を測定することができない可能性がある。)

■そのため,テスト内容には,明確に確立された要素のみを含む方法が安全である。

■テスト内容の記述は言語能力の性質によって異なる。文法テストの場合,測定する文法と関連する全ての構造やコミュニケーションで使用される場面を列挙することもある。

■テスト細目におけるテスト内容を作成するための枠組みが以下の項目である:(a)Operation(特定の情報を探し出す,未知語を推測するなど,実施されるタスクの記載)(b)Types of text(c)Addressees of texts(テキストが意図している対象者)(d) Length of text(e) Topics(f) Readability(g) Structural range(テストで使用する文構造などの記載)(h) Vocabulary range(使用する語彙の範囲)(i) Dialect, accent, style(受験者が理解すべき方言やアクセント,また文章のスタイル)(j) Speed of processing(読解の場合は,1分間に読むことのできる単語数)

 

Structure, timing, medium/channel and techniques

■上記の項目では以下のことを明記する必要がある。

・テストにはどのようなセクション(大問)があり,それぞれで何が(どのような能力が)テストされるのか。

・テストにおける項目(問題)と長文の数 

・どのような方法でテストを実施するのか(e.g., コンピュータか対面か)

・各セクションとテスト全体を解くのに時間(制限時間)

・どのような方法でスキルを測定するのか

 

Criterial levels of performance

■学習者がどのレベルにいるのか測定するためにパフォーマンスのレベルを指定する必要がある。例えば,ある文法項目を習得しているか判断するために,基準として80%以上の正答率がなければならないということが挙げられるが,スピーキングやライティングではこの基準の設定はより複雑なものになる。

■以下は,銀行員を対象とした英語のスピーキングテストで設定される基準レベルの例である。

Accuracy

・発音はたとえLIの影響を受けたとしても,わかりやすさを妨げてはならない。

・文法の誤りは意味に大きな影響を及ぼさなければ許容される。

・誤りの数が多いことによって聞き手の苛立ちの原因になってはいけない。

・語彙の誤りによって誤解を引き起こしてはならない。

Appropriacy

・顧客や他の銀行の取引先とのやり取りに適した言語を使用しなければならない。

Range

・銀行業務に適したテーマや日常的な社会的交流における会話についていける必要がある。

Flexibility

・相手とのやり取りにおいて,話題を提供するなどやり取りを続けることができる。

 

Scoring procedures

■テスト開発者は,採点において,どのようにして高い信頼性と妥当性を達成するかを明確にしなければならない。(e.g., どの評価尺度を使うのか,何人で評価を行うのか)

 

3.Writing and moderating items

Sampling

■テスト細目の内容に記載した能力の全てをテスト項目でカバーすることは難しい。そのため,内容的妥当性と波及効果のために,その能力を構成するサブスキルを幅広く測定することができるようにテスト項目を作成することが重要であり,特定のサブスキルを測定するテスト項目ばかりを作成するのは避けるべきである。

 

Writing items

■テスト項目はテスト細目の内容と一致していなければならない。

■テスト項目を作成する際には,どのような誤解が考えられるか,テスト開発者が意図している解答以外にも考えられる解答はないか,など想像力を働かせる必要がある。

■テスト項目の作成は難しく,使用できないものや作り直さなければならないテスト項目もでてくるため,本番のテストで必要とするよりも多くテスト項目を作成するべきである。

 

Moderating Items

■モデレーションとは,少なくとも2人の採点者が作成されたテスト項目を精査し,改善点を見つけるプロセスである。以下にモデレーションのためのチェックリストを示す。

 

YES

NO

英語は文法的に正確か?

 

 

英語は自然で理解可能であるか?

 

 

英語はテスト細目に沿っているか?

 

 

テスト項目はテスト細目通りに実施されることになっているか?

 

 

当て推量によって正解することがないか?

 

 

テスト項目の文章は簡潔か?

 

 

多肢選択式問題では,正しい解答は1つだけか?

 

 

穴埋め問題では,正しい解答は1つもしくは2つだけか?

 

 

多肢選択式問題では,全ての錯乱子は効果的であるか?

 

 

キー(解答)は正しいか?

 

 

 

4.Informal trailing of items on expert speakers

■モデレーションのプロセスを経たテスト項目は,可能であれば20人以上の専門家にテストの形で提示する。ここでいう専門家とは,年齢や学歴など実際のテスト対象者と似ている必要があり,言語やテスティングのスペシャリストである必要はない。(→試行テスト)

■予想外の解答や不適切な解答があった場合には,テスト項目の修正や変更を行う。

 

5.Trailing of the test on a group of non-expert speakers similar to those for whom the test is intended

■モデレーションと専門家(expert speakers)による確認を経て精査されたテスト項目は,テストとしてまとめられ,実際と同じテスト条件下で,テスト対象者に近いグループに実施する。(→事前テスト)

■しかし,対象者を集められない,またはテストのセキュリティの問題などの様々な理由で,この段階のテストは実施できないこともある。

 

6.Analysis of results of the trial; making of any necessary changes

■実施すべき分析は統計的分析と質的分析である。(統計的分析は19章で扱う。)

■質的な分析では,誤った解釈や,予期していなかったが正しいと思われる解答,その他の欠陥のある項目を発見するため,テスト受験者の解答用紙を調査する。

■分析の結果,問題があると判断された項目は,修正するか,テストから削除する。

 

7.Calibration of rating scales

■口頭試験や筆記試験において採点尺度を使用する場合には,採点尺度の全てをカバーするパフォーマンスのサンプルを収集する必要がある。そして,テストの専門家がサンプルを関連する尺度に割り当てていく。

■この割り当てられたサンプルは,採点尺度の基準となるだけではなく,テスト採点者の訓練を行う際のトレーニング資料にもなる。

 

8.Validation

■テストの最終版を検討する。

■ハイステークテストや出版されるテストの場合,検証は必須であるが,小さい規模で実施されるテストの場合は,必ず行わなければならないものではない。

 

9.Writing handbooks for test-takers, test users and staff

■ハンドブックには以下の内容を含めると良い。

・テストの理論的根拠

・テストがどのようにして開発され,検証されたかの説明

・テストの説明,セクションの詳細,制限時間など(これはテスト細目に含まれることがある)

・サンプルのテスト項目(または完全なサンプルテスト)

・テストを受けるための準備に関するアドバイス

・テストのスコアをどのように解釈すべきかの説明

・テスト採点者のためのトレーニング資料

・テスト実施の詳細

 

10.Training staff

■ハンドブックやその他の資料を用いて,面接官,評価者,採点者,コンピュータオペレータ,試験監督などのテストの実施に関わるすべてのスタッフをトレーニングする。

 

11.Test maintenance

■テストが長期間にわたって繰り返し使用される場合には,問題があるか調査するために,定期的に統計的,定性的分析を行う必要がある。

■ある時点で,オリジナルのテストの内容が広まり,別のバージョンが必要になった場合,テスト細目を変更する必要がない時には,項目の作成から同じような開発プロセス繰り返す。

 (

 

テスト開発の例

例1:到達度テスト

Statement of the problem

3ヶ月間にわたって行われた社会科学とビジネススタディの学術的な文章を読むコースにおいて,どのような進歩が見られるか確認するため,到達度テストを行う。

・コース終了時にどこが最も困難であるかをグループごとに把握することは,今後のコース実施のために有益である。

・波及効果は重要であり,テストは,学生が大学で学ぶ際に必要となるリーディングスキルの練習を促す必要がある。

Specifications

content

・速読と精読のスキルの測定が目的である。

 速読:スキミング(主張を読み取る),スキャニング8特定の情報を読み取る)

 精読:複雑な文章,議論の多い文章の意味を理解する

以下の2つはこのコースで特に注意を払っている基礎的なスキル

  馴染みのない単語の意味を文脈から推測する

  文章の中の代名詞などの参照先を特定する

・テキストは学術的なもの(教科書や雑誌記事から抜粋したもの)を使用する。

・大学院レベル以上を対象者とする。

・テキストの長さは速読で3000語,精読で800語とする。

・学生は様々な社会科学分野を専攻しているため,テーマはできる限り中立にする。

・読みやすさは特に指定せず,使用する文構造の制限もない。

・語彙は,専門用語ではなく,一般的な学術用語を使用する。

・標準的なアメリカ英語またはイギリス英語を使用し,テキストはフォーマルでアカデミックなものである。

・処理速度は,速度では1分間に300語,精読では1分間に100語とする。

Structure, timing, medium and techniques

・テストは速読と精読の2つのセクションで構成されている。

・テスト項目は,速読30,速読20,計50項目である。

・パッセージは,速読が3つ,精読が2つの計5つである。

・時間は,速読が1つのパッセージにつき15分,精読が30分の計75分で実施する。

・受験者は紙と鉛筆を使用する。

・テスト項目は短文解答と空欄補充である。

Criterial levels of performance

2つのセクションのそれぞれで80%の正答率で,このコースの目的を達成したこととする。

Scoring procedures

・独立したダブルスコアリングを行い,関連のない誤り(文法的なミス)は減点しない。

Sampling

・テキストは,テスト細目と一致するように,できるだけ幅広いトピックの文章から選ばれる。

Item writing and moderation

・テスト項目は,十分な能力のある読者に提示した上で,修正や書き直しを行った。

Informal trialing

20名の大学院生を対象に試行テストを実施した。

Trialing and analysis

・信頼性係数は.90で,採点者間の一致率は.85である。

Validation

・教育とテストの経験が豊富なスタッフによって内容の検証が行われる。

・同時検証はチューターによる学生の評価に対して行われる。

・予測検証は,学生が大学院で勉強を開始してから1ヶ月後の被験者指導者の評価に対して行われる。

Handbooks

・ハンドブックは,学生,スポンサー,試験監督者向けに1冊作成される。

・もう一つのハンドブックは,社内用に作成される。

 

 

例2:プレースメントテスト

Statement of the problem

・新入生を5つのレベルのクラスに振り分けるため,プレースメントテストを行う必要がある。

・全てのレベルのコース目標は,一般的なコミュニケーション能力を習得することである。

・波及効果はそれほど問題ではない。

・テストは短く(長さは45分以内),迅速かつ簡単に実施,採点,解釈できるもので,事務員が採点できるテストにする必要がある。

Specifications

Content

・欠落した単語を予測する能力を測定する。

・テキストの長さは1つの問題につき,最大20語とする。

・テキストタイプは,話し言葉によるのやり取りであり,テキストの話し言葉としての性質が,間接的ではあるが,生徒の口頭能力を引き出すことが期待する。

・トピックは教科書にみられる日常的な出来事を使用する。

・文構造は,教科書に掲載されているものを使用する。

・語彙は,教科書に掲載されているものに加え,その他の一般的な語彙を含むこととする。

・標準的な英語で,ほとんどがインフォーマルなスタイルのテキストを使用する。

Structure, timing, medium and techniques

・独立したセクションはなく,テスト項目は合計で100個である。

・制限時間は30分であり,テストでは紙と鉛筆を使用する。

・テスト項目は空欄補充問題である。

Criterial levels of performance

・テストの成績と,(a)インタビューによる課題,(b)インタビューによる各生徒のクラスへの適合性についての教師の見解,を比較してクラスが決定される。

Scoring procedures

・生徒は別の回答用紙に記入し,事務員が迅速に採点できるよう,キー付きのテンプレートを作成する。

Informal trialing

・十分な能力のある学部生1年生20名を対象に実施する。

Trialing and analysis

・テスト項目を組織内のあらゆるレベルの現役学生に試行し,テストの実施と採点における問題点を挙げる。

・統計的・質的分析によって選定されたテスト項目で構成されたテストを1つ作成し,別の現役学生を対象に試行テストを行う。

・各学生の合計スコアを組織内のレベルと比較し,パフォーマンスの基準となるレベルを決定する。

Validation

・テストの最終版は,テスト細目に記載されているリストとの照合を行う。

・ここでの重要な点は,内容的妥当性の検証よりも,テストが新入生を5つのレベルに振り分け,適切なクラスに配置することができたかという点である。したがって,誤配置の割合が少なければ少ないほど,テストの有効性は高くなる。

Handbook

・組織が各学校に配布するためのハンドブックが作成される。

 

  

READER ACTIVITIES

On the basis of experience or intuition, try to write a specification for a test designed to measure the level of language proficiency of students applying to study on academic subject in the medium of a foreign language at an overseas university. Compare your specification with those of tests that have actually been constructed for that purpose.

(海外の大学で外国語を使って学問を学ぶことを希望する学生の言語能力を測定するためのテスト細目を経験や勘に基づいて書いてみてください。あなたテスト細目を,実際にその目的のために作られたテスト細目と比較してみてください。)

→リーディングに絞ってテスト細目を作成することとする。

テスト細目

 <テスト内容>

・本テストは,英語圏の大学で英語教育を専攻することを希望する学生に十分な能力のあるかどうかを測定するためのものである。(目的)

・講義では多くの論文を読むため,英語教育に関する学術的なテキストを速く,正確に読むことができるかどうか,確認する。また,記述問題では,英語教育に関する知識を十分にもっているかテストする。(テストで実施するタスク・テキストのタイプ・トピック)

・対象者は英語教育に関心があり,大学を卒業した者,もしくは卒業見込みの者とする。(対象者)

・テキストは1000語程度のものを使用する。(テキストの長さ)

 <テストの構成>

・テストは3つのセクションから成り,テスト項目は計15個である。

・テスト項目は多肢選択式問題と自由記述式問題である。

・制限時間は120分である。

 <採点方法・基準>

70%以上の正答率で合格とする。

・自由記述式問題の採点は,英語教育分野の教授3名によって行われる。

 

 

Discussion points

 

1-1. Many schools create regular tests by slightly modifying the ones used in the previous year. What do you think about this? Should teachers change the way they create them or is this unavoidable?

(多くの学校では,前年度に使用した定期テストを少し修正してテストを作成している。このことについてどう思うか?)

 

1-2. If you were an English teacher and had to create a regular test, what would be your procedure for creating a regular test? Or what would be the ideal procedure?

(もしあなたが英語の先生で定期テストを作成することになった場合,どのような手順で定期テストを作成しますか?もしくはどのような手順が理想的ですか?)