ABOUT/CONTACT

SEMINAR

SLAA
（Second Language Acquisition & Assessment Research Group）

FOR STUDENTS

TEASY

LINK

2020年度　　英語教育学Ⅶ

Chapter 5　Reliability

H.I

■ある決められた日時に100人が100項目の同じテストを受けると仮定した場合、どのような結果が想像できるか。テストの難易度は適切であると仮定されたとき、全員が0点だったり、100点であったりすることはまずありえない。

■では、テストを受ける時間は同じで、異なる日付であった場合、どのような結果が想像できるだろうか。本来テストを受けるべき日よりも前に受けた場合、同じだけの結果を期待することはできない。状況が同じように見えても、すべての場面で全く同じように動作するわけではないからである。

■上記の点が事実である場合、テストスコアを完全に信頼することはできないことを意味する。前日や翌日にテストを受けた場合、スコアは異なっており、この事実を私たちは受け入れなければならない。

■私たちがしなければならないのは、ある機会にテストで実際に得られたスコアが、同じ学生に実施された場合に得られたスコアと非常に類似するように、テストを構築、管理、およびスコアリングすることである。受ける時間が異なっていても、スコアが類似していればいるほど、テストの信頼性は高くなると言われている。

The reliability coefficient

■テストの信頼性を信頼性係数の形で定量化することができる。信頼性係数は妥当性係数（第4章）のようなもので、さまざまなテストの信頼性を比較することができる。

■理想的な信頼性係数は1である。信頼性係数が1のテストは、いつ実施されたかに関係なく、特定の候補者のセットに対してまったく同じ結果が得られるテストである。一方、信頼性係数が0のテスト（そんなテストが存在しないとは思いますが…）は、誰かが異なる日時で受けたテストスコアが役に立たないことを指す。

■真のテスト信頼性係数が見つかるのは、０～１までの2つの極値の間である。研究者の中には、さまざまなタイプの言語テストで期待できる信頼性係数がどれほど高いかを示唆する研究を行った人もいる。i.e., Lado（1961）：優れた語彙、構造、読解のテストは通常0.90～0.99の範囲

リスニングテストは0.80～0.89の範囲

スピーキングテストは0.70～0.79の範囲

⇒0.85の信頼性係数は、スピーキングテストでは高いと見なされるかもしれないが、リーディングテストでは低いと見なされる可能性がある。

■これらの提案は、さまざまな能力のテストで信頼性を達成する際にテスターが直面するさまざまなレベルの難しさとしてLadoが見ているものを反映しており、スピーキングテストが最も困難である（これに関するこの本の見解については、以下の章と後続の章を参照）。

■実際に、求められる信頼性係数は、他の考慮事項、特にテストに基づいて行われる決定の重要性にも依存する。テストのリスクが高いほど、私たちが要求しなければならない信頼性は高くなる。

i.e., 語学テストのスコアのために海外留学の機会を拒否する場合

⇒そのスコアが確実に得られるようにする必要がある。受験者が1日か2日早くまたは遅くテストを受けていたとしても、それほど違いはないようにする。

進捗テストなどのローステークステストの場合

⇒より低いレベルの信頼性であっても受け入れることができる。

■あるテストの信頼性係数の差異を推定するためには、比較のために2セットのテストスコアを用意するとよい。

■信頼性係数の差異を算出する方法は、被験者のグループに同じテストを2回受けさせることである。これは、test-retest methodとして知られている。2回のテストを受ける期間の間隔が開きすぎても狭すぎても正確な信頼性係数を導き出すことはできない。

■これらの影響は、同じテストの2つの異なる形式（代替形式の方法）を使用することによっていくらか減少する。ただし、多くの場合、代替形式は単純に利用することはできない。

■驚くべきことに、必要な2セットのスコアを取得する最も一般的な方法は、1回分のテストを1回実行する方法である。このような方法は、内部一貫性（coefficient of internal consistency）の保たれた係数を算出することができる。これらの中で最も基本的なのは、split half methodである。

■この場合、被験者は通常の方法でテストを受け、各被験者には2つのスコア（テストを2分割してスコアを算出する）が与えられる。そして、2セットのスコアを使用して、テスト全体が2回行われたかのように信頼性係数を取得する。

■この方法が機能するためには、項目を注意深く照合することにより、テストを実際に同等の2つに分割する必要がある（実際、テストの項目が難易度の観点から注文されている場合は、奇数番号の項目と偶数番号の項目で十分な場合がある）。

■この方法は、2つの「形式」の長さが半分しかないことを除けば、代替形式の方法にかなり似ていることがわかる。代替形式が互いに密接に同等である場合、この完全により経済的な方法が実際に代替形式の係数の適切な推定値を与えることが経験的に実証されている。

The standard error of measurement and the true score

■信頼性係数を使用すると、テストの信頼性を比較することができるが、個人の実際のスコアが、別の機会に得点した可能性のあるスコアにどれだけ近いかは直接明らかになることはない。ただし、もう少し計算すると、人の実際のスコアがいわゆる真のスコアにどれだけ近いかを推定することができる。

■受験者の真のスコア（テストでの能力を最もよく表すもの）が、テストで実際に取得したスコアの特定のポイント数内にある確率について説明することができる。これを行うには、最初に特定のテストの測定の標準誤差を知る必要がある。

■統計的根拠は重要ではなく、重要なのは、測定の標準誤差を使用して、テストのスコアに基づいて行う決定を通知する方法を認識することである。例えば、測定の標準誤差が、真のスコアが肯定的な決定につながるスコア以上である可能性が非常に高いことを示している場合、人々の将来について重要な否定的な決定を下すことには非常に注意する必要がある。

■十分な情報に基づいた意思決定を支援するために、公開されているすべてのテストは、信頼性係数だけでなく、測定の標準誤差もユーザーに提供する必要がある。

■項目反応理論（IRT）として知られる、テストデータの統計分析へのより最近のアプローチにより、個々の受験者の実際のスコアが実際のスコアからどれだけ逸脱する可能性があるかをさらに正確に見積もることができる。

■この章でこれまでに述べたことは、受験者がテストで取得するスコアの一貫性に関係している。目標基準テストでは、候補者が設定された基準に到達したかどうかよりもスコアに関心がないことがよくある。この場合、私たちが探している一貫性は、（信頼性ではなく）意思決定の一貫性と呼ばれる。

■テストが信頼できない場合、多くの個人の実際のスコアは実際のスコアとはかなり異なる可能性が高いことがわかる。これは、これらのスコアにほとんど依存できないことを意味する。

■信頼性が非常に高い場合でも、測定した標準誤差（またはIRTを通じて取得された標準誤差）は、一部の個人の場合、実際のスコアと真のスコアの間に大きな不一致がある可能性があることを思い出させてくれる。これにより、実際のスコアがカットオフポイント（「合格」と「不合格」を分けるポイント）に近い候補者のテストスコアに基づいて重要な決定を行うことについて、非常に慎重になるはずである。

Scorer reliability

■多肢選択式問題は完璧にスコアを出すことが出来る。

→ある受験者が同じやり方で二つの状況で行ったときに同じスコアを出すことが出来る。それは採点者にも同じことが言える。

■同一または異なる採点者が異なる状況で与えた同意のレベルを、採点者信頼性係数によって定量化できる。（試験の信頼性係数と同様の方法で解釈できる）

例）多肢選択式問題：採点者信頼性係数＝1

■口頭テストの採点では完璧な一貫性があるとは言えない。（正解の回答を一つに絞ることは出来ないから）→採点者信頼性係数＜1

■客観テストでは採点者信頼性係数は高いが、主観テストでは採点者信頼性係数は低くなる。→作文の採点で採点者信頼性係数が0.9を超えるように保つようにする。

■採点者の信頼性とテストの信頼性は、どちらか一方の信頼性が低いともう一方も低くなる関係性にある。2つの係数の差は、個々の受験者のパフォーマンスのばらつきに起因する。

How to make tests more reliable

■テストの信頼性には、①受験者のその時々のパフォーマンス②採点の信頼性の二つがある。

Take enough samples of behavior

■他の条件を等しい時、より多くのアイテムがテストの中にあると、そのテストはより信頼性が高くなる。

例）アーチェリーの選手の実力を一射だけでは正確に測ることが出来ない。

→言語テストにおいても問題数が十分な量あると信頼性係数が高まる。

※追加した問題は互いに独立して存在するべき。問題に文脈が存在すると、最初の問題を間違えた受験者が、補足問題を正解することはほとんどないから。

■それぞれの追加問題は、可能な限り受験者を切り替えるものでなければならない。

例）作文/口頭テスト：作文や話す内容がそれぞれ独立したものであると信頼性係数が高くなる。

■問題の長さは長すぎないことも重要。（受験者が疲れたり退屈して自分の能力を十分に発揮できなくなるから）でも、短すぎても信頼性が低くなる。

→そのテストが重要な決定をするようなテストであればあるほど、テストはより長くあるべき。

Exclude items which do not discriminate well between weaker and stronger students

■できる生徒と苦手な生徒が同じような回答をする項目は、テストの信頼性にはほとんど寄与しない。

→易しすぎたり難しすぎたりする項目は外し、差が出る項目に置き換える方が良い。

→易しくて差がつかない問題はテストの序盤に出して、受験者に自信をつけさせたりストレスを軽減させたりするようにするべきである。

Do not allow candidates too much freedom

■受験者に問題を選ばせて回答させる手順のテストは、テストの信頼性を低下させる可能性がある。

→出される問題の自由度が高いほど、実際にその場で引き出されたパフォーマンスと、1日後にテストを受けた場合に引き出されたであろうパフォーマンスとの差が大きくなる可能性がある。

① 受験者に選択させない

② 想定される回答の範囲を制限する必要性　がある

※制限する際には、本当にやってほしい課題をゆがめすぎないように注意。

Write unambiguous items

■意味が明確でない項目や、試験作成者の予想範囲外の回答を問題で提示すべきでない。

→個々の受験者が異なる機会に異なる方法で問題を解釈する可能性があるということは、その項目がテストの信頼性に十分に貢献していないということになる。

unambiguasなアイテムにたどり着くための最良の方法は、出題者が意図した回答とは別の解釈を見つけようとできる限り努力すること。

Provide clear and explicit instructions

■書面による指示と口頭による指示の両方に当てはまり、曖昧な指示に惑わされるのは優秀な受験者であることが多い。

■特定の教育機関の学生向けに作成されたテストにありがち。

→学生が不用意な指示が何を意図しているのか汲み取ってくれると思い込んでいるから。

■口述の指示は混乱を招かないように、常に準備された台本から読み上げるべきである。

Ensure that tests are well laid out and perfectly legible

■機関テストは、再現性が低いことがある。

→言語能力以外の障害によってテストの信頼性を低下させる。

Make candidates familiar with format and testing techniques

■受験者がテストのどこかに慣れていない部分があると、そうでない場合に比べて成績が落ちてしまう可能性がある。

→すべての受験者が何を求められているのかを知る機会を持てるようにする。

例）サンプルテスト（または過去のテストペーパー）の配布、教育機関で実施されるテストの場合には、練習用の教材を提供する。

Provide uniform and non-distracting conditions of administration

■ある試験と別の試験との間の差が大きければ大きいほど、受験者の2つの試験での成績の差も大きくなる。

→統一性を確保する。

例）タイミングを指定して厳守、音響条件をすべてのリスニングテストで同じにする、気が散るような音や動きがないように静かな環境を保つ。

Use items that permit scoring which is as objective as possible

■多肢選択項目には不適切な状況が多くある。優れた多肢選択項目は書くのが難しいことで知られている。→大規模な事前テストが必要。

■多肢選択式に代わるものに受験者が自分で作成した自由形式の項目がある。

→客観的な採点を可能にするはずが、実際には受験者の意味が不明瞭になるようなスペルの問題があると、採点者の判断が必要になる。

→受験者の回答の一部を提供することで、その回答を構成する。

例）自由形式の質問。

Q結果について何が違っていましたか？

A成功は高いモチベーションと密接に関連していた。

→採点上の問題を引き起こす可能性がある。質問の後に「成功は高いモチベーションと密接に関連していた」と続けることで、より高い採点者信頼性が得られる。

Make comparisons between candidates as direct as possible

■受験者に選択肢を与えるべきではない＆回答方法を制限すべきであることへの補強。

例）受験者に6つのトピックから選択させるよりも、1つのトピックですべての作文を採点したほうが信頼性が高くなる。

Provide a detailed scoring key

■高い採点者の信頼性を得るために、キーはポイントの割り当てにおいて可能な限り詳細でなければならない。すべての可能な回答を予想する努力をした結果であり、グループでの批判を受けたものでなければならない。

(※回答が部分的または完全に「正しい」と分類できる場合にのみ適用され、作文などの場合には適用されない)

Train scorers

■採点が最も主観的である場合に特に重要。

■作文の採点は、作文採点経験のない人に任せるべきではない。

■各試験の後、採点のパターンを分析する必要がある。

Agree acceptable responses and appropriate scores at outset of scoring

■スクリプトのサンプルは、テストの実施後すぐに採取されるべきである。

→すべての採点者がこれらに与えるべきスコアに同意したときにのみ、実際の採点を始めるべきである。

■最初から、各審査員はスクリーン上に2つの脚本を表示し、どちらが良いかを答えて、この作業を複数の審査員で何度も繰り返し、比較判定アルゴリズムがすべての判定を統合して測定尺度を作成するため、すべてのスクリプトをこの1つの尺度に当てはめることができる。→高い信頼性が得られる。

■配点が決定したら、監督者はその旨を関係する採点者全員に伝えなければならない。

identify candidates by number, not name

■スコア担当者は、純粋に客観的なテストを除いては、知り合いの候補者に対して何かしらの期待を抱いてしまい、採点方法に影響する。

例）採点者は名前の性別や国籍に影響されて予測を立て、それが採点に影響することがある。→候補者を番号でのみ識別することで、このような影響を減らすことができる。

Employ multiple, independent scoring

■すべてのスクリプトは少なくとも2人の独立した採点者によって採点されるべき。

■どちらの採点者も、他の採点者がどのように試験紙を採点したかを知るべきではありません。

→スコアは別々のスコアシートに記録し、3人目の先輩に渡して、2組のスコアを比較し、矛盾がないかどうかを調査してもらいます。

Reliability and validity

■テストが有効であるためには、一貫して正確な測定値を提供しなければならない。

→テストの有効性を低下させないように注意しなければならない（多肢選択式の項目が不適切に使用された場合など）。

■信頼性と妥当性の間には常に何らかの緊張関係がある。

→テスト担当者は、一方の潜在的な利益と他方の損失のバランスを取らなければならない。

Reader Activities

1．What published tests ore you familiar with? Try to find out their reliability coefficients. What method was used to arrive at these? What are the standard errors of measurement?

→TOEFLの信頼性係数は、ETS公式の調査により、2015年から2016年のデータでは

Reading 0.81

Listening 0.83

Speaking 0.83

Writing 0.81

Total 0.93

となっており、スピーキングに関しては以下のようにAIと人間の両方を使ったやり方で信頼性を高めている。

SpeechRater scores only 0.76

Human rater scores only 0.75

Contributory scoring (both human and machine scores are used) 0.83

標準誤差は発表されていなかった。算出方法は不明だが、一般的な方法で算出されていると予想される。

（式）信頼性係数ｐ＝真値の分散/観測値の分散＝真値の分散/真値の分散＋誤差の分散

尚、信頼性係数の推定方法には再テスト法、同等フォーム法、内的一貫性、評価者信頼性の4つがある。その中でも内的一貫性では折半法、アルファ係数、KR-20、KR-21があり、評価者信頼性には評価者間信頼性、評価者内信頼性がある。

2. The TOEFL® internet-based test is reported as having a standard error of measurement of 4.26 on a typical administration. A particular American college states that it requires a score of 100 on the test for entry. What would you think of students applying to that college and making scores of 104, 100,96, or 90?

→標準誤差4.26だと、受験生のばらつきが多くなるため、100点以上という制限があると、本来想定される得点率100点以上の学生の層とはズレる場合がある。(より上位層しか入学できなくなる)。その為、90点のスコアを取った受験者も想定内になる場合もあるのではないかと考えた。その為、入学時のテストの点数の基準は本来想定している生徒層を考え再検討するか、他のテストに変更する必要がある。

3. Look at your own institutional tests. Using the list of points in the chapter, say in what ways you could improve their reliability.

→カンペ持ち込みOKの場合のテストでは、一問一答の場合だとその人が講義で得た能力を測るには信頼性が低くなると言える。その為、カンペ持ち込みOKの場合のテストでは、それを元に考える力を解いたり、応用力を測ると信頼性を高めることができると考える。

4. What examples can you think of where there would be a tension between reliability and validity? In cases that you know, do you think the right balance has been struck?

→High Steaks Testの場合では、信頼性と妥当性のバランスを担保するべきであり、その基準は厳しいものとされる為、緊張関係が生じると思われる。例えば大学共通テストの場合だと、リーディングとリスニングの多肢選択式問題のみでは妥当性を批判する声もあったが、人生を決定する大事なテストであるという面で信頼性を高めないといけないという面で、現行のやり方が正しいバランスなのではないかと考えた。

ディスカッションポイント

■Test with high reliability coefficients, such as multiple-choice questions, and questions with inevitably lower reliability coefficients, such as interviews and written tests, are both necessary for measuring English proficiency, but in terms of reliability and the types of tests and situations, what is the best balance to include?

（多肢選択式問題のような信頼性係数が高い問題と、面接や筆記のようなどうしても信頼性係数は１より低くなってしまう問題はそれぞれ英語力を測る上で必要ですが、信頼性の面やテストの種類や場面から考えて、どのようなバランスで取り入れるのがいいでしょうか。）

■If a test such as a written test or an interview is to be conducted by multiple examiners, what do you need to do to ensure scorer reliability? Please think specific.

（筆記や面接のようなテストを複数人の試験官で行う場合、Scorer reliabilityを担保する為にはどのような工夫が必要でしょうか。具体的に考えてください。）