人文社会科学研究科 博士課程コース 異文化言語教育評価論 (Testing in Second Language Education) |
異文化言語教育評価論で使用している『大学英語教育学会(2011). 英語教育大全 13巻テスティングと評価』
大修館書店 レポート
2012年4月18日 第1章 英語学力評価論 (pp. 3-10) 担当:Y.Y
第1章 英語学力評価論
1.言語テストにおける構成概念
テストは「個人の行動の特有のサンプルを導き出すために計画された測定のための道具」(池田・大友(監修), 1997: 24)である。言語テストにおける研究対象は
言語技能や言語運用能力の測定(measurement)
言語能力の査定(assessment)
テストと教育行政の関係を探る教育評価(evaluation)
テストとその結果の省に関する倫理規定の整備・・・など
である。
言語テストとそのデータを用いてそれ自身を評価・判断するために、信頼性(reliability)・妥当性(validity)を確保する必要がある。Longman Dictionary of
Language Teaching & Applied Linguistics (2002)ではこれらの要素を
Reliability:…a measure of the degree to which a test gives consistent results. A test
is said to be reliable if it gives the same results when it is given on
different occasions or when it is used by different people. (p. 454)
Validity:…the degree to which
a test measures what it is supposed to measure, or can be used successfully for
the purposes for which it is intended. A number of different statistical
procedures can be applied to a test to estimate its validity. Such procedures
generally seek to determine what the test measures, and how well it does so.
(p. 575)
と定義づけられている。信頼性はそのテストが測定しているもののスコアがどれだけ安定し、信頼のおけるものであるか示す数値であり非常に重要なもの である。同様にテスト作成の際に重要視される指標が妥当性である。妥当性検証によってテスト得点と測定対象能力の関連性が示されるため、あるテスト が何の能力を測定しているかを示すために妥当性はテストを論ずるに不可欠な要素である。英語のテストの場合、「英語力」という構成概念(construct)が 定義されていなければ何を測定しているか不明瞭なテストになる。そのため、言語能力(e.g.語彙サイズ、文法力)の範囲を限定し、その構造を明示し、 それらの構成要素間の関係付けを理論化させた構成概念の定義(construct definition)を明確にしなければいけない。
言語能力を検証するためには「言語能力」を理論づける必要があるが、その際にはその構成概念を定義づけなければならない。その理論は「個々の事象の背後に潜む規則性を発見し、構成概念を用いて、それらを形式化された法則として提示し、個々の事象をそのような一般的法則の論理的帰結として説明する」ものである。理論づけのためには検証可能性(verifiability)が満たされることが必要条件であり、それを確保するために精密性(accuracy)、無矛盾性(consistency)、包括性(inclusiveness)、簡潔性(conciseness)を満たす必要がある。テストの実用の際に教員が使えるという条件も加わるため、簡潔性は重要であり、テストの実用性(practicality)に直結する。
測定するためには抽象的な構成概念(言語理論)を具体的に明示しなければならない。コミュニケーションへの関心・意欲・態度というのでは抽象的すぎる上、観察者(採点者)によって評価の手法や基準が異なる(採点者間信頼性の欠如)場合があり、同一の観察者の場合でも一貫した基準で観察することは難しい(採点者内信頼性の欠如)。具体的なタスクを設け、それを学習者(受験者)に行わせることではじめて構築された言語理論によって定義された言語能力を検証することができる。タスクを通じ、受験者の能力を推察(inference)し、それがどの程度適切か確認する作業を妥当性の検証(validation)という。現状では英語学力=英語を使える能力と認識されているが、測定の観点からは言語に関係する知識(文化等)を排除することはできない。McNamara(1996)は構成概念の定義をする際、1) 言語の知識を習得すること、 2)特定の場面で実際に使えるようになること としている。
英語をはじめとする言語教育における構成概念(=言語理論)は、時代・社会の要請を受けて常に形を変えており不変のものではない。そのため、構成概念の定義づけ、テストの妥当性検証は不可欠である。
2.英語学力論前史
明治初期には数学をはじめとするすべての学科は英語で授業が行われ、教科書も英語で書かれたものであった。そのため学習者はcontent-baseで否が応でも英語を学ばざるを得なかった。しかし、その後翻訳された教科書、日本語で教授する指導者が増えたことから学習者の英語能力が徐々に高水準を保持できなくなってきた。「戦前の高校・専門学校入試英語のレベルは明治・大正期の頻出教材であった英検1級レベルに相当する」(小篠・江利川, 2004)とあるよう、明治初期に比べ徐々に英語学習者の平均的能力が低下していることは否めない。そのため、昭和初期には英語廃止論が唱えられるようにもなった。
明治期の入試英語では口述試問、読解、書き取り、英作文、ディクテーション、英会話のようなタスクが設定され、包括的な英語能力の測定が行われていたことがわかる。
|
Speaking |
Listening |
Reading |
Writing |
Grammar |
慶應義塾 |
○ |
○ |
○ |
|
|
長崎英語学校 |
○ |
○ |
○ |
○ |
|
商業学校入学試験 |
○ |
○ |
○ |
○ |
○ |
高等商業学校予科 |
○ |
○ |
○ |
○ |
○ |
東京師範学校 |
○ |
○ |
|
|
|
補足
Assessment、Measurement、Evaluationの定義について(Payne,
1997)
Assessment: A
term often used interchangeably with testing; but also used more broadly to
encompass the gathering of language data, including test data, for the purpose
of evaluation and making use of such instruments as interview, case study,
questionnaire, observation techniques.
Measurement: The
process of quantifying the performance of test takers. It is concerned with
systematic collection, quantification and ordering of information.
Evaluation: It describes a
general process of making judgments and decisions. The data used to make
evaluations can be quantitative and/ or qualitative.
(Payne, D. A.,
1997, Applied Educational Assessment. Wadsworth Publishing)
検証可能性についての補足説明
言語学は人文学や社会学の1分野であるとみなされることも多いが、チョムスキーが生成文法を自然科学の一つ、つまり経験科学として位置付けたことか ら、実証データを用いて言語研究を行う際には、実証科学の手順に従って研究を行うことになった。
自然科学の研究は、1)仮説の設定、2)仮説の実証的研究、3)検証に基づいて仮説が採択された場合の発展、または棄却された際の仮説設定のやり直し、という流れに沿って行われる。そのため、研究を深める際に、この過程がリング状、もしくは螺旋状に繰り返されなければならないとされる。このように過程が繰り返されるためには仮説が検証可能な形で設定されていなければならない。つまり、検証可能性とは、仮説の設定ができうるものか、というものである。例えば、ダーウィンの進化論が発表された際には検証が不可能であったため、この理論は科学的ではないとみなされたが、現在では遺伝子解析等を通じ、検証可能となっている(石川、2006)。
第1章 英語学力評価論 (pp. 10-20) 担当:R.F
3. 学習指導要領は英語学力をどのように定義してきたのか
学習指導要領に見る構成概念, 「コミュニケーション」という用語の曖昧さ, 学習指導要領と評価基準の設定
年 |
目標 |
特徴 |
改善点 |
1947(昭22) |
英語で考える習慣、聞き話し、読み書き、英語話者、その習慣について知る |
|
|
1951(昭26) |
4技能の統合 |
下位能力の例示あり |
|
1956(昭31) |
英語文化理解・自己文化向上 |
語彙数の規定 ex) 1年:500-800語 具体的な指示内容多い |
自己文化について言及 |
1958(昭33) |
音声・語彙・文法事項を言語材料として4技能により運用 |
文法構造に基づくシラバス 語彙数の指定 |
a指導内容量を規制 |
1969,
1970 |
|
学習内容の削除 ex) 中学
1100~1300 a 950 ~
1100 |
生徒の能力差に対応した指導 |
1977(中学) 1978(高校) |
初歩的な英語を用いて簡単な事柄を話し、聞き 初歩的な英文読解、書き |
簡単な・初歩的な、が頻出 |
中学週3時間体制へ 指導内容・言語材料を削減 |
1987(昭62) |
実践的コミュニケーション能力の養成 |
学習普段を軽減 言語材料の実質的削減 |
計画的組織的指導を容易にする |
1998(平10) |
実践的コミュニケーション能力重視と共に特に中学で聞く、話す、を重視 |
中学:機能語100語 総語数900語 |
ゆとり教育 週5日制 |
|
|
目標基準準拠評価 観点別評価 |
n 英語学力観の歴史
テスト研究からみた構成概念の定義の要素があるが、英語運用能力の定義、各要素の関係付けるための定義が欠けている。
4. 言語評価研究おける言語能力
4.1 構成概念とその定義 --- 史的区分
n Chalhoub-Deville
& Deville(2005) a本書では引用
@
能力ベース A階層的 Bパフォーマンス・ベース C談話における相互関係
n Bachman
(2007)
@
技能と要素 A直接テスト B語用論テスト Ccommunicative
testing D相互作用能力 Eタスク・ベース言語運用テスト F相互作用主義
n Chapelle
& Brindley (2002)
@
言語能力重視アプローチ:特定の言語使用場面を想定せず、抽象的能力として構成概念を定義
テストでの言語使用は潜在能力の結果
A
言語運用重視アプローチ:観察結果から実際どの程度言語が使えるか推測するためテストを使用
与えられたタスクが要求された作業を行えるかを検証
4.2 個人に内在する言語能力観に基礎をおいた構成概念の定義
4.2.1 個人に内在する能力としての言語能力観
前コミュニカティブの時代
n Lado
(1961): 4技能、発音、文法、語彙。自国文化の価値観の気づき
「外国語教育が生み出しうる最大の価値は教育そのものである」
n Carroll(1968)
@
言語は規則の体系 A言語能力は相互に関係しあった一連の習慣から成り立つ B顕現した言語能力を言語運用と呼ぶ C言語能力、言語運用、共に個人差あり。
・刺激・応答・タスクに具体化し、音素、語彙、形態素と東吾に加え、すべてを統括した統合的言語運用として会話・聴解・読解・ライティング能力などと言語を概念化
・指導と評価と言語が一体化していた時期
4.2.2 ハイムズのコミュニケーション能力理論
n Hymes(1971)
:
・ 言語能力は社会で得られる経験、社会的ニーズ、経験によって促進される、動機、経験なども含む
・ チョムスキーの言語理論は、言語の社会的側面を捨象していると批判
・コミュニケーション能力を「言語を使用するための能力」と言い換えるが、習得は文法能力の習得と同様の語彙で記述することができる、と主張
n ハイムズのコミュニケーション能力理論は、経験科学として検証可能性、精密性、包括性など様々な要件を追及しようとしており、言語の形式化というチョムスキーの試みより困難であるとされる。
4.2.3 外国語習得研究におけるコミュニケーション能力の定義
n 1980年代、母語を想定したハイムズの理論を第2言語習得に応用する試みが行われる
n Canale
& Swain (1980):
文法能力、社会言語的能力、方略的能力がコミュニケーション能力の最低限の構成要素である。
n Canale(1983):
・能力を示す言語運用(performance)の代わりに、言語使用のサンプルを実際のコミュニケーション(actual communication)として区分。ハイムズが指摘した言語外要因を積極的に含めた。
n Bachman
&Palmer(1983):
a情意の介在、方略的能力の操作を受け、適切な言語使用が行われる
情意:不安などではなく、トピックに対する否定的感情など
n Schachter(1990):
・コミュニケーション能力は文法能力と語用論的能力から成るが、文化的社会的規準は文法、音韻、統語、語用論すべてのレベルに影響を与えるのでは?
・社会言語的能力・方略的能力と同様に文法能力も重要
4.2.4階層的言語能力論
n Chalhoub-Deville
& Deville(2005)
・階層的言語能力論は受験者の言語能力に関する認知的表象化の理論である、とし批判的。
・ACTFL:4技能を5段階に分け、各段階を記述子(descriptors)で特徴づける(CEFR,
can-do項目も同類)
a構成概念を階層的に示すに十分な理論的根拠、実証的証拠モデルが欠如と批判
n Hulstijn(2008)
・CEFR
levelsの代案を提示
・言語運用の3種の可能性:a. 限られた場面での使用、良質の使用言語、 b. 広範囲の場面での使用、言語の質が劣る、 c.言語運用の範囲と使用言語の質が一致 (CEFRはa,b,の考慮が欠如)
a代案
第1段階:@言語使用場面で必要とされる機能を記述 A記述された作業遂行のために必要な言語能力レベルを明示、文脈と切り離して言語知識のテストを行うa信頼性、妥当性の検証が容易
第2段階:合格者のみ対象とし、言語使用場面とタスクを与え、タスク遂行をテスト。a信頼性、妥当性の確保が困難
Chalhoub-Deville
& Deville(2005) A look at and forward to what language tests measure. In E.
Hinkel (Ed.) Handbook of research in
second language teaching and learning (pp. 815 ? 831). NJ: Lawrence
Erlbaum.
構成概念の定義について、各時代を区分して考察。
@
能力ベースによる定義(前コミュニカティブ時代)
n Lado(1961)
構造主義的アプローチであり、 skills(4技能など)とelements(文法、語彙、文化的知識)で言語知識を測定。測定対象をperformance(言語使用)ではなく、competence(能力)とした。
n Carroll(1986)
言語テストとは言語パフォーマンスを測定すべき。(1)測定の統合化(発話・書く能力を統合させる) (2)テストの真正性(authenticity,
real life)の面、の2点を重視すべき。
n Canale
& Swain (1980)
L2の構成要素として、言語知識のみならず、実用的知識(pragmatic
knowledge)を必要とした。Canale(1983)がさらにディスコース能力を加えた。(前回レジュメp.2参照)
n Bachman
& Palmer(1980)
Canale & Swain(1980)のコミュニケーション能力の測定を発展させた。言語知識のみでなく言語能力も含み、communicative
language ability (CAL)modelとして定義づけた。
A
階層的(言語能力)による定義
ACTFLは広く用いられている一方、批判も多い
ACTFLに関する批判
n 受験者のパフォーマンスを、能力または実生活での言語使用の規範(paradigm)と結び付けるモデルが欠けている。
n ACTFLのガイドラインは表面上、真正性と学習者が実社会で行うパフォーマンスタスクを強調しているようにみえる。しかし、実際ガイドラインは、一般的で生徒の実際の必要性を調査することなく選択されている。
*** 前回まで
***
英語力とは何かという「構成概念」と, その測定方法に関する研究を概観した.
4. 言語評価研究における言語能力
4.3 いわゆる「使える英語」の構成概念と測定について (pp. 21-29)
4.3.1
パフォーマンステスト
n パフォーマンステストとは
(Canale & Swain, 1980; McNamara, 1996)
・4技能を統合した言語使用, 統合型のテスト
・与えられたタスクを行う過程で得られた言語データそのものが言語能力であることを前提とする.
・パフォーマンステストによる言語運用能力の客観的測定がどこまで可能なのかを, 採点者, 評価基準, タスクと受験者の言語運用との関係から検証されてきた.
n パフォーマンステストにおけるタスクの役割
<Bachman (2007) による分類>
[1] 受験者が潜在的に持っている言語能力を引き出す
? 言語能力は個人の学習者に内在するものだと見なし (Bachman, 2007), 現在受験者がどのような能力を持っているかを測定対象とする.
[2] 将来受験者が実際の言語使用場面でタスクを行うことができるかを測定する
? 将来受験者の実生活の言語使用場面で使われる可能性の高いタスクを設定し, そのタスクが遂行できるかどうかを検証する (Norris et al., 2002).
<McNamara (1996) による分類>
[1] 強い意味でのパフォーマンステスト: 受験者がある課題を完成できるかどうかが測定の対象であり, 言語能力だけでなく認知・情意・社会要因などにタスクの完成度は左右される. したがって, 言語運用能力を必ずしも測定できるわけではない.
[2] 弱い意味でのパフォーマンステスト: 受験者から言語運用能力のサンプルおよびそれに直接関連した要素を採取することで, 言語運用能力を測定する.
コミュニケーション能力の構成概念として, 非言語能力 (e.g., 方略的能力, 情意要因) を含めるという取り組みだが,
これらの要因をどのように測定対象とするのかは未だ体系化されていない.
? 全く言語を使わないテストは言語テストとは呼べない. あくまで, 言語能力・言語コミュニケーション力 (柳瀬, 2008) を測定しようとしていることを念頭に置くべき.
4.3.2 言語使用場面における相互作用を基礎とした構成概念
n テスト研究における相互作用
・言語運用は「言語能力が文脈およびメタ認知方略と相互作用すること」で行われる
(Canale &
Swain, 1980; Canale, 1983; Bachman & Palmer, 1986) と考える立場を相互作用主義と呼ぶ (Chapelle, 1998).
・相互作用の結果として言語能力が変化することは十分あり得るため (Chalhoub-Deville, 2003), 試験官とのやり取りや文脈の影響が受験者のパフォーマンスに影響を認める立場を, 特にミニマリスト相互作用
(Bachman, 2007) と呼ぶ.
n 近年の相互作用主義
・社会文化理論
(Kramsch, 1986, 1998; Vygotsky, 1987; Lantolf, 2009) の流れを汲む言語運用
理論に基づく考えとして, 「言語運用能力は, 受験者の内にあるものではなく,
相互作用
によって作られる相互作用能力 (interactional competence) である」とする.
・つまり, 言語能力は個人の頭の中に存在せず (McNamara & Roever, 2006), 学習者の潜在能力は参加者とのやり取りの中で見られるとする立場.
? タスクを解決できたかどうかでは潜在能力を観察することはできない.
・この理論を応用したテストとして, Johnson (2001) の実践的会話能力テスト (the Practical Oral Language Ability: POLA) が挙げられる.
? ACTFLの口頭能力測定試験のように,
トピックが事前に決められており, 試験官によって自然な会話が制限されているテストに対し, 単なる情報のやり取りではなく,
参加者同士の相互の関わりを測定するテスト.
4.3.3 社会文化理論の教育観とダイナミック・テスティング
n ダイナミック・テスティングとは
・相互作用主義の原理に基づいたテスト理論であり, 各々の受験者が明示的な指導とともにテストを受けるというもの (Sternberg & Grigorenko, 2002).
・従来の静的なテスト
(static test) では, 指導 (フィードバック) が入ることはテストの測定誤差を生むために避けるべきものとされたが, この理論では, 相互作用によって生まれた誤差が言語発達 (= 言語能力) を表しているとする.
? 言語の発達と運用は区別されるものではない (Lantolf, 2009).
? 教育心理分野のテスト‐指導における, ATI 現象 (aptitude,
treatment, interaction: 能力や適性によってその人に適した教え方が違う) とも関連する.
これらの社会文化理論は, 評価と指導の一体化という点において理想的だと考えられる.
4.3.4 英語学力評価における社会文化理論の問題点
1)
受験者個人の潜在能力を推測しようとしても, 相互作用場面における受験者それぞれの貢献度を得点化することができない.
2)
相互作用場面はその場限りのものであるため, 受験者の普遍的な特性を観察することができない.
3)
受験者間に共通の特性を観察することができない.
4)
試験官の能力に受験者の能力が左右されるため, 受験者のランク付けなどはできない.
4.4 伝統的テストの有効性について
n 近年のテスト研究では, 言語知識ではなく言語運用能力に関する構成概念を解明することを目的としてきた.
n しかし, 4技能と語彙・文法からなる言語使用能力観も実践の場では有効であることを念頭に置くべきである.
5. 意味のある英語学力を評価するために必要な諸事項
5.1 今後に残された課題
n 言語能力の定義について
・どの場面でもどの目的にも合致した単一全能の評価法や構成概念は存在しえないため,
理論研究において, 教育環境を無視した過度な普遍化は見直されるべきである.
・逆に, 極端に個別化した言語能力の定義は, 学習者個人の言語能力の一般化すらできなく
する.
n 構成概念の定義について
・言語能力として重要な要素を列挙するのではなく, それらを包括して意味づけるための
枠組みが必要となる.
・従来の学習指導要領は, 習得すべき言語材料や技能, 下位技能をリスト化するにとどまっていたが, それらを包括する「コミュニケーションへの関心・意欲, 表現の能力, 理解の能力, 言語や文化の知識・理解」という評価観点を加えたのは画期的である.
・言語運用能力に間接的に関わる知識の構成概念を定義することが不十分である. 外国語教育によるメタ認知の発達など, 様々な知識が教育目標となりうる限り, これらを構成概念として定義づける作業が必要になる.
5.2 意味のある英語学力評価に向けて
英語力をどのように捉えているのかを明示することなしには意味のある測定はできないことを念頭に置くべき.
1. 英語学力の測定
1.1 測定の基本概念
□英語学力の測定は教育機関や実社会において様々な目的や方法により実施されている。
□測定の基本概念
@measurement:明確な規則と手順に従って、受験者の特性を数量化する方法
※数量化:対象となる特性に数値を割り当てること
Aassessment:統計的かつ十分な根拠をもった手続きに従って、関心ある対象について
の情報を収集するプロセス
Bevaluation:アセスメントの結果を利用して何らかの判断や決定を行うこと(価値判断を含む)
1.2 測定の手続き
□測定の手続きはB段階で説明され、この手続きを経て得られたテスト得点は変数と呼ばれる。
第一:特性または構成概念を概念的に定義すること
第二:構成概念を操作的に定義すること
第三:観察されたものを数値化すること
□第一段階について
測定は「誰に対して」「どのような目的で」実施するのかを明確化し、それに適した方法で対象とな
る構成概念を定義する必要がある。構成概念の定義方法は@シラバスに基づく場合、A理論モデルに基づく場合の2通りが考えられる (Bachman & Palmer, 1996)。
□第二段階について
測定したい構成概念の推論を可能にする言語運用を、観察したり導きだしたりする手順や条件を明示
する事が不可欠。手順や条件を明示することで構成概念を操作的に定義することができ、どのようなタスクを課しどのように採点するのかといった測定の手続きが明確化される。測定したい構成概念の指標として変数を解釈するための論理的根拠を与えるのが操作的定義であると言える。
□第三段階について
観察された言語運用に対する数値化の手順を定める段階。テストや質問紙、面接などを実施する場合は以下2通りの数値化の方法がある。
@あらかじめ定義された段階別の評定尺度に基づき、観察された言語運用の質や水準がどの段階に相
当するかを判断する方法(受験者に言語産出を求めるタスク:ライティング・スピーキングテスト)
A個々のタスクや項目に対する応答に正答・誤答を与えたり、部分点を与えたりすることで得点化し、
合計する方法(短答式の項目の場合:多肢選択問題・穴埋めなど)
□テスト得点を用いた統計分析結果が意味のあるものとなるためには、測定の信頼性・解釈の妥当性が確保されている必要があるが、それを判断するためには測定の手続き段階が明確化されていることが必要である。
1.3 測定尺度の種類
□観察された言語運用を数量化すると、その数値は測定した構成概念をあらわす変数となる。
□構成概念をどのように定義し、どのような規則・手順で測定したかによって数値の種類と情報量は異
なる。数値の種類と情報量に応じて定義されたのが以下4種類の尺度であり、@→Cの順に情報量が
増す。
@名義尺度:集団や個人の属性を区別するための尺度
A順序尺度:測定したい特性の度合いの異なる水準に、数値を順番に割り当てた尺度
水準の区別に加え、「どちらが大きいか」という順序性の情報を含む
B間隔尺度:ある特性の水準間の間隔が等しい場合に、それらの異なる水準を数値化した尺度
水準の区別・順序性に加え、「どのくらい大きいか」という情報を含む
C比率尺度:区別性・順序性・等間隔性に加えて絶対原点(その特性が全くない状態)が存在する尺
度。ある数値が別の数値に対して何倍大きいかという情報が得られる。
2. テスト得点の記述統計
2.1 得点分布
□テスト得点を統計処理する前に度数(ある階級に含まれるデータの個数)の分布図を描き、形状を確認しておくことが重要。
□得点分布にはさまざまな形状があるが、低得点から高得点まで左右均斉に分布し、中央の度数が高くなっている分布の代表的なものが正規分布である。
■中央の度数が大きく正規分布より分布の形状がとがっている場合→プラスの尖度
■中央の度数が小さく分布がなだらかな場合→マイナスの尖度
■高得点に得点集中・低得点に裾を引く→マイナスの歪度・分布は負に歪んでいる
■低得点に得点集中・高得点に裾を引く→プラスの歪度・分布は正に歪んでいる
□分布が正規分布にどれくらい近似しているかということが相関係数を解釈したり、テスト得点分布の違いについて推論したりする場合に重要となる。
■集団基準準拠テスト:正規分布であることが予想される
■目標基準準拠テスト:尖度がプラスで負に歪んだ分布であることが予測される
2.2 代表値と得点の散らばり
□度数分布図で得点分布の形状を確認した後、より正確に得点分布の紹鴎を記述するために、代表知と得点の散らばりの程度に関する統計量を求める。
□主な代表値
代表値:分布を代表する値のことで、得点の中心傾向を表す。代表値としては最頻値・中央値・平均値が良く用いられる。
最頻値:もっとも多くの受験者が得た得点
→全ての受験者情報は反映していない。名義尺度・順序尺度の値に適切な代表値の指標。
中央値:受験者を得点の低い方から高い方に順に並べたときの中央の得点。受験者が偶数の場合は中央値が2つとなるので、その得点を合計し2で割った数を中央値とする。
→全ての受験者情報は反映していない。順序尺度・間隔尺度の値に適切な代表値の指標。
分位数:テストを得点順に並べ、低い方から25%の値→第一四分位数、50%の値→第二四分位数,
75%の値を第三四分位数という。
→順序尺度や歪みが強い分布に有効活用可能
平均値:受験者の得点を全て合計して受験者数で割った値
→全ての受験者情報を反映しており、外れ値の影響を強く受ける。間隔尺度・数値計算をする場合・推測統計に最適
□分布に歪みが有る場合には最頻値・中央値・平均値のすべてを記述しておくことが望ましい。
□代表値に加え、得点の散らばり具合の程度も得点分布を記述する上で重要な指標であり、最もよく用いられる散らばりの程度の指標が標準偏差である。
□標準偏差:間隔尺度の値の散らばりを表す最適な指標。標本の分布を記述する場合に用いる。
※標準偏差→偏差の二乗和を受験者数Nで割った標本分散の平方根
□不偏分散:標本をもとに母集団の分布を推測したい場合に用いる。
※不偏分散→偏差の二乗和を受験者数N−1で割った標本分散の平方根
□標準得点:同じ集団に実施された異なるテストの得点を相互に比較したい場合
※標準得点:得点から平均値を引いて標準偏差で割った値。標準得点を10倍して50を加えた値はZ得点と呼ばれる(日本では偏差値得点とも呼ばれる)。
2.3 テスト得点間の関係
□2つ以上のテストを同じ集団に実施し、得られた2つ以上の得点分布の関係を調べる場合もある。一方の変数の増加につれて他方の変数も増加する場合を正の相関関係があると言い、逆に一方の変数の増加が他方の変数の減少に対応している場合を負の相関関係があるという。
□変数間の関係を表す統計量が相関係数であるが、その種類は様々なので測定尺度の種類と分布の状況により、適切な相関係数を用いる必要がある(代表例:ピアソンの積率相関係数,スピアマンの順位相関係数)。
□積率相関係数:
@2つの変数が間隔尺度であること
A対になっている変数はそれぞれ他の変数から独立していること
B正規分布であること
C線形性があること
□順位相関係数:2つの変数間に線形の関係はあるが、どちらかの変数が順序尺度で構成されている場合に用いられる。
□いずれの相関係数も、−1から1までの値となり、相関係数の絶対値が大きくなるほど関係が強いことを示す。
□相関係数の解釈の際の注意点
@相関係数と因果関係は別物。相関係数が高いからといって必ずしも2つの変数間に因果関係があることを意味するわけではない。
A第3の変数の存在で2つの変数間に見かけ上の相関がみられる場合、偏相関係数を用いる。
Bデータが正規分布ではない場合・測定誤差が存在する場合・2つの変数間が線形関係に無い場合・一部の数段だけを見ることにより選抜効果または切断効果が存在する場合、外れ値が有る場合、層別化されたデータの場合、受験者の能力の範囲に制限がある場合などの相関係数の値には注意が必要
□相関係数を意味あるものとして解釈するためには、2つの変数間にどのような関係があるのかについて、理論や先行研究、経験に基づいて論理的な理由が説明されることが重要である。
2012年5月30日 第2章 英語学力測定論 (p.38~47) 担当:N.T
3. 項目分析 (p.38
~)
■ 項目分析
(item analysis): テスト項目の統計的な特徴 (適切な得点分布・信頼性) を明らかにすること。
a 受験者: 個々のテスト項目の回答状況について診断的な情報の提供
a 教員・プログラム開発者: 指導改善に役立つ情報の提供
a テスト開発者・作成者: 事前のテストの得点分布やテストの難易度レベルの調整・内的一貫性の信頼
性の向上・有効に機能していない項目の事前の発見や修正に役立つ情報提供
3.1 古典的項目分析
各項目の得点の積み上げが合計点となる。
@ 正答・誤答:
[ 2値型採点 ] 正答 = 1点, 誤答 = 0点
A 部分点を与える方法
a 受験者の各項目への応答状況が数値化されるため、項目得点の分布を統計的に記述することが可能。
項目分析の結果、各種の項目統計量 (難易度・弁別力) が算出される。
■ 項目難易度:
各項目がどのくらい難しいかを示す指標。正答や誤答の潜在的な問題を診断できる。
□ 項目難易度指標 (item difficulty index, p):
0 ≦ p ≦ 1
2値型採点項目:
正答者数/全受験者数 の割合
部分点採点項目: 項目得点の平均値/(部分点の最大可能値−最小可能値) の割合
錯乱肢を選んだ受験者の割合・各部分点を得た受験者の割合を求めることも可能。
■ 項目弁別力:
各項目がどれだけ成績上位者と下位者を分別できるかの指標。
得点分布の形状や信頼性に影響を与える。
□ 項目弁別力指標 (item discrimination index, D):
-1 ≦ D ≦ 1, プラスの値が大きいほど弁別力が高い。
(その項目に回答した成績上位群/全体) ? (成績下位群/全体)
成績上位群・下位群の人数は、合計点でそれぞれ3分の1あるいは27%
□ 点双列相関係数 (point-biserial correlation coefficient): 項目得点と合計点の相関係数を計算する手法
2値尺度の項目得点⇔間隔尺度としての合計点 の積率相関係数
※ある項目の弁別力が高ければ、その項目の正答者の合計点はより高く、誤答者はより低い。
a 項目得点とテストの合計点との間には強い正の相関関係がある、という予想を前提とするもの。
□ 弁別力指標は教室内のテストで用いられる一方で、点双列相関係数は大規模テストで用いられる。
■ 項目バンク:
テストの品質管理として、項目の内容と項目特性値の情報を記録する。
■ 項目選択の基準:
【 集団基準準拠テスト 】
□ 項目難易度が0.5前後の項目を中心とする。
a 難易度が極端な場合は、弁別力指標が低い傾向にある。
□ できるだけ弁別力の高い項目を選ぶ (D ≧0.3,
D < 0.2 の場合は削除か修正が望ましい)
a 標準偏差を大きくすることができ、内的一貫性の信頼性を高めることができる。
【 目標規準準拠テスト 】 合否の分岐点の割合に近い項目難易度指数を持つ項目を選択する。
3.2 古典的項目分析の限界
(1) 標本に依存した記述統計量しか得られない。【標本依存】
項目統計量a テストを受験した特定の集団や受験者に依存する。
テスト得点a テストを構成する特定の項目群に依存する。
a 受験者集団が異なる場合は項目統計量の比較・テストが異なる場合には、受験者の得点の比較が困難
a 学力の伸びを測るために平行テストが必要だが、古典的項目分析に基づく項目統計量から作成するこ
とは困難。
(2) ある項目の項目特性値とある受験者の能力水準値とを結びつける情報が得られない。
(3) 項目という測定の1面 (相: facet) のみしか扱っていない。
・ スピーキングやライティングのテストでは、複数のタスクがありそれを複数の評定者が評価する。
a 評定者の相対的な厳しさの情報を得る必要がある。
4. 項目応答理論
4.1 考え方
■ 項目応答理論
(item response theory: IRT):
・古典的テスト理論の限界を克服するために開発された測定モデル
・テスト項目に対する多くの受験者の応答パターンから、項目の特性値と受験者の能力値を推定する。
a 能力値は仮定された潜在特性尺度上に位置づけて表される。
a 項目の困難度と受験者の能力値とが独立の特性値として推定される。
■
受験者の学力・能力
(θ) は項目に対する正誤の応答パターンから推定される。
a 推定の前提 = 「能力の高い受験者はよりその項目に正答する確率が高い」
■
局所独立の仮定
(local independence assumption): ある特定の能力値θを持つ人の項目への応答はそれぞれの項目で互いに独立である。
= 1次元性の仮定
(unidimensionality assumption): すべての項目が1つの特性のみを共通して測定している。
4.2 項目特性曲線
■ 項目特性曲線
(item characteristic curves): テスト項目の特性を表す曲線で、ある能力値を持つ受験者が
その項目に正答する確率を表す。受験者の能力値が高くなれば、正答率も高くなるという前提。
(a) 項目困難度パラメタ
(difficulty parameter): 項目特性曲線が右にあるほど、項目を正答するために要求
される能力値レベルが高いので、難しい項目である。
(b) 項目識別力パラメタ
(discrimination parameter): 項目特性曲線の傾きが急なほど、能力値の高低をより
明確に識別する (項目1, 3)。
(c) 当て推量パラメタ
(guessing parameter): 能力値の低い受験者の正答確率が0でない場合は、当て推量
で正答する可能性を示す。多肢選択式項目でよく見られる。
※パラメタ: 項目特性曲線の形状を決定するのに必要な定数。
■ 項目応答理論の基本モデル式:
能力値θの受験者が項目jに正答する確率。
a ロジスティック関数を用いると数学的に扱いやすい。
□ 1 パラメタ・ロジスティック・モデル(1PLM = ラッシュモデル): (b) のみを含める
(a = c = 0)
□ 2パラメタ・ロジスティック・モデル(2PLM): (a), (b) を含める
( c = 0)
□ 3パラメタ・ロジスティック・モデル(3PLM): (a), (b), (c) を含める
a 含めるパラメタが増えるほど、安定した推定値を得るために多くの受験者が必要になる。
※2値型IRTモデル (dichotomous IRT model): 項目得点が1か0で採点される2値型項目を対象とする。
⇔多値型IRTモデル:
部分点や段階点で採点される。
図1 項目特性曲線の例 (p. 42より抜粋)
4.3 情報量と情報関数
■ 項目情報量
(amount of item information): 受験者の能力値水準を推定する際、ある項目が表す情報量。
項目情報関数で表される。
■ 能力値水準に応じて情報量が異なる。a 情報量が大きいと精度の高い推定値 (estimates) が得られる。
■ テスト情報量
(amount of test information I(θ)): テストを構成する各項目の項目情報量を合計したもの。
■ テスト情報関数
(test information function): ある能力値で与えられるテスト情報量を表した曲線。
テストが提供する各能力値水準における情報量の大きさを推定する。
■ 推定の標準誤差
(standard error of estimation): 各能力値水準における測定精度。 1/ √テスト情報
■ 異なる能力値水準において最大の項目情報量を提供する項目を選別することで、測定精度の高いテス
トを作成できる。
【集団基準準拠テスト】幅広い能力値水準で最大の情報量が得られる項目を選択する。
【目標規準準拠テスト】合否の分岐点に近い能力値で最大の情報量が得られる項目を選択する。
4.4 テスト開発への応用
■ 項目応答理論の特徴
・受験者集団に存在しない項目特性値が推定できる。
・特定のテスト項目群に依存しない受験者の能力値が推定できる。
・受験者ごとにそのテストによる測定精度を評価することができる。
a テスト (尺度)
の等化を容易にするため、テスト開発の測定モデルとしてよく用いられる。
□ テストの等化
(equating): テストの異なる版から得られた測定結果を相互に比較可能にするため共通
尺度上で表すための手続き。Ex. TOEFL PBTのテストはどの回のテストも比較可能とされている。
■ 英語力の経年変化の研究:
項目応答理論の等化により、複数年度の学力テストが比較可能となる。
・高校生の英語力やセンター試験で測定される英語力が年々低下している。
・英語力の学校間格差が広がっている。
■ その他の役割
・DIF (特異項目機能)
の項目の検出
・共通尺度上で困難度や識別力が推定されている項目バンクの作成
・学力の国際比較研究
4.5 多相ラッシュモデル
n ラッシュモデル: 1つの相 (fact) のみを分析のプロセスで扱う。
n 測定の相: 測定のプロセスでテスト得点に影響を与えると考えられる側面。
ex.
項目・タスク・評定者・回数・版・テスト方法 a 各相は複数の条件 (condition) を含む。
n 多相ラッシュモデル: ラッシュモデルの拡張モデルの1つ。複数の相の分析を行うことが可能。
ex.
受験者が複数のタスクを与えられてタスクごとに異なる評定者によって評定される場合
a 項目の相対的な困難度に加えて評定者の相対的な厳しさの程度の情報が得られる。
a モデルに適合しない項目・評価者を特定 a 項目の修正・削除や評定者の採否・再訓練
n 多層ラッシュモデルにはFACETS program (Linacre & Wright, 1993) が用いられる。
n FACETS: ロジット尺度 (平均0,
標準偏差1に標準化された尺度) 上で、項目の困難度や評定者の意厳しさの程度を推定値として示す。
ロジット値 |
項目 |
評定者 |
プラス (大きい) |
難しい項目 |
厳しい評定者 |
マイナス (小さい) |
易しい項目 |
甘い評定者 |
a Infit: データとモデルの適合度を表す指標。
±2以上だと適合度が悪い (misfit) a 項目・評定者の変更・修正に生かせる
n FACETSでは相の組み合わせから一貫性が見られない測定に関する情報も提供される。【交互作用】
1)
評定者と受験者, 2) 項目と受験者, 3) 項目と評定者 の3種類の組み合わせの場合
1)
ある特定の集団には甘い採点をする評定者
2)
ある項目群について一貫性のない、またはバイアスのある評定をする評定者
3)
特定の項目群に特別な応答をする受験者
2012年6月6日 第2章 英語学力測定論 (p.47~58) 担当:Y.Y
5.信頼性
5.1
考え方
・信頼性(reliability)とは、測定の一貫性(consistency)あるいは安定性(stability)の程度である。
・テスト得点は、測定したい能力以外にもさまざまな要因によって影響を受け、変動する。
l
受験者の体調
l
テスト実施手順の違い
l
時間の経過による受験者の能力の変化
l
テストの版の違い
l
評定者の違い
などが測定誤差(measurement error)の原因となる。
→信頼あるテスト得点とは、測定したい能力を最大限反映し、測定誤差を極力含まない得点。
→測定誤差の原因を完全に除去することはできない。
・信頼性検証の理論として、古典的テスト理論(測定誤差を一括して扱う)と一般化可能性理論(誤差を要因に分けて扱う)がある。
5.2
古典的テスト理論に基づく信頼性推定
5.2.1. 信頼性推定のモデル
・古典的テスト理論では、測定誤差は一括してランダムに発生すると仮定する。
・テストの観測得点(observed
score)= x、真の得点=、誤差得点=
とすると、
テスト観測得点の分散=、真の得点の分散=
、ランダムな誤差分散=
とすると、
=
+
の式が成り立つ。
・観測得点の分散に対して、真の得点の分散が大きければ大きいほど、また誤差分散が小さければ小さいほど、そのテストの観測得点はより信頼性が高いといえる。
・理論上の信頼性()は、観測得点の分散にしめる真の得点の分散の割合、
であると定義され、信頼性係数は0≦r≦1の区間で示される。
→真の得点の分散や誤差分散の大きさは実際にはわからない。
5.2.2.
信頼性の推定方法
・古典的テスト理論に基づく信頼性の推定方法には、(1)内部一貫性に基づく方法と、(2)安定性に基づく方法があり、信頼性の推定は以下の3段階で行われる。
1.測定誤差の原因を特定
2.独立で平行な2つの得点を収集するための研究計画を立てる
3.2つの得点の適切な相関係数、またはテスト得点の分散に基づくα係数を算出する
(1) 内部一貫性の信頼性推定
・内部一貫性(internal consistency)の信頼性推定の方法として、折半法(split-half method)と項目分散(item variance)を用いる方法がある。
1) 折半法による信頼性推定
・テスト得点を2分割し、1人の受験者に得られる2つの得点の相関係数を求め、信頼性の推定値とする方法。
・分割方法として、偶数番号と奇数番号の項目に分ける方法が一般的だが、内容や測定している能力の点から2分割するなど、何らかの基準を設けて2分割する場合もある。
・一般的には長いテスト(項目数が多い)ほうが短いテストよりも信頼性が高くなる。
・折半法ではテストを半分にしたので、この長さの短縮のため、得られた相関を修正する必要がある。このために用いられる公式がスピアマン・ブラウンの修正公式である。
信頼性係数=2
2) 項目分散による信頼性推定
・個々の項目の分散に基づいて信頼性係数を計算する方法で、各項目の分散と、全体得点の分散を用いて内部一貫性の信頼性推定値を計算する。
・間隔尺度以上で部分点採点の場合、α係数(coefficient alpha)が用いられる。
・正誤で採点される2値データの場合、KR20
(Kuder-Richardson formula 20)、KR21を用いる。
・項目数を増やしてテストを長くすると、ほかの条件が同じであれば信頼性は高くなる。
・テストを長くすることでどの程度の信頼性が得られるか推定する方法がスピアマン・ブラウンの予想公式(Spearman-Brown
prophecy formula)である。
・k=現在の項目数の倍数、=望ましい信頼性の水準、
=現在の信頼性の水準としたとき、以下の公式で求められる。
(2) 安定性の信頼性推定
1) 再テスト信頼性推定値
(test-retest reliability estimates)
・同じ受験者集団に同じテストを2回実施し、それらの相関を求めることで信頼性を推定する方法。
・2つのテスト得点を平行測定として扱い、時間経過後のテスト得点の安定性を推定する。
・同じテストを2回実施するので誤差の原因は受験者にあると考えられる。
再テスト法の問題点
1.練習効果(practice
effect)が考えられること、
2.2回目のテスト実施までに受験者の能力値水準が変化すること、
3.1回目、2回目ともにランダムな誤差が生じること
2) 等化性(平行測定)信頼性推定値(equivalence
reliability estimates)
・安定性のない測定はテストの版(forms)の違いから起こることもあり、テストの版の等価性(equivalence)を検討する必要がある。
・測定される能力と項目の内容や形式が等しいと考えられる2つのテストの版を作製し、同一集団に実施した後、2つのテスト得点の相関係数を算出し、それを等化性信頼性推定値とする。
・順序効果の可能性を最小化するために、釣合型計画(counterbalanced design)を用い、集団ごとに受けるテストの版の順序を変えることが望ましい。
3) 評定者の一貫性による信頼性推定値
・一人の評定者が一貫性のない採点をする場合、複数の評定者間で最低の不一致が生ずる場合が考えられる。
評定者間信頼性(inter-rater
reliability):
評定者が2名の場合、2つの評定の相関係数、またはα係数を求め、信頼性の推定値とする。3名以上の場合、評定者の評定を合計し、α係数を求めることによって信頼性の推定値を求める。
評定者内信頼性(intra-rater
reliability):
1人の評定者に時期をあけて、2度採点してもらい、同じ受験者について2通りの評定を得、評定群の相関係数、またはα係数を算出し、信頼性の推定と解釈する
5.2.3.
測定の標準誤差と信頼区間
・信頼性係数は、個人のテスト得点の正確さに関する情報は提供しない。
・個人のテスト得点の信頼性に関する情報を得るためには、測定の標準誤差(standard
error of measurement: SEM)を求める必要がある。は観測得点の標準偏差、
は信頼性係数である。
5.3
一般化可能性理論
5.3.1.
考え方
・古典的テスト理論では誤差成分が一まとめに扱われ、全ての誤差がランダムに発生すると考える。
→ランダムな測定誤差と系統的に発生する測定誤差とを区別することができない。
・一般化可能性理論(generalizability
theory: G-theory)によって、テスト得点に影響を及ぼす様々な変動要因の大きさを推定することができる。
5.3.2.
一般化可能性研究(G研究)
・分散分析モデルを用いて、得点の変動がどのような要因によってどの程度発生しているのか検討する。
・例えば、ライティング能力を測定するために受験者にタスクを与え、複数の評定者が採点する場合では、測定対象は受験者個人のライティング能力であり、タスクと評定者が相(facet)となる。この場合、2つの相があるため、2相計画(two-facet design)と呼ばれる。
・考慮の対象となる全タスクと全評定者(母集団)を、それぞれ許容観測母域(universe
of admissible observations)と呼ぶ。
・G研究の目的は、様々な分散要因の相対的な割合を推定することで、推定値は分散成分(variance components)と呼ばれ、で示される。
・テスト開発者はG研究の第一段階として、テストに含める測定の相を特定する。
1)
単相計画
・1つの相(facet)のみのテストの場合を単相計画(one-facet design)という。
・客観テストのようなケースでは変動する項目は受験者と出題項目だけであり、この場合の相は出題項目のみ。
・受験者がすべての項目を受ける場合、受験者と項目のデータが得られる。このことをクロス計画(crossed
design)と呼ぶ。
・単相クロス計画では、3つの変動要因、
@測定の対象(受験者)p、A項目の相i、B受験者と項目の交互作用p×i
が考慮され、これ以外で得点に影響を与える成分は誤差の分散とする。
・誤差は交互作用の分散成分に含め、合計得点の分散はそれぞれ分散成分の和で説明される。
・分散成分の推定に加え、各項目の難易度の指標としてそれらの平均値が推定される。
2)
2相完全クロス計画
・ライティングのテストで、複数のタスクが受験者に与えられ、タスクに対する回答は複数の評定者によって採点され、また、全受験者がすべてのタスクに応答し、全回答が評定者全員によって採点されるような場合は、タスクと評定者の2相完全クロス計画(fully crossed design with two facets)という。
この場合、
@受験者p、Aタスクt、B評定者r、C受験者とタスクの交互作用p×t、
D受験者と評定者の交互作用p×r、E評定者とタスクの交互作用r×t、
F残差(residual)として受験者と評定者とタスクの交互作用と誤差p×r×t, e
を推定し、それらの合計得点の分散が、これらの7つの分散成分の合計で表される。
・項目相の平均値と評定者の相の平均値も得られ、それぞれ項目難易度および評定の厳しさの指標として解釈される。
3) 2相枝分かれ計画
・すべての相がクロスされるのでなく、1部の相が他の相と入れ子になっている場合、2相枝分かれ計画(two-facets
nested design)と呼ばれ、p×(i;t)で表される。
・リーディングやリスニングのテストのように、1つのテキストに複数の設問を伴う場合、設問(項目)がテキストに入れ子になっていると考え、i:tで表す。
・2相枝分かれ計画では
@受験者p、Aテキストt、Bテキストの中の項目i:t、C受験者とテキストの交互作用p×t、
D残差(テキストの中の受験者と項目の交互作用と誤差)p×i : i,
e
を推定し、合計得点の分散はこれら5つの分散成分の合計で説明される。
・各テキストの平均値が得られ、それらはテキストに含まれる項目によって測られたテキストの難易度の指標として解釈される。
5.3.3.
決定研究(D研究)
・D研究の目的は、G研究で得られた分散成分の情報を用いて、測定誤差を最小化するような測定手続を計画することで、以下の情報がD研究によって得られる。
@
テスト得点に占める分散成分の相対的大きさの情報
A
観測得点が母得点の推定値にどの程度依存しているかという信頼度(dependability)の情報
・一般化可能性理論では合計得点の分散は、母得点分散
と誤差分散
の合計から構成される
・母得点分散はD研究で推定されるので、信頼度推定のために、誤差分散を推定する。
・一般化可能性理論では測定誤差を、
@ 相対的な測定誤差(relative
measurement error):集団基準準拠テストに対応
A 絶対的な測定誤差(absolute
measurement error):目標基準準拠テストに対応
の2つに区別する。
・相対的決定のための信頼度は一般化可能性係数(generalizability coefficient: G係数)、
・絶対的決定のための信頼度は信頼度係数φ(index
of dependability: φ係数)と呼ばれる。
・一般可能性理論の分散成分や、信頼度推定値を算出するプログラムとして、GENOVA (Crick
& Brennan, 1983)やmGENOVA
(Brennan, 2001)などがある。
5.4
一般化可能性理論の利点と限界
・一般化可能性理論の古典的テスト理論に対する利点は、
@ 複数の誤差要因の相対的な影響の大きさを推定することができる
A それぞれの測定誤差の要因の大きさを分散成分という形で推定することができる
B 測定の各相における条件の数を調整することで、測定の信頼性を最適化できる
C 相対的誤差と絶対的誤差とを区別し、NRTにもCRTにも対応可能な信頼度推定値を算出できる
・一方、一般化可能性理論の限界として、
@ 2つのテスト理論から得られる信頼性推定値は、特定の受験者集団に依存する
A どちらも測定誤差がどの能力値水準においても同じであることを前提としている
点が挙げられる。
→これらの問題点を克服するのが項目応答理論である。
6.
妥当性
6.1
考え方
・テストの得点を元に行われるこうした推測や決定は、テスト得点をそのように解釈し使用することの妥当性が担保されていることが前提となる。
・テスト得点の解釈や使用が妥当であることを保証するために様々な証拠を元に論理的説明をする必要があり、この過程を妥当性の検討(validation)という。
・妥当性は「測定していると主張する内容をどの程度測定しているか」に関する概念であるとされ、
@ 内容妥当性(content validity)
A 基準関連妥当性(criterion-referenced validity)
B 構成概念妥当性(construct validity)
の3種であるとされてきたが、現在では構成概念妥当性であらゆる妥当性を代表させるという考え方、妥当性は単一の概念(a unitary concept)であるという考えが主流となっている。
・Messick(1989)は妥当性を以下のように定義づけている。
「妥当性とは、テスト得点またはそれに類する他の評価法を下にして行う推論と行為の相応性ならびに適切性について、それを支持する経験的証拠と理論的理由づけの度合いを示す総合的な評価判断をいう」
・Millaer, Linn & Gronlund (2012: 72-73)は妥当性という用語を用いる注意点として以下の4点を挙げている
@ 「テストの妥当性」は、より正確には「テスト結果をもとになされる解釈や得点使用の妥当性」
A 妥当性は程度問題であり、妥当性がまったくなかったり完全であったりということはない
B 妥当性は、常に特定の受験者集団に対して、特定の黙亭での使用や解釈に適用されるもので、すべての目的に対して妥当であるような評価は存在しない
C 妥当性は単一の概念であり、包括的な評価判断を含むものである
6.2
妥当性の検討
・テスト得点の特定の解釈が妥当であると考えられる説明的な論証を展開していく、論証に基づくアプローチ(argument-based approach)という考え方が、妥当性の検討の基本である。
・論証に基づくアプローチによる妥当性検討では、
@ 解釈的論証(interpretive
argument)…妥当性の論証を展開するための枠組みを提示
A 妥当性の論証(validity
argument)…解釈的論証の全般的な評価
が行われる。
Kane(2006:
23-25)による論証に基づくアプローチ
・解釈的論証の段階では、@採点(scoring)、A一般化(generalization)、B外挿(extrapolation) 、C決定(decision)
の4つの推論が与え、それぞれの推論に対し、p.57のような仮説を考える。
・妥当性の論証の段階では、各推論における仮説が適切なものと判断できるか、適切な証拠を用いて評価する。
採点の推論では、採点基準が適切か、採点の質管理が徹底して行われているか判断される。
・一般化の推論では、信頼性や一般化可能性研究、テストに含められる項目標本の代表制についての判断が求められる。
・外挿の推論では、テストが測る技能とコースで必要とされる技能の重なりの程度を判断したり、テスト得点とコースにおけるパフォーマンスの測定値(成績)との関係を実証分析したりする。
・決定の推論では、決定から得られた様々な種類の論拠には、各推論や支持する仮説に関連して、専門家の判断、実証研究、先行研究の結果、価値判断等が含まれる。
・Bachman(2005)やBachman
& Palmer(2010)は、kane(2002; 2006)の論証に基づく妥当性検討の枠組みを元に、言語テストの妥当性検討のために、テスト使用に関する論証(Assessment Use Argument: AUA)という考え方を展開した。
・AUAでは、妥当性検討という用語の代わりに正当化(justification)を用いる。
・意図したテスト使用であることがどの程度正当化できるのか、という観点からテスト使用の正当化を行う。・
・AUAでは各推論の段階で述べられる「主張(claim)」に対して、「理由付け(warrant)」と「反証(rebuttal)」が述べられる。