人文社会科学研究科 博士課程コース
 異文化言語教育評価論 (Testing in Second Language Education)


異文化言語教育評価論で発表された文献レビューのレジュメです。


2011年4月20日(K.S.)

Wigglesworth, G., & Elder, C. (2010). An investigation of the effectiveness and validity of planning time in speaking test tasks. Language Assessment Quarterly, 7, 1?24.

 本研究の目的は,IELTS1のスピーキングモジュールにおいて,プランニング,熟達度,タスクの3つの変数間の関係がどのようになっているかを調べ,プランニングタイムの条件が1分,2分と違った場合,受験者のパフォーマンスに差が生じるのかどうかを確かめることである。またプランニングの際,どのストラテジーが最も効果的かを特定することも本研究のねらいである。これらを調べるために,90名を対象としたテストを実施し,受験者のスコア,及び産出された言語を分析したところ,プランニングタイムの違いでパフォーマンスに有意な差は生まれなかった。但し分析結果から,1分条件の方がテストとしての公平性,妥当性につながるという示唆が得られた。

 

BACKGROUND TO THE RESEARCH (pp. 1?3)

  タスクを行う前のプランニングは,学習者の発話内容,及び産出される言語の質に影響を与え,学習者のL2知識へのアクセスを促すという点で重要な役割を果たすと考えられている。

  これまでの先行研究では,プランニングが,流暢さ,複雑さの観点で,L2学習者のパフォーマンスを概ね向上させることが示されている(Ellis, 2005)。但し正確さに関しては,学習者の誤りが軽減した報告が一部なされているが,タスクの特徴の違いなどの変数が多いことから,一致した見解には至っていない。

プランニングがSLAの研究者に強い関心を持たれている理由として,プランニングが強制アウトプット(pushed output)を促し,言語習得を助長すると考えられている点が挙げられる。

  しかしながら,Skehan1998)が指摘するように,プランニングタイムをテストに含めることが,学習者の言語能力を測る上で妥当なのかという問題がある。これに関して,Elder, Iwashita, and McNamara2002)は,アカデミックな環境におけるスピーチでは,事前にプランニングをすることの方が多く,オーセンティシティーの面からもIELTSのようなテストではプランニングタイムを含めるべき,と主張している。

  だがおそらく,プランニングをテストに含めるのは,各受験者に対して,不安をできる限り軽減させ,普段のパフォーマンスを最大限に発揮できる機会を与えるという公平性を主に重視するためと思われる。

  このような理由から,スピーキングテストにおけるプランニングが支持されているが,どの程度の時間を受験者に与えるべきなのか,またプランニングによるテスト結果への影響はどのようなものなのか,ということに関しては,明らかになっていない。

  教室環境と違って,テスト環境におけるプランニングの影響に関する研究は数が少なく,その結果も一致していない。Wigglesworth1997)の研究では,プランニングにより,熟達度の高い受験者に文法の正確さの向上が見られたが,テストスコアに差が生じなかった。またTavakolian and Skehan2005)は,テストスコアへの影響は報告していないものの,受験者がプランニングを行うことでタスク遂行が容易になり,正確さ,複雑さ,流暢さが向上することを明らかにした。さらにXi2005)は,グラフ描写タスクを用いたテストで,プランニングが全体的なスコアの向上に寄与したことを示した。

  しかしながら,Wigglesworth2000)やIwashita, McNamara, and Elder2001)の研究では,プランニングによる受験者のパフォーマンスの向上はほとんど見られていない。

  以上のように,テスト環境におけるプランニングの影響は,教室環境のものと違う結果が示されているが,その理由として,受験者がテストに不安を感じ,プランニングの利点を上手く発揮できない可能性が考えられる。その意味で,テスト環境におけるプランニングの影響を調べることは重要であると言える。

THE CURRENT STUDY (pp. 3?5)

  本研究では,熟達度別に分けられた受験者に対して,試験官との1対1の面接形式でインタビューテストを実施した。その際,プランニングタイムの条件,熟達度の違いによる影響の他,受験者のプランニングのプロセスや,プランニングタイムに関する認識に関しても調査を行った。

 

Context for the Research

  本研究では,IELTSのスピーキングモジュールのPart 2におけるプランニングタイムの影響を調査した。IELTSの本試験では,タスク前に1分が与えられ,メモを取ることが許されているが,タスク前のリハーサルと区別するために,このプランニング行為を「方略的プランニング(strategic planning)」(Ellis, 2005, pp. 3?5)と呼ぶことにする。本研究のリサーチクエスチョン(RQ)は,以下の5つである。

RQ1. 方略的プランニングタイムの条件の違いにより,受験者のスコアに差が生じるのか。

RQ2. 方略的プランニングタイムの条件の違いにより,受験者の発話の質に差が生じるのか。

RQ3. 受験者は,方略的プランニングタイムの効果と妥当性に関して,どのように認識しているのか。

RQ4. 受験者は,方略的プランニングタイムをどのように活用しているのか。

RQ5. 方略的プランニングタイムの活用において,最も効果的なストラテジーは何か。

 

Variables

  本研究のデザインにおける変数は以下の3つである。

1. 熟達度:受験者をグループA(中級レベル),グループB(上級レベル)の2つに分けた。グループ分けは,受験者のIELTSのスコアもしくはプレースメント用のテスト結果に基づくが,妥当性を保持するために,Nationのアカデミック語彙リスト3,0005,000語レベルの語彙を用いたテストを行った。

2. プランニングタイムの量:(a)プランニングタイムなし,(b)1分,(c)2分の3つの条件を用いた。

3. タスク:IELTSの本試験に準じた3つのタスクを用いた(Appendix A参照)。

 

METHODOLOGY (pp. 5?9)

Participants

  アカデミック英語を学ぶことができる3つの教育機関から,中国語をはじめ様々な言語を母語とする19歳から36歳までの学習者90名(男女比はほぼ1:1)を参加者として集めた。参加者のほとんどは,既にIELTSを受験した経験があり,学部,大学院への進学のため,今後IELTSを再び受験する予定である。

 

Study Design

  今回,受験者は,それぞれ3つのタスクを行った。90名の受験者は,熟達度に応じて45名ずつグループABに配置され,カウンターバランスをとって各3つのサブグループ(i, ii, iii)に分けられた。また,プランニング条件の違いを見るために,各サブグループはさらに5人ずつに分けられた(Table 1, 2参照)。

 

Data Collection Procedures

  インタビュアーは経験豊富なIELTSの試験官8名で,事前に訓練を施した(Appendix B参照)。

  受験者がプランニングをする際には,紙とペンが渡され,メモを取ることが許可された。また,タスクを行っている間もメモを参照することができた。

  全てのインタビューは録音され,各タスク終了後に,IELTSの分析的評価基準に基づいて,受験者の発話の流暢さ,内容の一貫性,語彙,文法,発音がそれぞれ評価された。但し,試験官にとってタスク毎の評価が難しいことなどがわかったため,今回の分析では,この評価を採用しなかった。

  受験者は,インタビューの後,アンケートに回答した(Appendix C参照)。なお,アンケート項目に含まれているプランニングのストラテジーは,Rutherford2001)で特定されたものに基づいている。

  アンケート終了後,前述の語彙テストを行った。

  さらに受験者の一部には,グループインタビューに参加してもらい,プランニング条件の違いに基づくタスクの困難さ,公平性,またプランニングタイムの活用の仕方などを尋ねた。

 

Data Compilation and Analysis

  90名分のインタビューを録音したテープは,全て文字に起こされ,分析のためのコード化がなされた。

  インタビューの3つのタスクは,IETLSの分析的評価基準に基づき,2名の訓練された評価者によって評価が行われた。

  各サブグループからランダムに選ばれた計36名分の発話に関して,談話分析を行った。分析の観点は,流暢さ,正確さ,複雑さの3点である。

  流暢さは,流暢かそうでないか,音の入ったポーズ(filled pauses),無音ポーズ(unfilled pauses),言い直しに関して,正確さは,誤りなしのASユニット2と節の割合に関して分析をした。また複雑さは,ASユニット中の従属節(because, before, afterなどの談話標識を含んだものとそれ以外のものに区別)の割合に関して分析を行った。

  受験者へのアンケートは,回答が数値化され,プランニング条件の違いをt検定,ストラテジーの違い(microplanning, macroplanning)をχ2検定で,有意差があるかどうかを検定した。また,ストラテジーとテストスコアの相関係数も算出した。

  グループインタビューに関しても,テスト同様,文字化された後にキーワードを使ってコード化された。

 

RESULTS (pp. 9?18)

  語彙テストの結果,受験者の2つのグループの得点に有意差が見られた(t (87) = 4.243, p < .0001)。また,2名の評価者間信頼性は,.51.73であった。以下,RQに対する回答をまとめる。

  RQ1の回答:テスト全体のスコア(Table 3参照),及び分析的評価(Table 4, 5参照)に対して,Facetsを用いた分析,F検定を行ったところ,ABどちらのグループも,タスク,プランニングタイム条件の違いによる有意な影響が見られなかった。

  RQ2の回答:2つのグループの談話分析の結果を流暢さ,正確さ,複雑さの観点から数値化して分析したところ,すべての観点において,タスク,プランニングタイム条件の違いによる有意な差が見られなかった。但し,ASユニット中の談話標識を含んだ従属節の割合(subordinate clauses per AS unit)に関して,両方のグループで1分条件の数値が高い結果が示された(Table 8, 9参照)。

  RQ3の回答:アンケート結果より,受験者の89パーセントがプランニングタイムを肯定的に捉えていた。グループインタビューの結果も同様であり,彼らは,自分の考えをまとめたり,ストレスのかかるテスト環境で落ち着くためには,プランニングタイムが必要であると述べている。

  また,タスクパフォーマンスが良くなかった理由として,準備する時間が足らなかったという意見が多かった。但し,プランニングタイムの他に,受験者にとってのトピックの難易度,親密度が,タスクの出来,不出来に関わる大きな要因であることも,アンケート結果の分析から明らかとなった。特に,タスクパフォーマンスが良かった場合の理由として,62.9パーセントの受験者がトピックを要因としてあげ,逆にプランニングタイムと答えた受験者は23.5パーセントであった。

  RQ4の回答:アンケートの分析結果より,受験者がプランニング中に様々なストラテジーを使用していることが明らかとなった(Table 13参照)。また,受験者は2分条件の時に,より多くのストラテジーを使用しており,1分条件と比較して有意差が見られた(t (88) = 2.575, p = .012)(Figure 1, 2参照)

  RQ5の回答:ストラテジーの使用数と評価者による全体的,分析的スコアの相関は,いずれも有意ではなかったが,macrostrategies(トピック,内容,構成に関わるストラテジー),microstrategies(文法,構文,語彙など言語的なものに関わるストラテジー)の中で,どのストラテジーが多く使用されたかは,Figure 3のリストの項目として特定できた。

  また,プランニングタイムが1分条件の場合,macrostrategiesの方が多く使用されたが,2分条件の場合は,逆にmicrostrategiesの方が多く使用された。但しχ2検定の結果,A, Bのどちらのグループにおいても2つのストラテジーの使用頻度に有意な差は見られなかった。

  さらに,macrostrategiesをより多く使用した受験者とmicrostrategiesをより多く使用した受験者のパフォーマンスの差をt検定で分析したところ,有意差は見られなかった。

 

DISCUSSION AND CONCLUSION (pp. 18?19)

  本研究は,Iwashita et al.2001),Wigglesworth2000)同様,方略的プランニングタイムによる受験者のパフォーマンスの向上を裏付ける結果を見出せなかった。

  但し,発話の複雑さに関しては,A, B両方のグループにおいて,1分条件の方が有意差はないものの,高い数値を示した。従って,IELTSのスピーキングモジュールPart 2のプランニングタイム(1分間)は,若干有用性があると結論付けられるであろう。

  また,受験者へのアンケート,グループインタビューでは,受験者がプランニングタイムを肯定的に捉えていることが明らかとなった。従って,スピーキングテストにプランニングタイムを設けることは,無意味ではないと言える。但しその時間については,1分条件,2分条件でパフォーマンスの差が見られないため,1分よりも長くする必要はないであろう。

  プランニング時のストラテジーの使用に関しては,受験者がパフォーマンスの向上につなげているという結果は見出せなかった。これについては,テスト後の試験官からの報告,及びグループインタビューのコメントによると,多くの受験者が試験環境に起因する不安のため,何をプランニングすればよいのかわからない状況になっていたことが示唆された。なお,今回の参加者中半分の45名が,事前にプランニングの指導を受けた経験があることがアンケート結果に示されているが,このような指導の有無がストラテジーの使用にどのように影響するかを調べる必要があるかもしれない。

  またプランニングは,受験者の記憶に左右される面があり,発話の最初のうちしかその効果は持続しない可能性もある。さらに,極度のプレッシャー状況の中,自分のパフォーマンスをうまくモニタリングできない可能性も考えられる。

  受験者がプランニングしたことと,評価者の評価項目とのミスマッチがあったかもしれない。即ち,受験者は内容面のプランニングにより重点を置いているが,評価者は逆に言語形式により焦点を当てて評価している状況がある。従って,談話の命題的複雑さを測るための方法を工夫する必要があるかもしれない。

  ストラテジーに関しては,プランニングで効果の見られた受験者個人をより詳細に調べる必要がある。なおその際には,より洗練されたストラテジーの分類を行い,受験者のthink-aloudデータを取る必要もあるかもしれない。


発表者注

1. IELTSthe International English Language Testing System)は,英国,オーストラリア,ニュージーランドなどの教育機関,企業,政府機関で認定されており,アカデミックと一般の2つの形式で,4技能すべての領域を0〜9のスコアで測る英語能力測定テストである。その中でスピーキングのモジュールは,3つのパートで構成され,Part 1が自己紹介と関連質問(4〜5分),Part 2がカードに書かれたタスクに基づくショートスピーチと関連質問(プランニングタイム1分を含め3〜4分),Part 3Part 2に関連したトピックに基づくディスカッション(4〜5分)となる(University of Cambridge Examination Syndicate, 2007)。

2. Analysis of Speech Unitの略語で,主に話し言葉を分析する際に使用される単位。Foster, Tonkyn, and Wigglesworth2000)の定義によると,一つのユニットは「単一の発話者が発した独立節,副節であり,従属節を伴うこともある」(p. 365)。類似した単位にTユニット(Hunt, 1970)があるが,以下の例Bのように,元々節であったものが省略された副節の場合や,動詞句の後に上昇,下降のイントネーションがあり,0.5秒以上のポーズがある場合も一つのユニットとして区切る(以下の例では,縦の線がユニットの切れ目を示す)という点が,Tユニットと違うASユニットの最大の特徴である。

 

A: how long you stay here

B: three month.                                                                       Foster, Tonkyn, & Wigglesworth, 2000, p. 366

 

 

引用文献

Foster, P., Tonkyn, A., & Wigglesworth, G. (2000). Measuring spoken language: A unit for reasons. Applied Linguistics, 21, 354?375.

Hunt, K. (1970). Syntactic maturity in school children and adults. Monograph of the Society for Research into Child Development, 35, 1?67.

University of Cambridge Examination Syndicate (2007). IELTS handbook 2007. Retrieved from http://www.ielts.org/pdf/IELTS_Handbook_2007.pdf

 

<コメント>

本研究は,プランニングタイムをスピーキングテストに含める場合の影響,及びその妥当性を調べたものであり,今回取り上げたIELTSに限らず,多くの英語能力測定テストを検証する上で,非常に興味深い内容である。特に,スコアへの影響だけでなく,受験者の発話の質,テストに対する捉え方など,複合的に調査をしている点は,研究デザインとして工夫されたものと言える。

 但し,研究の結果として,プランニングタイムの影響が受験者のスコア,及び発話の質にほとんど見られなかった点は,その原因を考察する必要がある。論文の著者も言及していたが,その主な原因として考えられるのは,評価基準の問題であろう。本研究における受験者のパフォーマンスの評価に関しては,多くが言語形式の面に焦点が当てられたが,受験者がプランニングの際に注意を払っていた内容面に関しては,どちらかというと重点が置かれていない。今回の発表後のディスカッションでも指摘がなされたが,内容面を評価する基準がもう少し盛り込まれていたら,違った結果になった可能性がある。

また,受験者の発話の分析に関しても,流暢さ,正確さ,複雑さの指標が今回選んだもので妥当なのかという問題もある。例えば複雑さの指標として,ASユニット中の従属節の割合が使用されているが,これは統語的複雑さのみを扱ったものであるため,分析結果の妥当性を高めるためには,語彙の複雑さの指標であるギロー指数(Guiraud index)など,もう少し複数の指標を使用してみる必要もあるかもしれない。但し,ASユニット中の談話標識を含んだ従属節の割合が1分条件の際に数値が高いことは,本研究で注目に値する点であり,受験者が1分条件のプランニングに慣れていたことも予想される。この点もディスカッションで指摘がなされたが,受験者へのプランニング指導の有無が発話にどのように影響するのかということは,非常に興味深いトピックと言える。

従って今後は,受験者への指導の効果も加味しながら,よりバランスの取れた評価基準,分析項目で,スピーキングテスト時のプランニングをさらに調査する必要があろう。



ページトップに戻る












2011年4月27日(A.H.)

Crossley, S. A., Salsbury, T., McNamara, D. S., & Jarvis, S. (in press). Predicting lexical proficiency in language learner texts using computational indices. Language Testing.

 

章構成は担当者が改編した

 

1. Introduction

語彙熟達度 (lexical proficiency) の明確な定義が無いにも関わらず、L2研究では (a) 語彙知識の広さ, (b) 語彙知識の深さ, (c) 語彙項目へのアクセスが語彙熟達度として扱われている (Meara, 2005)

 ・広さ: どれだけ多くの単語を知っているか

 ・深さ: 1つの語をどれだけよく知っているか

 ・アクセス: どれだけ速く単語を検索 / 処理できるか (意味を思い出せるか)

L2学習者の語彙熟達度の定義は以下の2点から必要とされる

 (1) 語彙レベルの誤りはコミュニケーションの妨げとなる主な原因である (Ellis, 1995)

 (2) 語彙熟達度は学績 (学歴) と強い相関関係にある (Daller et al., 2003)

本研究は、語彙知識の特性 (広さ・深さ・語彙項目へのアクセス) に基づく語彙熟達度の評価を予測できるモデルについて検証する

 

2. Measures of lexical proficiency

(1) Lexical diversity

語彙の多様性についてはtype-token ratio (TTR: 異なり語数÷総語数) が用いられてきた

その他にCorrected TTR (Carrol, 1964), Log TTR (Herdan, 1960), D (Malvern et al., 2004), Advanced TTR (Daller et al., 2003), Guiraud Advanced (Daller et al., 2003), Measure of Textual Lexical Diversity (McCarthy & Jarvis, in press) がある

学習者が多様な語彙を使えるのであれば、その学習者の熟達度は高く、語彙数も豊富であることが分かる。しかし、多様な語を使えるといっても簡単な語のみしか使えないのであれば熟達度を正確に測定できるとは言えない (Vermeer, 2000; Daller et al., 2003)

 

(2) Lexical frequency

低頻度語を使える学習者の熟達度は高いという仮説に基づく指標 (Meara & Bell, 2001)

学習過程で単語に触れるたびに形式−意味の繋がりが強くなるため、高頻度語ほど処理速度が速くなる。逆に低頻度語の形式−意味の習得は難しいため、語彙熟達度の指標となりうる

しかし、初学者のスピーキングで産出された語彙を観察すると、使用頻度の低い単語でも具象性の高いものであれば頻繁に産出されることが分かった。したがって語彙頻度の指標も詳しく検証する必要がある

 

(3) Word meaningfulness

ある語から連想できる語が多いほど、その語は有意味 (meaningfulness) となる (e.g., food, music vs. acumen, cowl)

語連想と語彙獲得の関係について、Zaewva (2007) では熟達度の高い学習者ほどより多くの連想語を産出できることが分かっている

一方でSalsbury et al. (in press) では、熟達度が高いほど、学習者は有意味な語を使用しなくなることが分かった。これは連想語の少ない難しい語を使い出すからだと考えられる

 

(4) Word concreteness

具象語は抽象語に比べ、リコール・再認・語彙性判断課題・発音などが容易になる

したがって学習者の熟達度が低くても具象語は獲得されやすい

 

(5) Word familiarity

語の親密度は頻度とも関係しているが (Schmitt & Meara, 1997)、親密度の高い語はテキストの中でも目立つ語だとされている (e.g., the vs. dog)

親密度が高いと判断される語は、意味のリコールや連想の足がかりとなる

 

(6) Word Imagability

心的イメージを引き起こす語は、素早く簡単に意味を思い出すことが出来る

したがって高い心像性を持つ語は学習者の心内辞書の中心部分になっている

 

(7) Hypernymy

包摂関係とは上位語 (e.g., vehicle: ある下位語の上位にある語で一般的な総称にあたる) と下位語 (e.g., bus, taxi: より特定的な語) との階層的関係のことを指す

より熟達した学習者の方が語と語の包摂関係を獲得している (e.g., Anglin, 1993; Snow, 1990)

 

(8) Polysemy

1つ以上の関連する意味をもつ語を多義語という。多義語には核となる概念があり、それぞれの意味が重なっている

多義語のそれぞれの意味に関する知識は学習者の熟達度が上がるにつれて獲得される (Schmitt, 1998)Crossley et al. (2010b) では、学習者の熟達度が上がると多義語の複数の意味が産出されるようになることが明らかになっている

以上の先行研究により、語彙知識の広さ・深さ・意味へのアクセスは語彙発達度と熟達度に関する重要な指標であることが分かる

また、包摂関係や語の有意味性は語彙ネットワークの構築に関わる要因であり、具象性・心像性・親密度は心理言語学的な語の特性を測定する指標となる

3. Method

<本研究の目的>

訓練された評価者による語彙熟達度の評価を予測できるモデルの構築を、語彙知識の広さ・深さ・アクセスという要因を考慮して行う

評価者による語彙熟達度の評価は、TOEFLwriting sectionの質的分析を通して行った

 

Corpus collection

・英語語学の短期プログラムに参加していたL2学習者10 (18-27) を対象にした

TOEFLにより熟達度を上中下群にグループ分けした

・それぞれの熟達度群から60ずつ英作文のサンプル (テーマを与えずに毎日書かせた文章) を収集した。母語話者と比較するため、Stream of Consciousness Data Setから母語話者が書いた英作文を60種類集めた (全部で240 sample)

 

Survey instrument

・それぞれの英作文はAmerican Council on the Teaching of Foreign Languages’ proficiency guideline

 とAmerican College TestingCollege Boardに基づき全体的な評価を行った

・各英作文の語彙熟達度をこれらの指標をもとに算出している

3人の英語母語話者が240の英作文を採点し、それぞれの語彙熟達度を5 point scaleで採点した (評価者間信頼性r = .921)

 

Variable selection

・先行研究で挙げた語彙熟達度に関する要因をCoh-Metrixによって分析した

語彙熟達度

Coh-Metrixで検証する要因

測定方法

語彙知識の広さ

(1) 語彙の多様性

MTLD

 

(2) 語彙の多様性

D

語彙知識の深さ

(3) 包摂関係

Hypernymy

 

(4) 多義語

Polysemy

 

(5) 意味的関連性

Latent Semantic Analysis

 

(6) 頻度

CELEX content word frequency

語彙知識へのアクセス

(7) 具象性

MRC database

 

(8) 親密度

MRC database

 

(9) 心像性

MRC database

 

(10) 有意味性

MRC database

Note. これらに加えて単語の長さ (音節数) も要因に加えた

 

 

Coh-Metrixに含まれるどの要因が結果を有意に予測するのか特定するため、240ある英作文のデータをTraining set (180) Test set (80) に分けた。

Training setで語彙熟達度を有意に説明する要因を特定し、Test setでモデルの妥当性を検証した

 

4. Results

分析では評価者が英作文の質から学習者の語彙熟達度を評価したものと、10個の要因との相関を検証した

多義語と単語の長さの要因以外で、評価者の評価との有意な相関が見られた (see Table 2)

また、具象性と評価者の評価の相関が低かったため、以降の分析では (a) 多義語 (b) 単語の長さ (c) 具象性の要因を除外した

 

Training set

7つの要因が評価者の評価をどれだけ説明できるのかを明らかにするため重回帰分析を行った結果、(a) D (語彙の多様性), (b) 包摂関係, (c) 頻度 (CELEX) の要因が有意に結果を予測できていた (see Tables 3 and 4)

Test set

Training setで算出した回帰式をもとにTest setの結果を予測した。その結果と実際の得点との相関を算出した結果、r2 = .421で有意に結果を予測できることが分かった

Total set

最後に240の英作文から評価された語彙熟達度の得点とモデルにより予測された結果との相関を分析した。

結果、Training setTest setを個別に見た場合と同程度の説明率が得られた (r2 = .444)

 

5. Discussion & Conclusion

Coh-Metrixで分析に含めた3つの要因 (語彙の多様性・包摂関係・頻度) が評価者による語彙熟達度評価の44%を予測することができた

これらの要因は語彙知識の広さ・深さに関わるものであり、語彙の意味へのアクセスに関する能力は今回の実験で得られたモデルに当てはまらないことが分かった

 

Predicted lexical proficiency = 4.701 + (.022 × lexical diversity: D value)

  + (-1.130 × average of word hypernymy value)

      + (-.736 × content word frequency value)

 

上記の回帰式にそれぞれの値を入れると学習者の語彙熟達度が5段階で評価される

しかし、今後様々な要因を含めてより人間の評価に近いモデルを提案すべきである

<コメント>

 従来の語彙知識測定法 (e.g., 語彙サイズテスト・WAT) では語彙知識の広さ・深さ・アクセスについて個別の能力しか評価することしかできなかった。しかし本研究では、語彙熟達度に関わる様々な要因をCoh-Metrixで計算し、ライティングのパフォーマンスから学習者の語彙熟達度を評価できるようになったと主張されている。重回帰分析により得られた回帰式において、語彙知識の広さ・深さの両側面が結果を有意に説明できるというのは、Qian (2002) の研究とも整合性が取られている。

 今回はライティングのパフォーマンスから学習者の語彙熟達度を予測していたが、例えばスピーキングのパフォーマンスから語彙熟達度を予測しようとする場合、また違った結果が得られる可能性もある。特に、今回の研究で「語彙知識へのアクセス」がモデルを説明する要因とならなかったのは、ライティングでは自身の語彙知識へ素早くアクセスする必要があまりなかったからではないかと考えられる。ライティングと違って、内容を推敲する時間があまり与えられないスピーキングであれば、語彙熟達度を説明する要因は変化するだろう。

 さらに、ライティングやスピーキングのパフォーマンスから語彙熟達度を予測するのであれば、この熟達度は言語の産出面の能力しか測れていないことになる。先行研究では語彙の発表知識よりも受容知識の方がはるかに高いと言われている (Webb, 2008)。したがって、今回のモデルが必ずしも学習者固有の語彙熟達度を正確に評価することができるということにはならないだろう。

 

Qian, D. D. (2002). Investigating the relationship between vocabulary knowledge and academic reading performance: An assessment perspective. Language Learning, 52, 513-536.

Webb, S. (2008). Receptive and productive vocabulary size of L2 learners, Studies in Second Language Acquisition, 30, 79-95.

 




ページトップに戻る




2011年5月11日(K.W.)


Schmitt, N., Wun Ching Ng, J., & Garras, J. (2011). The Word Associates Format: Validation evidence. Language Testing, 28, 105-26.

 

0. Overview

the Word Associates Format (WAF)は語彙知識の深さの測定において使われつつあるが、その割に妥当性に関してはほとんど検証されてはいない。本研究は、2つの実験を通して、その問題に挑むものである。

■実験1では、WAFとその後のインタビューを通して、WAFの得点の妥当性を検証した。

■実験2では、実験1を踏襲した検証に加え、採点方法などのより詳細な分析を試みた。

2つの実験から、WAFは極値においては語彙知識を正しく反映するが、中間層においては信頼できる解釈にはおよばないことがわかった。さらに、WAFは語彙知識を過小評価もしくは過大評価するかもしれない傾向があるということがわかった。

 

1. Introduction

■語彙学習は漸進的な過程である (Paribakht and Wesche, 1997; Schmitt, 2000)

Nation (2001)によれば、以下のような段階があると考えられる。

 @語形(音声、綴り、形態素)

 A意味(意味、概念、連想)

 B使用(文法、コロケーション、レジスター)

■語彙知識には大きく分けて、広さ (size)と深さ (depth/quality)2つの側面がある。

■語彙知識の広さを測るテストとしては以下のようなものがある。

 @the Peabody Picture Vocabulary Test (Dunn and Dunn, 2009)L1

 Athe Vocabulary Levels Test (Schmitt, Schmitt, and Clapham, 2001)L2

 ※この他にも、望月語彙サイズテストなどの様々なテストが存在する。

■語彙知識の深さは、発表知識として使えるのかどうかやどれだけ正確に使えるのかといったことに大きな影響を与える。しかしながら、確立されたテストは広さを測るテストほどは多くない。語彙知識の深さを測るテストとしては以下のようなものがある。

 @the Vocabulary Knowledge Scale (Paribakht and Wesche, 1997)

  developmental approach(各語彙項目ごとに0 = no knowledge5 = full mastery

 Athe Word Associates Format (Read,1993; 1995)

  dimensions approach

 

2. Study 1

2.1 Methodology

■被験者は日本人英語学習者(成人)18

VLTにおける2000語レベルは90%の習得度および3000語〜アカデミック・レベルはそれに近い習得度であった。

■マテリアルはReadによる1998年版のWAFを使用した。

※アカデミック・ワード・リストからとられた形容詞50個に対してその類義語 (paradigmatic association)と共起語 (syntagmatic association)を選ぶというものである(Figure 1参照)。

■手順は以下の通りである。

 @WAFの全50項目中40項目を被験者に答えさせる。

 Aその後、各被験者にインタビューを行った。

・その際に、残りの10項目(全被験者共通)に答えさせながら、think-aloudプロトコルをとったが、そこで以下の6つの方略が確認された。

Strategy 1:対象語および関連語の知識を持っている

Strategy 2:対象語および関連語に対して意味的な知識を部分的に持っていて推論を行う

Strategy 3:対象語および類義語の形態素の知識を持っていて推論を行う

Strategy 4:対象語および類義語に対して誤った推論を行う

Strategy 5:解答の形式から推論を行う

Strategy 6:不明

 ・また、インタビューの際に、40項目中10項目(解答された項目)を抽出し、その語彙に対して実際にはどの程度の知識があるのか質問し、4点満点で採点した(Appendix 2参照)。

 

2.2 Results and discussion

WAF (one-point method)とインタビューの一致率(Table 1参照)

 ・WAF4点取れた者と逆に1点以下しか取れなかった者に関してはインタビューの結果と一致していた。

 ・WAF2-3点の者はインタビューでの評価が分かれた。

 ・そもそも、46%の者は両者の評価が一致するが、WAF49%の者を過大評価、25%の者を過小評価しているということが明らかになった。

■方略使用の傾向

strategy 1-2を使用した場合、正答率が高く、strategy 3-6を使用した場合、正答率が低いという結果も明らかになった(Table 2参照)。

WAFにおける3-4点は意味的知識を反映しているが、0-2点はこれを反映していない可能性がある (cancelling meaning / no meaning)

 

 

 

3. Study 2

3.1 Methodology

■被験者は国際系の学生28名(うち15名は中国語母語話者)

■マテリアルはReadによる1998年版のWAF基づき作成した(Appendix 3参照)。

■手順は実験1とほぼ同様である。

 @練習を行い、解答に慣れさせる。

 A20項目のWAF(選択肢が6つのものと8つのものを10項目ずつ)を被験者に答えさせる。

 B14項目(選択肢が6つのものと8つのものを7項目ずつ)を被験者に答えさせ、錯乱肢のタイプによる影響を測定した。

Cその後、各被験者にインタビューを行った。

 ・受容知識にも焦点を当て、さらにはno-partial-full3段階で区別することにした。

 

3.2 Results and Discussion

WAF (one-point method)とインタビューの一致率(Table 3,4参照)

 ・実験1とほぼ同様であった。

WAFの採点方法

 @All-or-nothing:全問正解で1点(1問につき1点満点)

 ACorrect-wrong:解答から外せた錯乱肢にも1点を与える(1問につき8点満点)

 BOne-point1つの解答につき1点を与える(1問につき4点満点)

 ⇒インタビューによる評価との相関係数はすべて有意であった (p < .01) Table 6参照)。

  ただし、採点方法毎にANOVA(独立変数:インタビューに基づく熟達度、従属変数:WAF得点)を行い、効果量をみると、6項目ではAll-or-Nothing8項目ではOne-Pointが最も大きいことがわかる(Table 7参照)。

WAFの項目における錯乱肢

 @No relationship

 AMeaning

 BForm

 ⇒インタビューによる評価との相関係数はすべて有意であった (p < .01) Table 6参照)。

  ただし、採点方法毎にANOVA(独立変数:インタビューに基づく熟達度、従属変数:WAF得点)を行うと、Formは弁別力が低いことがわかる(Table 9参照)。

WAFの正解の分布

 @類義語1項目と共起語3項目

 A類義語2項目と共起語2項目

 B類義語3項目と共起語1項目

⇒インタビューによる評価との相関係数はすべて有意であった (p < .01) Table 10参照)。

  しかし、@は相対的に難しい可能性がみられる。

 

4. General discussion

■妥当な項目数 (6 vs. 8)

 実験の結果、8項目の方が妥当であるということが明らかになった。

 しかし、対象語によっては6項目の方がよく機能するという見解もある (Greidanus et al., 2004)

■妥当な採点方法

@6項目:All-or-Nothing

A8項目:One-Point

※しかし、教育上、部分的知識を評価する必要性がある場合、One-PointCorrect-Wrongの方が好ましい場合もある。

■妥当な錯乱肢

@Form-based:避けるべきである

AMeaning-based

・反意語は避けるべきである

・対象語の意味に関連した語(positiveもしくはnegativeな単語)

・錯乱肢同士のcollocationが成立するもの

BNo Relation:推奨される

Limitation

・被験者の熟達度が限定的であった。

 

5. Conclusion

WAFの強みと限界点が明らかになった。

<強み>

・語彙研究や教室で扱える

・部分的には正しく語彙知識を示している

<限界点>

・学習者の知識を過大評価してしまう

・中間層の得点解釈が難しい

 

参考文献

望月正道, 相澤一美, & 投野由紀夫 (2003). 『英語語彙の指導マニュアル』. 東京:大修館書店.

 

Discussion

 WAFにおける錯乱肢のタイプによって弁別力が異なるという結果が得られたが、結果の解釈には見解が分かれるだろう。全く関連のない語の方が、項目が多いテストにおいては有効であるが、意味的関連のある語の方が、項目が少ないテストにおいては有効であるという結果が得られたためである。著者の言う様に、総合的に見て全く関連のない選択肢の方が妥当であると判断することもできるが、少し早計であるような気もする。まだまだ明らかになっていないことも多く、さらなる調査が必要であろう。



ページトップに戻る



2011年6月8日(S.N.)

Sydorenko, T. (2010). Item writer judgments of item difficulty versus actual item difficulty. Language Assessment Quarterly, 8, 34-52.

 

1. Introduction (※章節番号は発表者が付与したもの)

これまでの研究では、項目難易度に影響を与える様々な要因を明らかにしてきた。

テスト開発においては、項目作成者 (item writer) にそのような研究に基づく「項目のレベルに関する記述」を与えることにより、項目の難易度の調整を行うという方法が広く用いられている。

作成された項目はpilot studyによってその難易度や弁別力といった観点から分析されるべきであるが、時間と労力を要するため、Hambleton and Jirka (2006) は項目の難易度を予測する他の方法として項目作成者の判断を提唱している。

 

1.1 Judgment of item difficulty

項目作成者による項目難易度の予測は、L1, L2の両方の言語テストにおいて必ずしも正確でないことが示されている (e.g., Alderson, 1993; Elder et al., 2002)

しかしながら、L1, L2の両方において、作成者に対し項目難易度の予測に関する訓練 (e.g., 項目の難易度に影響を与える要因を学ぶ) を行うことはその予測の正確さを改善することが明らかになっている (Hambleton& Jirka, 2006; Fortus et al., 1998)

Bejar (1983) は項目作成者による難易度の予測は改善が可能であるものの、実際の項目を用いたパイロットの代わりとして用いるには不十分であると結論づけている。しかし、この結論はhigh-stakes testを扱った研究から導かれた結論であり、low-stakes testでは項目作成者による難易度予測は有用である可能性が残る。

これまで項目作成者による難易度の予測がどのように改善されるかは多くの検証がなされているものの、項目作成者があるテストタイプの項目について、他のテストタイプの項目よりも正確な予測ができるかは明らかになっていない。

項目作成者による難易度の予測が、c-test, cloze testよりも読解テストにおいて正確であったことを示したAlderson (1993) をはじめ、Bachman et al. (1996), Fortus et al. (1998) でもテストタイプによって難易度予測の正確さが異なることが報告されている。しかし、その理由や要因は不明瞭なままであり、項目作成者の難易度予測に関するより詳細な研究が必要である。そして、その結果は評価者訓練へと応用することができる。

 

1.2 Factors influencing item difficulty

【インプット (リスニング)

speech rate, 余剰性 (redundancy), type-token ratio, 文の長さ, 統語的複雑さ, トピックの親密度など。

【項目・選択肢】

メインアイデア or 詳細情報を問うものか, インプットと選択肢の語の重複, テキストの最終部分の情報を問うものか, 選択肢 (基幹部) の否定表現, 事実問題か推論問題かなど。

【テスト形式】

True-False (T / F), Multiple Choice (MC), Multiple Select (MS), Clozeなど。

その他、順序並び替え問題 (a sequencing format), DIALANG projectなどの形式もあるが、頻繁に使用されるものではなく、それらの形式に関してはあまり検証が行われていない。

【目標となる言語知識・能力】

Purpura (2004) ではある言語知識・能力 (文法、語彙など) は他の知識・能力とは異なる発達を見せると述べられていることから、目標となる言語知識・能力も項目の難易度に影響を与える要因となる。

 

1.3 Context of the study

本研究ではミシガン大学によって開発されたMultimedia Interactive Modules for Education and Assessment (MIMEA) を用いた評価を行う。MIMEAでは、学習者がいくつかのビデオクリップを視聴し、各クリップの後MCClozeなどの異なる問題形式により、リスニング能力などの異なる言語能力が測定される。

MIMEAでは、受験者が問題のレベルを初級、中級、上級から選択できる。MIMEAは本来、受験者の評価ではなく学習を促すプログラムであるため、それらのレベル分けは項目作成者が任意に行っており、その妥当性に問題が残る。また、テスト形式についても様々なものを用いること以外は、特に言及はない。

これらの問題を解決してMIMEAの性質を明らかにすると共に、項目難易度の予測についても新たな洞察を加えることを目的として、本研究では以下の2つのRQを探索する。

RQ1 : 項目作成者は、どの程度正確に実際の項目難易度を予測するか。

RQ2 : 項目作成者の難易度予測に影響を与える要因と実際の項目難易度に影響を与える要因は同じか。

 

2 Method

2.1 Participants

ロシア語を母語とする英語学習者10人と英語を母語とするロシア語学習者35人。ロシア語の学習歴は2年が14人、3年が11人、4年が10人であった。

項目作成者は1人であり、英語をL2とするロシア語母語話者であった。

 

2.2 Procedure

[Part1]

指示の明瞭さ、テスト項目の妥当性を確認するためにロシア語母語話者によるテスト受験を行い、コメントを求めた。母語話者の正答が80%に達しなかった項目やコメントによって不適切と判断された項目は削除・改善された。

[Part2]

まず、ロシア語学習者に対し、ロシア語学習に関するアンケートを行った。その後、1時間半~2時間程度でMIMEAの受験を行い、テスト後には不適切な項目が無かったかを尋ねた。

テスト直後には24名の学習者について10分間の個人面接を行った。

 

2.3 Materials

[Videos]

テストは12のビデオクリップで構成された。拒否や不満を伝えるといった6つの会話機能につき、それぞれ2つずつのビデオクリップがあった。

ビデオクリップの長さは13~63秒、40~168語であり、速さは117~189 wpm であった。

協力者は各クリップを2回視聴した。

[Items]

各クリップにつき、7~17の問題項目があった。これらは実験前に項目作成者によって、初級・中級・上級に分類されている。上級項目では指示はロシア語であったが、初級・中級項目では英語であった。

各項目はリスニング、語用論的知識、語彙、文法、一貫性の知識の5つのうちどれかを評価するものであり、様々な問題形式で提示された。評価される能力・知識と問題形式の内訳はTable 1を参照されたい。

  評価される能力と問題形式の詳細については割愛。本文p.41を参照。

 

3. Analysis

回帰分析 (RQに対応して2)ANOVA, 記述統計による分析を行った。

回帰分析の独立変数は、RQ1の分析では項目作成者が予測した項目難易度、RQ2の分析では先行研究で明らかにされた項目難易度に影響を与える要因と、協力者への面接において彼らが難易度を与えると回答した要因から選出された8つの要因である (Table 2)

128という項目数は、1つ・8つの独立変数を持つ回帰分析には十分なサンプル数である (Green, 1991)

2つの回帰分析両方で従属変数は項目難易度であった。受験者の少なさから、項目難易度はラッシュ分析ではなく、古典的テスト理論に基づく方法 (正答者の割合) で産出された。

全ての項目は1, 0で採点され、MIMEAによって自動的に採点が行われた。

 

4. Results

4.1 RQ1

回帰分析を行った結果、β値は初級・中級間と初級・上級間の両方で有意であり、このことは項目作成者の難易度予測が実際の難易度について有意な予測変数であったことを示す。しかし、その説明率は低かった (調整済みR2 = .07)

初級、中級、上級レベルの項目間で差があったかを検証するために、一元配置分散分析を行ったところ、主効果が有意であった。Fisherpost hoc testを行ったところ、初級と中級、初級と上級の間の差は有意であったが、中級と上級の間の差は有意ではなかった。つまり、項目作成者は中級と上級レベルの項目を適切に峻別して作成できていなかったことを示す。

 

4.2 RQ2

回帰分析の結果、Format, topic, linguistic focus, negative stem4つが有意な予測変数であり、これら4つの説明率は53%であった。このうち最も大きい説明率を示したのがFormatであり、単独での説明率は39%であった。各要因内の難易度の関係はTable 6, 7を参照。

次に、項目作成者の難易度予測がどのような要因に基づいているかを検証するため、3つの予測された難易度間で、回帰分析で有意であった要因の分布を産出した (Table 8参照)。顕著な結果は、初級レベルではリスニング項目が非常に多く、中級・上級の語彙項目が初級の2倍程度の数となっていることである。

テストフォーマットについては、初級でMCが多く、中・上級ではMSordering, dialog reconstructionなどの割合が増えているが、TF, Clozeに関しては難易度間で割合があまり変わっていない。これは、Table 9に示されているように項目作成者がこれら2つのテスト形式のレベルを初級と中上級の間でうまく峻別できていたためであろう。

また、基幹部における否定表現による項目作成者の難易度予測についても正確であった。

 

5. Discussion

5.1 RQ1

今回の結果から項目作成者は実際の項目難易度を有意に予測するものの、その予測力は小さいことが示された。この結果は、これまで項目作成者の難易度予測が正確でないことを示した研究と一致する。

項目作成者の難易度予測が正確でない理由として、項目への回答は作成者間と受験者間の両方で異なるプロセス、方略、能力を経ること (Fortus et al., 1998) が挙げられる。また、今回の項目作成者が母語話者であったこともその理由の1つと考えられる (Stansfield & Kenyon, 1996)

また、本研究では項目作成者は中級・上級レベルの項目をうまく峻別できていなかった。これは、リスニングのインプットが易しすぎたために、それらのレベルの項目に差をつけるのが難しかったためであろう。

 

5.2 RQ2

実際の項目難易度には、Format, topic, linguistic focus, negative stemの要因がこの順で有意に影響を与えていた。TF, MCがより難易度が低いのは、当て推量の可能性から考えても当然の結果である。

本研究では、多くの研究で難易度を有意に予測するとされているspeed of delivery が有意ではなかった。これは、1つのクリップ内でspeed of deliveryが様々に変化しているためであると推察される。

全体として、項目作成者はFormat, linguistic focus, negative stemといった要因に敏感であり、難易度に合わせてそれらを使用・区別していた。このことから、項目難易度に影響を与える要因について評価者を訓練することは、その予測の正確さを改善することに繋がると示唆される

 

6. Conclusions

学習者は解答する項目が難しすぎても簡単すぎても、モティベーションを失ってしまうので、本研究の結果に基づいて適切な難易度の項目を学習者に与えることが重要である。

また、本研究の結果では中級・上級レベルの項目では難易度に差が見られなかったから、MIMEAに含まれる項目は将来的には初級と中級2段階とすることも可能である。

本研究からは、項目作成者はトピック親密度のようなインプットに関連した要因に敏感であることが示唆される。また、テスト形式や言語の異なる側面に関する知識などが項目難易度に影響することが示されたため、項目作成者に対する訓練の中でそれらの要因に言及することも必要であろう。

本研究の限界点の1つに、項目間でテスト形式と言語能力の統制が取れていないことがある (e.g., cloze- grammar)。また、少数の項目しか含まれていない形式 (e.g., ordering, matching) の一般化には注意が必要である。

項目作成者の難易度予測は有用であるが、改善される必要があるため、その検証は更に行われるべきである。今後の研究では、多数の項目作成者による難易度予測や母語話者と非母語話者による難易度予測の検証、発話プロトコルによる難易度予測の認知過程の検証、新しいテスト形式を用いた検証などが行われるべきである。


 

【授業内コメント】

ダミー変数を投入する形式の回帰分析で、本当に見たいものが検証できているのか。

Table 6 (p.45) では、FormatであればMCの比較、TopicであればSympathizingと他の比較、Linguistic focusであればListeningと他の比較のみを行っている。確かに、これでは各要因内の難易度の関係が詳細には分からない。しかしながら、他にどのような分析手法が適切かまでは分からなかった。

今回の結果はあくまでMIMEAにおいてのみ適用されるものであり、一般化は難しいのではないか。

  論文中に述べられているが、本研究では項目作成者訓練に有意義な示唆を与えるとともに、MIMEAという特定のテストの改善もその目的の1つとなっている。今回の研究は項目作成者を1人としたケーススタディ的な要素が強いことからも、結果は広くテスト一般に貢献するというよりも特定のテストの改善に対して貢献するものであろう。

今回はロシア語をL2とする学習者を対象としているので、英語をL2とする学習者を対象とした場合、同じ結果が得られるのだろうか。

  L2として学習しているという点は同じであるが、「目標とする言語能力・知識」が項目難易度に影響するように、「目標とする言語」によっても当然結果は異なってくるだろう。今後は英語学習者を対象とした検証が待たれる。

項目作成者が1人であるため、その難易度の予測も偏りがあるのではないか。

  この点は複数の方から同じ意見を頂いた。著者が論文中に言及しているが、今回のようなケーススタディから得られる結果は、項目作成者全般の傾向として一般化できないという限界点があるものの、グループを対象とした研究からは得られない、個人の項目難易度予測について深い洞察を与えることが可能である。しかしながら、当然グループを対象とした研究も今後望まれるだろう。



ページトップに戻る





2011年11月2日(T.I.)

Beglar, D. (2010). A Rasch-based validation of the Vocabulary Size Test. Language testing, 27(1), 101-118. doi:10.1177/0265532209340194

 

Abstract

■本研究最大の目的は、14,000語の英単語の受容的知識測定のために開発された140語彙項目のVocabulary Size Test(以下、VST)の準備段階での妥当性の証明である。

■本研究は19人の英語母語話者と178人の日本人母語話者の協力の下、Messickの提唱した構成概念妥当性の複数の要素に焦点を当て、Raschモデルで分析を行った。

■本研究の発見は、以下の5点である。

1. テスト項目と協力者は、概して、先見的仮説によって予測された通りの効果・行動を示した。

2. 大多数のテスト項目が、Raschモデルへの適性を示した。

3. Raschモデルを用いた所、テスト項目は、変数の85.6%を占める高い一次元性を示した。

4. テスト項目は、0.910.96の異なるテスト項目の集合から予期された被験者測定に対する希薄化修正したピアソンの相関係数との間に強い測定不変性を示した。

5. Raschモデルの信頼指数(>0.96)が示す通り、様々なテスト項目の組み合わせで、本標本の協力者達に対して正確な測定を行う事ができた。

■以上の発見より、VSTは筆記での受容的語彙サイズの測定がもたらす測定方法の幅を大きく拡大し、新たな測定方法を教師と研究者に提供すると言うのが、本研究の結論である。

 

Introduction

■母語話者・学習者共に語彙の拡張は多くの年数を要するもので、語彙のリーディングやリスニングへの貢献度から、教育者にとっても学習者自身にとっても受容的語彙サイズの概算は重要である。

■長年注目を集め、様々な用途・分野で使用されている語彙サイズテストには、Eurocentres Vocabulary Size Test (Meara & Buxton, 1987; Meara & Jones, 1990; 詳細や評価はRead, 2000, pp. 126-132参照)Vocabulary Levels Test (Nation, 1983, 1990)がある。但し、後者に対してNation (2001)は「診断的テスト」と述べており、Nation自身は包括的測定方法とは考えていないと思われる。

■外国語教育において多種多様な役割を持つという事が明らかにも関わらず、現在、英語の非母語話者(熟達度の低い初心者から熟達度の高い学習者まで)に対しての筆記での受容的語彙サイズを測定するための広く容認されているテストは存在しない。

■本論文は、筆記での受容的語彙測定を目的に開発されたVSTの妥当性を検証するものである。本研究の検証では、Messick (1989, 1995)の構成概念妥当性の6要素(内容的、本質的、構造的、一般化可能性、外的、結果的)の最初の4要素と、更にMedical Outcomes Trust Scientific Advisory Committee (1995)が提案した代表性・解釈性の2要素を調査する。また、Wolfe & Smith (2007a, 2007b)が提唱した道具的妥当性測定のためのRaschモデルを適用する。

■本論文における妥当性の証明は、Messick (1989)の「テストではなく、テストの回答が信頼性と妥当性を有している…(中略)…テストの回答は、項目、タスク、刺激語のみだけでなく回答者や測定環境も合わせての相関的要素である」(p. 14)という観点に基づいている。そのため、本研究最大の目的は、特定の環境における受験者の一群に対するVSTの役割を調査する事である。

 

Method

Paticipants

■本研究は、以下の4群(N = 197)協力の下で行われた。

1. NSE group:アメリカの大学の修士課程・博士課程で教育を専攻している成人の英語母語話者(n = 19

2. High group:同専攻で高熟達度(TOEFL 560-617)の日本語母語話者(n = 19

3. Mid group:同アメリカの大学の外国語集中プログラム・日本の一流私立大学の中熟達度の日本語母語話者(n = 53

4. Low group:日本の大学の低熟達度の日本語母語話者(n = 96

■協力者はテストの目的を通知されており、日本人の協力者からはTOEFLのスコアを利用する許可も得ている。

 

The Instrument

VSTは、第二言語として英語を学んでいる学習者を対象に、1番高頻度の1000ワードファミリーから14番目に高頻度の1000ワードファミリーまでの筆記における受容的語彙知識を高い信頼性で、正確かつ包括的に測定するためのテストである。それぞれ140個の項目を有する3つのFormの内、本実験ではForm 1に焦点を当てた。

■本実験では、以下の5つの理由により、多肢選択式を採用した。

1. 幅広い内容を効果的にテスト可能。

2. 多種多様な言語的背景を持つ学習者に対応可能(特に、多肢選択式は、多くの学習者が精通している形式である)。

3. 各項目の回答の際、その項目と同レベルの知識が要求されるため、項目毎の難易度を調整可能(各選択肢は、難易度を調整した限定的な語彙・最も頻度の高い用法で対象項目と交換が可能なように記述)。

4. 効果的かつ信頼性の高い採点が可能。

5. 学習が各項目に関する知識を用いて回答可能(選択肢の中の正答と誤答は、意味要素を共通しているので、学習者は知識や理解を要求される)。

 

Procedures

■熟達度の高い上位2グループには1番高い頻度から14番目に高い頻度までの各1000ワードファミリーより10項目ずつ選択した140項目のForm 1、中位グループには1番高い頻度から8番目に高い頻度までの各1000ワードファミリーより80項目のForm 1、下位グループには1番高い頻度から4番目に高い頻度までの各1000ワードファミリーより40項目のForm 1を、通常の授業内で実施した。

■収集したデータはExcel 11.3.5 spreadsheetに入力して、WINSTEPS 3.64.2 (Linacre, 2007a)にエクスポートの後、Raschの項目反応理論二母数モデル (Rasch, 1960: Pn = exp(Bn - Di) / [1 + exp(Bn - Di)])を用いて計算された。

Raschの項目反応理論二母数モデルを用いた理由は、以下の4点である。

1. 直線(一次元)で項目と被検者の測定の表記が可能。

2. 実験での項目と被検者の分類を、潜在的変数とその変数に対する協力者の反応に関する先見的仮説と関連させる事が可能。

3. 観測された反応とモデルに基づいて予期される反応との差異を検証する事が可能。

4. 項目の余剰分散とその余剰分散が意味のある二次的建設性を有していると思われる度合いの分析を通じて、収集したデータの多次元性を決定する事が可能。

■全協力者に共通した40問以外では、internal anchor (Wolfe, 2004)を利用した共通項目の設計を測定に用いた。0.90-1.10間のinfit平均平方統計指標を示す23項目がanchorとして用いられ、収束基準は通常の10倍の厳密さで設定された。Link qualityは、anchor setを用いる場合と用いない場合でのdisplacement valuesのチェックと項目難易度及び協力者の能力のクロス・プロットの実施に基づき評価され、問題は見られなかった。

 

Content aspect of construct validity(内容的側面)

Representativeness

Representativenessは、次の3点に関係している。

1. 測定方法内に十分な数の項目が含まれているか否か

2. 実験での項目分類が十分な分布を示しているか否か

3. 実験での項目分類において差が存在するか否か

197人の協力者と140項目に対するRaschモデルでの目盛りを直線で結んだFigure 1より、本実験のVSTには十分な数の項目が含まれている事が示され、各レベルの10項目が全協力者の筆記での受容的語彙知識を測定可能であった。

■本実験の140項目に対する(4Gitem + 1) / 3で算出される項目の分類は7.29であり、本実験のVSTが多種多様な筆記での受容的語彙知識を有する学習者に使える事・長期間に渡る学習者の語彙習得の測定に対する十分な数の分類を提供できる事が示された。

■実験での項目分類において差は存在せず、むしろ注目に値するのは余剰性であった。従って、測定の精密さを下げる事なく、各語頻度レベルの項目数を減らす事も可能だと言える。

 

Technical quality

Technical qualityは、178人の日本人協力者から予期され、平均平方適合度を操作してRaschモデルで標準化されたテスト項目・適合度を越えてしまった項目を調査する事で、検証可能である。

1000-10の項目が書き直され、残り4つの適合しない項目(3000-9, 2000-1, 2000-5, 5000-3)も本実験の形式で将来的に観察される必要があるが、全般的な適合していない項目の数は140項目のテストで支障を来たさず、非適合率も3.6%z分布に基づく5%を下回った。

 

The substantive aspect of construct validity(本質的側面)

■本質的側面に関して、BNCリストにおける頻度に基づき、VSTのテスト項目は難易度の連続体を形成すると仮定される。

■本仮定は、テストを構成する14段階の1000語の頻度に対する平均の集合を計算する事で検証できる。Figure 2の通り、14段階の1000語の頻度レベルの難易度の平均の集合は、基本的に仮説で予期された通りの線を描いた。

■更に、テスト協力者の能力予測が仮定された順序にあるか否かの尺度は、VSTで測定された構成概念が理論と先行研究から予測されるパターンに準じているか調べる事で、検証する事が可能である。Table 3の通り、テスト協力者の4グループは予測された順序を形成しており、その順序間の差も予期された通り(=下位グループと中位グループ間の差は、それ以外よりも非常に小さい)であった。

 

The structural aspect of construct validity(構造的側面)

■構造的側面に関して、Beglar & Hunt (1999)Vocabulary Levels Teat (Nation, 1990)に関する先行研究に基づき、VSTは高い精神測定的一次元性を示すと仮定される。

■本実験のVSTに関して、Rschモデル(85.6%)・最初の4つの余剰要素(それぞれが0.4から0.6の間)共に、Linacre (2007b)の基準を満たしている。また、Steven (2002)のガイドラインより、意味を有する二次元性は確認確認されなかった。

■従って、仮定が支持された事に加えて、テスト協力者の運用能力における変数もRaschのテスト協力者モデルで説明可能な事が示された。

 

The generalizability aspect of construct validity(一般化可能性側面)

■一般化可能性側面は不変性に関連しており、測定環境における協力者と項目の測定に関する問題である。

DIF (differential item functioning; Wright & Stone, 1979)140項目の中からの無作為な各語頻度レベルでの5語の抽出,Winstepsで得られる正と負の項目余剰負荷量に基づく2つの下位集団への項目の分類 (Linacre, 2007a)3つの検証方法により、VSTの項目の様々な組み合わせが高い不変性を有しており、類似した協力者の能力予測値を産出できる事が示された。

■更なる一般化可能性側面の検証として、複数のVST(縮小版等)を作成し、本実験の条件下でどのVSTが測定上のエラーを起こさないか調査した。その結果、Table 1の通り、全てのVSTがほぼ同じ信頼性を有していた。

 

Responsiveness(反応性)

■反応性 (Medical Outcomes Trust Scientific Advisory Committee, 1995)は、測定手段がどれだけ正確に変化を測定できるかという尺度である。

VSTの反応性は、テスト協力者の分類を決定する事で測定され、算出の式はGp = (4Gp + 1) / 3である。

197人のテスト協力者に対する分類の値は7.15であり、本実験でのVSTは標本のテスト協力者の筆記での受容的語彙知識を、統計的に弁別可能な約7レベルに分類できる事が示された。

■この値は、本実験だけでなく、多種多様な筆記での受容的語彙知識・その受容的語彙知識の長期間での変化の測定に対する潜在性の観点からも高い反応性である。また、14000語の頻度レベルに拡張した語彙テストで天井効果を示す英語の第二言語学習者は殆ど存在しないので、VSTはほぼ全てのESL/EFL環境で用いる事ができる。

 

Interpretability(解釈可能性)

■解釈可能性 (Medical Outcomes Trust Scientific Advisory Committee, 1995)は、量的測定から考えられる質的意味を示す尺度である。

VSTの結果の解釈可能性を考慮するにあたって、VST3つの限界点を踏まえておく必要がある。

1. VSTは筆記における受容的な語彙サイズを測定するためのテストなので、リスニングにおける語彙サイズにVSTを用いる事は好ましくない。

2. VSTでの受験者の解答は、スピーキングやライティングのタスクにおいて、テスト項目がどれだけ上手く使用されるかという事を殆ど示さない。

3. 語彙知識はテクストの可読性に最も影響を与える要因とされている (Klare, 1974)が、VSTでの受験者の解答は大まかな目安に過ぎないので、リーディングのテストとして用いる事はできない。

VSTの結果を解釈するにあたって、各項目を100ワードファミリーの代表(=10項目が、各1000ワードファミリーの頻度レベルを表している)と仮定する方法も存在するが、より好ましいのは項目解答理論に基づいた方法である。後者の方法では、テスト項目が必ずしも同じ頻度レベルに属する必要がなく、未回答も問題なく、協力者と項目の適応指標によって協力者個々の解答パターンや項目運用を解釈でき、anchor項目によって協力者それじれの筆記での受容的語彙サイズを単一の連続体で測る事ができる。

■本方法を用いての解釈の結果はTable 2の通りであり、55.2Rasch能力測定値を有するテスト協力者は約7000ワードファミリーの語彙サイズを持っていた。

 

Conclusion

■本論文最大の目的は、潜在的変数に関する先見的仮説,潜在的変数の操作可能な定義,被験者の測定の質的差異を生み出す測定モデルを複合させた手法を用いて、VST1つのパターンに対する最初の妥当性の論拠を示す事(=1番高頻度な14,000ワードファミリーの筆記での受容的知識を測定するためのテスト項目の内、構成概念の正確な測定に寄与しない物があるか否かの検証)であった。

■データ分析の前に提唱したテスト項目の機能(Figure 2参照),テスト協力者の運用能力(Figure 3参照),テストの次元性に関する3つの仮説は、全て支持された。圧倒的大多数のテスト項目が、Raschモデルとの正確に適応し、余剰項目分の分析によって示される強い精神測定的一次元性と様々な形式のテストでの類似した対象者の測定値によって示される強い測定不変性を見せ、良い測定の基準を満たしていた。また、テスト協力者は多肢選択式テストへの高い精度を見せ、エラーは少ない一方で高い信頼性を有していた。

■本実験では焦点を個体相互(=個々の協力者の潜在的構成概念の変化方法)の測定に当てたので、将来的なVST研究では長期間での同一の協力者による個体相互の変化を調査するべきだと考えられる。そして、この調査は、学習者の長期間に渡る語彙学習の進歩の測定というテストの本質的価値に繋がる物である。

 

 

 

Comments

本実験の結果は、内容的側面から解釈可能性まで、非常に良好なものであった。その良好な結果は、各節のTableFigureからも確認する事ができ、特に本質的側面に関するFigure 2 (p. 109)では(8000語頻度レベル以外の)全ての頻度レベルの語彙項目で、予想に基づく結果が得られた。但し、この平均の難易度の集合を測定するために用いた語彙項目は無作為に抽出しており、その点には留意しておく必要があると考えられる。

また、発表時に述べた通り、今回の発表では紙面の都合により、ワード・ファミリーという単位を用いる事の適切性については割愛していた。本コメントで要点のみまとめておくと、受容的語彙知識の測定において、ワード・ファミリーは適切な単位であると言える。何故ならば、低熟達度以上の学習者は、一定の語形成の知識を有しており、形式や意味に基づく関連性から規則的な接辞による語形成(例えば、produceという単語からの producing, producer, product, production, productive等)を理解・使用できるからである。更に、ワード・ファミリーは心理言語学的に現実的単位という事を支持する多くの先行研究 (例えば、Bertram et al., 2000; Bertram et al., 2000; Nagy et al., 1989)が存在する。加えて、本実験で用いた14段階の1000語のワード・ファミリーの単語リストは、Bauer & Nation (1993)の尺度ではlevel 6に相当し、規則性,頻度,生産性,予測性の基準を満たしているという事もThe Instrumentの節で解説されている。

以上のように方法・結果共に良好な本実験ではあるが、幾つかの疑問点・改善点も見受けられる。一点目に、主に本論文の構成上の問題として、Participantsの節において日本人協力者のTOEFLの点数が上位グループのみしか書かれておらず、本質的側面のFigure 3 (p. 110)で中位・下位グループの大まかな点数の範囲が示されているのみである。「日本人の協力者からはTOEFLのスコアを利用する許可も得ている」という旨を明記している上に、上位グループは詳細を述べているので、中位・下位にも同様の詳細が必要だと考える。

二点目に、本実験で19名の英語母語話者からなるNSEグループを用いた意義は比較だと思われるが、母語話者の受容的語彙知識と言えば当然ながら(本実験協力者の90%以上を占める非母語話者と比較して)非常に高く、反応性の節での本実験協力者の7段階の分類に負の影響や何らかのノイズ(上位の分類の受容的語彙知識のサイズが非母語話者にとって非常に高い物になっている可能性等)を及ぼしている可能性が考えられる。

三点目に、1000語頻度レベルから14000語頻度レベルの語彙サイズは(特に非母語話者にとって)非常に大きいので、その回答率について詳しく言及する節が存在していると、より好ましいと思われる。また、今回の日本人EFL学習者の回答では、明確な英語借用語の影響(例えば、beaglecaffeine等々)も報告されており、この点を今後の研究でどう扱っていくかも重要なはずである。



ページトップへ戻る

2011年11月2日(Y. K)

O’ Toole, J. M., & King, B. (2011). The deceptive mean: Conceptual scoring of cloze entries differentially advantages more able readers. Language Testing, 28, 127-144.

 

  Abstract

 クローズテストの採点法としてconceptual coding (適語法) exact coding (原語法) よりも妥当性が高いと言われてきたが、この理由としては適語法はpoor readerにとって公平であるからと考えられていた。本研究では447名の中学生が3つのクローズテストに回答し、それぞれを2種類の採点法で採点した。得られた結果は以下の通りである。(a) 適語法はクローズテスト得点を有意に増加させる、(b) 適語法による点数の増加は、熟達度の高い読み手の方が大きい、(c) 適語法は熟達度の高い読み手が難易度の低いテキストを読むときに異なる影響を与える。

 

  Introduction

  クローズテスト: パッセージから複数の語が削除され、テスト受験者は空欄に適切な語を埋めるように指示される。

  採点方法

  ”strictly”: 削除された語とまったく同じ語でないと加点しない。採点が容易、客観的。

  ”conceptually”: 概念的・文法的に適切であれば加点する。熟達度の低い読み手に有利。

  A short history of cloze

   現在のクローズテストは、テキストの一般的な読みやすさ、理解しやすさを測る指標として開発されたものである。また、学習者の熟達度を測定するために用いられることもある。

   Spolsky (2000): クローズテストは利用しやすいが、”fad (気まぐれな)” である。妥当性を高めるためには、適語法の方が適切である。

   Oller and Jonz (1994): 原語法は、他のより困難で信頼性が低く時間のかかる方法と同じ程度に、テキストを弁別することができる。

   Kobayashi (2002a): 原語法は適語法では反映されるような読み手の理解を見えなくしてしまう。

   クローズテストの形式も様々であり、特定の品詞を削除するもの (Bachman, 1985)、空欄と空欄の間を広くとるもの (Kobayashi, 2002a)、削除された語のリストから回答を選ぶもの (St-Germain, 2000) などがある。

  Scoring reader entries in cloze deletions: An enduring quandary

   適語法は時間がかかる採点法であるだけでなく、主観が入ってしまうということは認められているものの、読解が苦手な読み手にとっては原語法よりも有利になる。

?先行研究の多くが単純に平均スコアを比較している。

   Taylor (1953): 概念的に合っているものに半分の点数を与えるという採点法を用いると、採点の能率は上がるがテストの弁別力は上がらなかった。

?後に続く研究も原語法を支持する結果。他の採点法から得られる結果との相関も高い。

しかし、相関は妥当性を保証するものではなく、実際には適語法の方が項目弁別力が高く、読み手の熟達度を有意に予測できる (Oller, 1972)

   近年の多くの研究で適語法の方が優れているという結果が得られているものの、適語法が読解が苦手な読み手にとって有利になる理由については明らかでない。

 

  Objectives of the present investigation

採点法の違いがクローズテストにおける読み手のパフォーマンスに与える影響について検証する。また、先行研究の分析ではテスト得点の平均を比較するにとどまっていたが、本研究では一般化加法モデル (非線形回帰モデルの一種) を用いて2つの採点法の関係性を検証する。

RQ1: 一般化加法モデルは、単純な平均の比較よりも、2つの採点法の違いをより明らかにできるか。

RQ2:  2つの採点法を用いると、読み手の得点パターンはparallelな結果になるのか。

RQ3: 得点のパターンはテキストの違い、学年、性別、言語的背景、教科に対する自信度の影響を受けるか。

 

  Method

  Student sample

  理科の授業で英語を使っているオーストラリアの中等学校の生徒447 (7年生125名、8年生109名、9年生124名、10年生89)

  150名は英語のみを話す家庭、297名は他の言語を話す。

  Test generation

協力者は約300語のパッセージを3つ読解する。3つのパッセージは内容は同じだが、それぞれ異なるテキストである。5語おきに語を削除した。

?clozeの間隔を広くしても予測性を高めない (Aborn et al., 1959)。また、clozeの間隔が3語以内だと、相互に影響を与えてしまう (MacGinitie, 1960)

  Study design

@ 内容が同じで、読みやすさが異なる3つのテキストを用いた。

A 始めの1文を残して5語おきに語を削除。

B 7~10年生を対象にした実験を行った。

C 各テストは原語法と適語法の両方で採点された。

D 各協力者のimprovement score (2つの採点法による結果の差) を分析。2つの採点法の関係性はグラフ化され、一般化加法モデルによって分析された。

 

  Test scoring

  本研究の適語法は、解答がテキストの意味を保っていたらスペルの誤りや非文法的な誤りは考慮しない、という方法をとった。

  1語以上の語を入れても内容が適切であれば加点した。

  主観性による影響の違いを最小限にするため、全ての協力者の解答を同じ人が採点した。

  Test reliability: Cronbach’s α はどちらの採点法でも十分な値であった (α = .73~.89)。信頼性係数は原語法 < 適語法

  Statistical techniques

  447名分のデータをグラフ化し、2つの採点法の結果を比較した。

  適語法での得点を従属変数、原語法での得点を独立変数として、適語法での得点を一般化加法モデル (GAMs: Generalized additive models) によってモデル化した。

 

  Results

  Figure 1 (): 3つ全てのテキストで、2つの採点法を比較した結果。

  Figure2 (): 各テキストごとの結果。

<グラフ省略>

 

 

  2つの採点法の差は得点が高くなるにつれて大きくなる。

  曲線は標準線形モデルと比較しても、統計的に有意である

?原語法の得点は適語法の得点を有意に予測できる。

  Figure 1GAMの結果から、熟達度の高い読み手は適語法の方が有利であることが明らかになった。

  適語法の得点の結果は、単に平均の比較だけで見ると結果が歪められてしまうことがある (平均の比較だけで見ると、適語法は協力者を弁別できないことになってしまう)

  結果を上位群・下位群で分けてt検定を行ってみても、上位群の方が適語法で有利な結果になっている。

  Figure2: text2が最も適語法による採点の影響を受けている。text1text3ではあまり変わらない

?採点法の違いはテキストの読みやすさの影響を弱める。

  その他の要因

家で英語を話す学習者 > 他の語を話す学習者、女子 > 男子、高学年 > 低学年、テキスト内容の知識に関して自信がある生徒 > 自身のない生徒

 

  Interpretation

   採点法による差は、読解熟達度の高い読み手の方が大きい

?熟達度の高い読み手は、語彙が豊富であるためクローズテストの選択肢となる語が熟達度の低い読み手よりも多い。

   特に、熟達度の高い読み手が難易度の低いテキストを読解する時、採点法による差が大きくなる。

   多くの先行研究では、原語法と適語法は平行の関係になっていると考えられていたが、本研究では点数が上がるにつれてその差が大きくなること (Figure 1)、得点が高い学習者はテキストの違いによって採点法の影響を受けやすいこと (Figure2) が明らかになった。

 

  Implications for scoring cloze tests for different purposes

   適切な採点法は、テストをどのような目的で行うかによって変わってくる。

   読み手の解答を個別に分析したり、どのような誤りをしているかを見る場合は、適語法が適切である。

   協力者をランク付けしたい時も適語法が適している。

?適語法だと原語法よりも分散が大きくなるので、テスト作成者がどの基準点でランク付けするかを決めやすい。

   ある特定のテキストの理解しやすさをクローズテストで測る時は原語法が適している。

 

  Conclusion

  グラフと一般化加法モデルの結果は、従来の平均の比較とおおよそ一致する結果が出たが、従来のアプローチでは明らかにならなかった点も解明された。

  本研究では、適語法がクローズテストの採点法として妥当な理由について説明することができた。

 

Comments

 本論文の最後に、クローズテストの採点法はテストをどのような目的で行うかによって変わると示唆されていた。したがって、採点法はテストの妥当性にも関わってくる可能性が考えられる。学習した語彙知識・文法知識を測定するために作成したテストであれば、テキストの単語をそのまま正答とする原語法が適切であろう。一方で、読み手がテキストの「内容」をどれだけ深く理解しているかを測るためのテストであれば、必ずしも本文と同じ単語を覚えている必要はなく、テキストの内容に合致していれば加点する適語法が適していると言える。テストの妥当性を確保するために、テストの作成時だけでなく、採点の方法も考慮する必要がある。

また、本研究の意義は単にクローズテストの採点法としての原語法と適語法の妥当性を検証したという点だけではない。本研究ではテスト得点を分析する方法として、単にそれぞれの平均点・分散から結果を見るだけでなく個々のデータを反映させるような分析方法 (e.g., 一般化加法モデル) によって平均点の比較だけでは見えてこないデータの動きを観察することができ、個々のデータが有する意味も大きくなると考えられる。本論文のタイトルに ”the deceptive mean” とあるように、テストデータを扱う時は単に平均の結果を見るだけでなく様々な統計法からのアプローチが重要になると感じた。

 

<本文より補足> 一般化加法モデル (GAM: Generalized Additive Model) 

  統計ソフトR (R-Deveropment-Core-Team, 2004) によって計算可能。

  2要因の関係性を波形 (wiggly) のグラフで表す。

  線形モデルだと結果をoverfittingしてしまうことがあるが、GAMを用いることによってそれを防ぐことができ、個々のデータの関係性をより精緻にモデルに反映することができる。

 

 

ページトップへ戻る