ABOUT/CONTACT

SEMINAR

SLAA
（Second Language Acquisition & Assessment Research Group）

FOR STUDENTS

TEASY

LINK

2018年度　　異文化言語教育評価論

1. 論文の概要と考察（3～5ページ）

【論文】

Cai, H. (2012). Partial dictation as a measure of EFL listening proficiency: Evidence from confirmatory factor analysis. Language Testing, 30, 177-199.

＜論文の概要＞

現場の教師の多くは評価について訓練を受けておらず、また他の仕事に追われているため既製のテストや教科書の問題を「コピペ」して使うことでその場をしのいでいる者が多い。多忙な教師が求めているのは作成が簡単で、かつ質の良いテストである。「質の良いテスト」はテスト方式を工夫すれば作ることが可能である。本研究では「部分ディクテーション（partial dictation）」に着目し、この方式がリスニング力の測定に適しているかということと、その統計的特性および構成概念妥当性を検証する。

Literature Review

A hierarchical view on listening comprehension

リスニングが言語の基本技能の1つで、指導と評価の両方で他の3技能と異なる性質を持つということには多くの人が同意するだろう。リスニングでは、記憶に貯蓄された様々な言語関連の知識を利用することが不可欠と捉えられ、Anderson and Lynch（1988）はその知識の種類としてsystematic or linguistic, schematic, contextの3つを挙げた。このAnderson and Lynchのモデルの特徴は、3つの知識が階層的だということである。最も下位に位置するのがsystematic/linguisticで、次にcontext、最も上位にあるのがschematicである。この区別は認知心理学におけるボトムアップ処理とトップダウン処理の違いと一致している。この2つの処理は区別されるものの、正確で迅速な情報処理には不可欠なため、等しく大切なものである。

Testing of listening

リスニングプロセスの階層的な捉え方はテスティングにも反映されており、Buck（2001）が提案した3つのリスニング評価のアプローチ（discrete-point, integrative, communicative）の基礎にもなっている。Buckによれば全体的な内容理解を測ることができるのはintegrativeなテストだというが、このような見解の背景にあるのは、テスト形式によって下位処理か上位処理のどちらかしか測れないという考えである。しかしこれはBuck自身がBuck（1991、1994）のなかで述べた、下位処理と上位処理は相互作用する、ということと矛盾している。テストがintegrativeであるほどどの処理が関わっているか見極めることは難しく、それらを別々に測定することはできない。

Dictation and partial dictation

外国語の指導と評価の方法としてのディクテーションの歴史は議論で溢れている。その議論の多くは測定される構成概念に関するもので（e.g., Lado, 1961; Jones, 1977; Alderson, 1978）、ディクテーションは偏った言語技能しか測れないとの批判を受けてきた。それに異論を唱えたのがOller（1971）で、Ollerはディクテーションが様々な認知処理の統合であると考えた。Cohen（1980）もまたディクテーションは、単なる綴り字テストとは異なり、ノートテイキングのように学習者が日常生活で行うタスクと似たものだと述べた。

ディクテーションは実施が簡単だが、採点に時間がかかり、主観が入りやすいという難点がある。その負担を軽減し、また日常生活に近づけるため、様々なバリエーションが生み出された（Davis & Rinvolucri, 1988; Oller, 1979）。その１つが部分ディクテーションで（Henning et al.のいうlistening recall testと同じ）、Johansson（1973）によれば、部分ディクテーションは標準のディクテーションよりも経済的で、ポーズが不要なぶん現実の言語使用にも近いため、さらに優れた評価方法だと述べた。一方で、英文が易しい場合は全文を聞かずとも答えられるため単語認知の能力しか測れない（Buck, 2001）、といった負の評価もある。

Validity issues

部分ディクテーションについての議論は構成概念についてのもので、下位の能力しか測っていないと考える者（Alderson, 1978; Buck, 2001; Lado, 1961）と、上位の能力も測っているとする者（Cohen, 1980; Johansson, 1973; Oller, 1979）とに分かれる。

上位能力と下位能力という区分に基づいた、構成概念とテスト方式の関係性については、3つの考え方が存在する。1つ目は、上位能力は下位能力の習得を前提としているため、上位能力を測れば十分であるという考え方である（simplex model）。この場合は下位能力を測るためのテストを実施する意義はない。2つ目は、上位能力と下位能力が別個の対等な関係にあると想定した場合で（second-order model）、この場合はどの能力を測りたいかでテスト方式を選ぶ必要がある。3つ目は、能力を階層に分けず総合的な能力として扱い、全てのテスト方式はその総合的能力を測っているという考え方である（bi-factor model）。本研究では3つ目の考え方を支持し、部分ディクテーションが下位能力だけでなく上位能力も測れるものとみなす。

Research objectives

上述の3つの分類（simplex, second-order, bi-factor）に基づき、本研究では確認的因子分析（Confirmatory Factor Analysis; 以下CFA）を用いて、部分ディクテーションがどのモデルに最も当てはまるか検証する。

Methods

Participants

協力者はEFLを専攻する中国人大学1年生367名（女子291、男子76）で、一部を除き大半は17～19歳である。母語は広東語や客家語など様々だが、高校まで標準の中国語で学んでいる。この調査が行われた前期末まで同じ英語の科目を受講してきた。

Instrument

リスニングテストは4つのPart（I～IV）で構成されており、36分間で実施された。

Part IとIIは部分ディクテーションである。どちらのPartも、2度音声を聞かせたあとスクリプトを提示し空所を埋めさせた。ただしPart Iは語ごとの書き取り（1語×10か所）、Part IIは4語ごとの書き取り（4語×10か所）であるため、満点はそれぞれ10点と40点である。綴り字の間違いはすべて誤りとした。

Part IIIとIVは要約文の穴埋め問題（gap-filling）である。どちらのPartも、2度音声を聞かせ、それぞれの再生のあとに要約文（10文）の穴埋め問題に答えさせた。ただしPart IIIは単語の穴埋めを行ってもらい（10点満点）、Part IVでは節単位で穴埋めを行ってもらった。IVでは各問題に対してキーワードが設定されており、キーワード（またはその同義語）を1つ書けるごとに1点を与えた。綴り字の間違いは誤答とした。

まとめとして、Part Iが最も下位の能力を測っており、次いでII＜III＜IVの順で上位の能力を測っていると考えられる。

Procedures

テストは期末試験として普段使用しているコンピューター室で実施された。協力者の解答はコンピューターに入力され、商用のプログラムを用いて自動採点された。採点基準に問題がないか1名の評価者が確認を行った。

Analyses

40項目×367名のデータに対し、記述統計と内部一貫性を出した。前述の3つのモデル（simplex, second-order, bi-factor）に基づきCFAを行った。どのパートもカテゴリカルデータであるため、多分相関マトリクス（polychoric correlation matrix）と対角重みづけ最小二乗法（Diagonally Weighted Least Squares; DFLS）を用いた分析の結果、5つの項目と有意な相関があった項目40を除去、項目21と29で合成変数を作ったため、合計38項目となった。またCFI、RMSEA、SRMRの3つの指標で適合度を検討したところ、十分な値が得られた。

Results

Difficulty level

各Partの難易度を計算したところ、全体的に難易度は高く、正否で採点されたPart IとIIIのほうが、部分点のあるPart IIとIVよりも成績が低かった。

Internal consistency

Part I～IVのα係数はそれぞれ.736, .814, .738, .647で、全体では.904だった。各項目を削除したときのαも計算したところ、αを低下させたのはPart IVの2項目のみだった。以上から、2種類の部分ディクテーションの信頼性はどちらも十分であったと判断した。

Confirmatory factor analyses

Model fit. bi-factor modelは2つの方法因子（partial dictation, gap-filling）を想定した場合の当てはまりが最も良かった。またCFI・RMSEA・SRMRの値から3つのモデルとも十分な適合度が得られたが、Simplex modelの自由度に対するカイ二乗値の比率（χ²/df）が最も高かった。

Model comparison. AIC（Akaike Information Criterion）の値からBi-factor modelが最も優れたモデルであることがわかり、これは他の適合度指標が示す結果とも一致する（すなわちχ²/df, RMSEA, SRMRが最も低く、一方CFIは最も高かった）。

Model interpretation. 因子分析の結果、38項目すべての因子が全体因子（general factor）に対して有意な負荷量を持つ一方、いくつかの項目は片方の方法因子（method factor）にしか有意な負荷量を持たないことも判った。いくつかの例外を除き、2つの方法因子に対する負荷量には規則があるようである。すなわちPart IとIIIの項目は負荷量がプラスで、Part IIとIVの項目は負荷量がマイナスになる傾向があるという特徴がみられる。これはテスト方式が難易度に影響する因子として働いている証拠だと言えよう。まとめると、全ての項目は一般的なリスニング能力を測っている一方で、いくつかの項目はテスト方式に影響を受けていた。

Discussion and conclusion

Difficulty

本調査の項目難易度は適度であることが判り、この結果はテストマテリアルに授業で用いた教材と近いものを使用したからだと思われる。また、部分ディクテーションの難易度は他のテスト方式と比べて違わないことも示唆された。Part IIとIVの成績が易しかったのは、これらのPartでは部分点がもらえたという採点の仕方によるものだろう。全体として、トピックや文章の複雑さ、発話速度などが適切であれば、部分ディクテーションの難易度は適切に保てるようである。

Consistency

内部一貫性は、1語ごとの部分ディクテーション（Part I）が.736、句ごとの部分ディクテーション（Part II）が.814とそれぞれ十分に高い値を示した。後者のほうが高かったのは、問題数が増えればα係数が上昇するのと同じで直感的に理解できる。Part IV（要約文を完成させる問題）の一貫性が最も低く、係数を下げる項目が2つあった。これらの結果から、部分ディクテーションのほうが問題作成と一貫性確保の両方で優れていることが判った。

Construct

確認的因子分析の結果から、下位能力を測ると思われていた部分ディクテーションが、上位能力を測ると思われていた穴埋め問題と同じ能力を測っていることが示唆された。この結果から、部分ディクテーションはリスニング能力の構成概念を十分に反映していないという疑念は晴れたと言えよう。

また本研究の結果は、部分ディクテーションと穴埋め問題の違いは下位処理と上位処理の違いにあるという考えとも矛盾するものである。むしろ部分ディクテーションには下位処理と上位処理の両方が関わることが明らかになり、単語認知でさえ様々なレベルで文脈から切り離せないというTyler and Frauenfelder（1987）の主張を支持する結果が得られた。意味処理を活性化させるためには、情報量の多い内容語を空欄にするとよいだろう。

2つのテスト方式が測定する構成概念には違いがないことも示唆されたが、偶然得られた結果かもしれない。これらのテスト方式の影響については先行研究がないため、更なる調査が必要である。

Some unresolved issues

限界は3つある。1つ目に、確認的因子分析により部分ディクテーションがリスニング力の測定に役立つことが示唆されたが、受験者の心理過程については調査していない。特に検証が必要なのは、この活動における下位処理と上位処理の交互作用である。2つ目に、分析上必要な手順だったとは言え、項目を削除したことも技術的には好ましいことではない。3つ目に、サンプルサイズもカテゴリーデータの分析を行う際にはもっと必要である。

Conclusion

本研究では、部分ディクテーションが穴埋め問題など他のテスト形式と同じ構成概念を測定していると想定し、確認的因子分析を行った結果、この想定を支持する結果が得られた。このことは、信頼性と妥当性があるリスニングテストを実施したい際、部分ディクテーションが有力な選択肢となりうることを示している。ただしトピック、文章の複雑さ、発話速度が授業で使用したものと同程度であるということを前提としている。

＜考察＞

筆者も述べているように、ディクテーションの利点は多肢選択式の内容理解問題などに比べて作成が容易な点である。部分ディクテーションについて言えば採点も容易であるため、本研究を通じて部分ディクテーションを一般的なリスニング能力を測るテストとして活用できる可能性が示されたことは、研究上大きな意義がある。

1語ごとよりも4語ごとに書き取らせることで難易度が下がり、信頼性が向上するという結果は、意外だったが示唆に富むものである。本来、句ごとの書き取りのほうが短期記憶への負荷が高いため、難易度は上がるはずである。特に本研究で行った部分ディクテーションは、全文を通して2回聞いたあとに空所に入る語を思い出して記入するという、リコールに近い形式であった。音声を止めながら書き取らせる方式で行うと、短期記憶への負荷を減らせる一方、答えを記入するためのスクリプトを予め渡す必要があるため、内容理解に対する受験者の注意を削いでしまう危険性が生まれる。その結果、単語認知の能力しか測れず、上位能力の測定が出来なくなる可能性もある。本研究のようなリコール式でも信頼性が確保されるのであれば今後活用を検討したい。

上記の示唆が得られた一方、調査方法に関しては疑いもある。まず、各Partで用いた文章だが、事前に難易度の統制を行ったという記述はないため、得られた成績のみをもって単純に難易度の比較はできない。難易度だけでなく、モノローグかダイアローグであるか、話者の性別、発話速度（143～181 WPM）などの面でも統制がとられていない。特に発話速度は内容理解や単語認識に直接影響するという研究結果が多数報告されているため（e.g., Kelch, 1985; Blau, 1990; Griffiths, 1992; Zhao, 1997）注意が必要である。

2. メタ認知を高めるためのレッスンプラン（ページ数指定なし）

（1）対象者

対象は、現在私が教えている白鷗大学経営学部の必修英語の受講者50名（男女はおおむね半分ずつ）を想定した。熟達度は多様だが、平均すると英検準2級付近だと思われる。経営学部ではTOEICで高得点をとると学業特待審査で高評価が得られるという制度があり、1年次必修科目のこの講座は全クラスがTOEIC対策を行うことになっている。学業特待の資格を得る（または維持する）ために意欲的に受講している者もいるが、卒業のために仕方なく受講している者のほうが多いという印象である。一部スポーツ特待の学生がおり、英語の学力・学習意欲ともに他の学生に比べると低い傾向がある。

（2）使用教材（教科書、リフレクションシート）

a. 教科書

教科書は全クラス指定のもの（センゲージ・ラーニング『First Time Trainer for the TOEIC Test』下図参照）を使用することになっている。この教科書はTOEICを受けたことがない初級者を対象としており、対象レベルは400点と低い。全部で12のUnitがあり、Unitごとにテーマ（例：Shopping、Office Work、Transportation）が設定されている。各Unitの問題構成は本番のTOEICのPart構成（1～7）と同じで、Unitの最初にVocabulary Buildingが、Listening SectionとReading Sectionの最初に解き方についてのヒント（Tips）とそれに関連した問題演習（Training）が用意されている。

2回の授業で1つのUnitを終えるのが一般的な進度で、私の授業では1回目にListening Section（Part 1～4）の学習を、2回目にReading Section（Part 5~7）の学習を行っている。このレッスンプランは『Unit 1 Shopping』のListening Sectionの学習で実施することを想定した。Listening Sectionの問題数は次頁の通り13問で、途中で止めずに音声を再生すれば、5分未満でPart 1～4の解答が終わる。

Part 1（Photographs）：2問

Part 2（Question-Response）：5問

Part 3（Short Conversations）：1文章×3問

Part 4（Short Talks）：1文章×3問計13問

b. リフレクションシート

メタ認知スキルの向上をねらいとして、振り返りのための「リフレクションシート」を作成した（添付資料参照）。このシートは２つのセクションから成る。

1の選択式アンケートは、Vandergrift and Goh（2012）で紹介されている「Metacognitive Awareness Listening Questionnaire」（pp. 95-96）をもとに作成したものである（ただし６件法から４件法に変えてある）。なお、項目5（ほとんどの単語を正確に聞き取ることができた）は、ボトムアップスキルの重要性を認識させるために私が独自に追加した項目である。

2の自由記述欄は、受講者に自らの学習成果を振り返らせ、次回の学習の課題を設定させるために設けた。Vandergrift and Goh（2012）はこのような学習をピアと行うことで、「メタ認知の活動を行うことの利点を理解し、そのような活動を継続することに対して意欲的になる」（pp. 99-100）と述べている。そのため本レッスンにおいてもピアで振り返る機会をとることにした（後述の手順⑤）。

なおこのシートはリスニング学習を行うたびに記入させ、学期末のポートフォリオ評価に使用する予定のものである。

（3）手順（90分×1コマ）

1回の授業は90分で、15週で講座は完結する。授業は毎回CALL室で行うことになっており、教師用PCの音声をスピーカーで一斉に再生したり、ネットワークを通じて授業に必要なファイル（音声データやスクリプトなど）を受講者と共有したりできる。学生にはイヤフォンを持参するように伝えてあり、各ブースで個別に練習させることも可能である。

Vandergrift and Goh（2012, p. 110）で示されている指導手順（Pre-Listening, First Listen, Second Listen, Third Listen, Reflection and Goal-Setting）にしたがってメタ認知を高める授業を考えた。加えて、リスニングの初級者がつまづきやすい語認識の能力を高める活動をこの手順に組み込むことにした。その時間を確保するため3回目のリスニング（Third Listen）は省略し、かわりにLanguage-Focused Activity（Vandergrift & Goh, 2012, pp. 126-129）としてディクテーションを行うことにした。

指導は下記の①～⑤の手順で行う。

① Pre-Listening（15分）

Vocabulary Building（宿題）の答え合わせをピアで行う。教師が答えを発表し、全体で音読をして発音を確認する。

Tipsの解説をし、Trainingに解答させる。答え合わせを行い、全体で音読をする。

Part 1の写真やPart 3と4の選択肢に目を通させて、出題内容の予測をさせる。

② First Listen（15分）

マークシートを配付、Part 1～4の問題音声を流して解答させる。

答えが分からなかった箇所や自信のない箇所をピアと話し合わせる。

全体で共有し、Second Listenにおける課題を各自に考えさせる。

③ Second Listen（15分）

Part 1～4の問題音声を再び流し、わからなかったところを中心に答えを考えさせる。

ピアと確認する機会を再び与え、最終的な答えを決めさせる。

答え合わせを行い、マークシートに点数を記入させる。

どの問題が間違いやすかったか全体で確認する。

④ Language-Focused Activity（25分）

問題音声とスクリプトのデータを配布し、間違ったところを中心に各受講者にディクテーションさせる。なおレベルを高くしたい受講者に対しては、Windows Media Playerの速度変更の機能を利用して速度を速めるよう助言する。

⑤ Reflection and Goal-Setting（20分）

リフレクションシートを配り、記入させる。

3～4人のグループで書いた内容について述べ合わせる。

シェアリングを経て何を感じたか数名に答えてもらい、教師からフィードバックする。

評価のためにマークシートとリフレクションシートを回収し、授業を終える。

（4）評価方法

2つの方法で評価を行う。1つ目に、productの評価を目的としてマークシートの点数を記録する。2つ目に、processの評価を目的としてリフレクションシートにちゃんと記入しているか確認し、適宜教師からのフィードバックを記入する。良い気づきがある場合には加点する。

3. 添付資料

月日

リフレクションシート

氏名（）

1. 次の（1）～（8）を読み、それぞれについて1～4のうちから最も当てはまると思うものを１つ選び、数字を〇で囲んでください。［］内の基準を参考にしてください。

［ 1：あてはまらない 2：あまりあてはまらない 3：ややあてはまる 4：あてはまる］

（1）緊張せずに聞くことができた。 1 … 2 … 3 … 4

（2）聞く前に、どのように聞くか頭のなかで計画を立てた。 1 … 2 … 3 … 4

（3）難しいと思っても集中して聞くことができた。 1 … 2 … 3 … 4

（4）頭のなかで日本語に翻訳せずに聞くことができた。 1 … 2 … 3 … 4

（5）ほとんどの単語を正確に聞き取ることができた。 1 … 2 … 3 … 4

（6）分からない単語が聞こえても文章の意味の推測に努めた。 1 … 2 … 3 … 4

（7）自分の理解が正しいか自問しながら聞くことができた。 1 … 2 … 3 … 4

（8）自分の経験や知識をもとに内容を理解しようと努めた。 1 … 2 … 3 … 4

2. 今日の学習の成果と、次回の課題を書いてください。

成果

課題

4. 引用文献

Blau, E. K. (1990). The effect of syntax, speed, and pauses on listening comprehension. TESOL Quarterly, 24, 746-753.

Griffiths, R. (1990). Speech rate and NNS comprehension: A preliminary study in time-benefit analysis. Language Learning, 40, 311-336.

Kelch, K. (1985). Modified input as an aid to comprehension. Studies in Second Language Acquisition, 7, 81-90.

Vandergrift, L., & Goh, C. C. M. (2012). Teaching and learning second lanuage listening: Metacognition in action. New York: Routledge.

Zhao, Y. (1997). The effects of listeners’ control of speech rate on second language comprehension. Applied Linguistics, 18, 49-68.