筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2017年度  異文化言語教育評価論

【文献まとめ@】

Nitta, R., & Nakatsuhara, F. (2014). A multifaceted approach to investigating pre-task planning effects on paired oral test performance. Language Testing31, 147?175.

 

■本研究は、異なるplanning conditionにおける学習者のinteractionsのプロセスの共通点と相違点についての見識を得るために、伝統的なsummative approachと、よりprocess-orientedなアプローチを調和させることを目的としている。

■さらに、ダイアログ型のパフォーマンスにおける、planningありとなしについてのテスト受験者の感覚を調査することも目的である。

RQは以下の4つ。

RQ1: pre-task planningは、rating scoreによって測定される、ペアによるoral interactionテスト受験者のパフォーマンスに影響を与えるか。

RQ2: pre-task planningは、discourse analytic measuresで測定されるパフォーマンスに影響するか。

RQ3: pre-task planning timeの有効性とplanningあり・なしの条件での彼ら自身のパフォーマンスについて、テスト受験者はどのように感じるか。

RQ4: 受験者はplanningあり・なしの条件でどのように共同的にパフォーマンスを構築するか。

 

Method

Participants

32人の英語専攻の日本人大学生 (平均8.52年の英語教育を受けている / 男性16, 女性16)

■直近のTOEFL IPT (M = 476.41) の結果から判断して、協力者はCEFRB1レベルであった。

■協力者は自由に同性のペアを組んだ。

Design

■テスト: warm-up task (2分間の自己紹介) × 1, decision making tasks × 2

Decision making tasksの条件: 3-minute pre-task planning time (+), without a planning time (?)

■それぞれのタスクは5分で行われ、すべてがビデオで録画されていた。

■協力者はすべての手順が終了した直後にタスクとplanning timeに関するアンケートに回答した。

Tasks

Decision-making tasksCambridge First Certificate in English (FCE) part 3 collaborative taskを使用。

■このタスクは、interactionを維持する能力、考えを交換する能力、賛成または反対する能力、相手に勧める能力、交渉を経て決定に至る能力を測定することを目的としている。

FCE3分で行われるタスクであるが、本研究では5分で行われた。

Planning

テスト環境で3分以上のplanning timeは妥当ではないと考えられたため、本研究では3分間のplanning timeが設けられた。

Planningの形式に決まりはなく、スピーキングテストに備えて自分なりの方法で準備した。

Planningは個人で行い、辞書やインターネットなど他のものを使用することは禁止されたが、noteをとることは許された。

■用意したnoteについては、スピーキングテストで相手に話す時に見て良いとされた。

■協力者のplanningの様子はビデオで撮影された。

 

Analysis

Rating scores

■ビデオで録画された32名の協力者のパフォーマンスは、Iwashita et al. (2001) で使用されたfluency, complexity, accuracyからなるrating scalesを改変したものに基づいて採点された。

 

2名の評価者が採点を行い、1.5時間の採点者トレーニングを受けた。採点の不一致点は議論した。

 

スコアはFACETSプログラムによるmultifaceted Rasch analysisを使用して統計的に分析された

Discourse analytic measures

Fluency

Speed: 全体の発話時間から算出した1秒ごとの総語数

Breakdown: 全体の発話時間から算出したポーズ (0.2秒以上, ターン時の沈黙も含む) の長さの合計

Repair: 総語数のうちの繰り返し、自己修正、reformulationの数

Complexity

Syntactic: AS-unitごとの節の数

Lexical: 語彙の多様性 (Measure of Textual Lexical Diversity)

Accuracy

Global accuracy: 100語ごとのエラーの数

Interaction

Turn length: 1ターン内に算出された語数

Questionnaire data

Weir et al. (2006) の認知処理に関するアンケートが使用された。

■アンケートは、タスクに関する項目、タスク開始前に協力者が考えたことやしたことに関する項目、planningの段階に関する項目、スピーキングを行っている間に起きたことに関する項目の4つの部分からなっていた。

結果の分析には、ノンパラメトリック検定が使用された。

Conversation analysis

■協力者のco-constructingプロセスにおける、共通点と相違点を調査するためにCAが行われた。

本研究では、rating scoresdiscourse analytic measuresの統計的分析の結果を解釈、精緻化するためにCAを使用した。

 

 

 

 

Results

Score analysis

 

■能力のある受験者はより上部に、能力の低い学習者はより下部に位置付けられた。

■厳しい評価者、難しいplanningの条件、難しいrating categoriesは上部に、寛大な評価者、簡単なplanningの条件、簡単なカテゴリーは下部に現れる。

■このmapplanningありの条件よりもplanningなしの条件の方が困難であることを示しており、他の項目に比べてaccuracyが最も難しいことを示している。

Figure 1を見ると、planningありの条件はplanningなしの条件より簡単であることが示された。

■より詳細な違いの検定方法の1つはfixed chi-squareであり、帰無仮説の検証を含んでいる。

Fair average scoresの差を見ると0.24と小さいものの、chi-squareの結果、2つの条件間では有意な差があることが示された2 = 21.0, p < .01)

■各rating categoryplanning timeによる影響については、fair average scoresの差を見ると大きな差はないものの、fluency (χ2 = 17.7, p < .01) complexity (χ2 = 5.8, p = .02) で有意であり、accuracyについてのp値も有意であった 2 = 4.0, p = .05)

Discourse analytic measures

Pre-task planningがパフォーマンスに与える影響を調査するため、paired t-testが行われた。

Planning timeは、speed fluency (一秒ごとの単語数) break-down fluency (ポーズ) の有意な低下を導くことが明らかになった。一方、planningcomplexityaccuracyには影響していなかった。

■最も注意すべき結果はinteractionについてであり、ほとんどのペアでpanningありの条件で長い発話が行われることが示された。

Questionnaire

■アンケートの結果については、4つの構成分野間でも、planningの条件間でも有意な差は見られなかった。

Conversation analysis

■受験者の発話を繰り返し聞き、書き起こす中で、結果の説明を手助けすることができるような、2つのplanningの条件でのテスト受験者のinteractional patternの特徴が大きく2つ明らかになった。

(1) planningなしの条件におけるcollaborative interaction

  会話の初めに短い対話が頻繁に見られ、これを行う中で徐々に共同的にinteractionを行う。

  会話の最後でfurther collaborationを行う。

(2) planningありの条件におけるparallel and asymmetrical interaction

  Planningなしの条件に比べて、ありの条件では初めから長い発話が行われる。

  会話の中盤で滞りが起きる。

 

Discussion

■本研究は、テストのスコアとdiscourse analytic measuresの間の複雑な関係性を示した。

Score analysisの結果、pre-task planningはテスト受験者のスピーチのfluencycomplexityをわずかに向上させることが明らかになった。

Discourse analytic measuresの結果、pre-task planningbreakdown fluencyの増加とより長い発話を導くことが明らかになった。

■アンケートの結果、テスト受験者はplanning timeを方略的に使用することができておらずplanningなしの条件の方がスピーチをするのが簡単であるとさえ感じていることが示された。

Conversation analysisはこれらの結果を補足する有益な視点を示した。

 

Conclusion

■本研究はprocess-oriented analysisを使用し、pre-task planningがパフォーマンスに十分な影響を与えることはできないことを示した。

Planningありの条件では、特にinteractionの最初でdialogueというよりもmonologuesに類似しているということが明らかになった (planningで考えたことを伝えることに集中してしまう)

■したがって、planningなしの方が共同的にタスクに取り組むということになった。

Planning timeを使用することによって、discourse modeを変化させることができる可能性がある。

例えば、planningなしのdialogic taskinteractional competenceの向上に有効である。

■本研究の結果、planningの有無は会話のパターンに影響を与えることを示した。

TBLTlanguage testingreciprocalな関係にあるが、pre-task planningに関するこれまでの発見は常に効果的に結びついているわけではない。

■本研究で使用したようなmultifaceted approachpre-task planninginteraction、共同的に活動するプロセスの間の複雑な関係性を理解するための新しい方法である。

 

 

 

 

 

【文献まとめA】

Gan, Z. (2012). Complexity measures, task type, and analytic evaluations of speaking proficiency in a school-based assessment context. Language Assessment Quarterly9, 133?151.

 

THE STUDY

The Assessment Tasks

2007年から、香港ではHong Kong Examinations and Assessment Authority (HKEAA) Hong Kong Certificate of Education Examinationにおけるschool-based oral English assessment componentが組み込まれてきた。

■本研究のResearch Questionsは以下2つである。

  school-based assessmentの文脈でmonologic taskinteractive taskを区別してどのようにcomplexityを測定するか。

  school-based assessmentの文脈でgrammatical complexity measuresは生徒のスピーキングの熟達度のanalytic evaluationsとどのように関連しているか。

■これまでのフォーマットとは異なり、このschool-based assessmentは教師が共通の評価基準の枠組みを使用することを確立することでoutputの評価を可能にした。

■結果として、この評価基準の使用する教師はトレーニングを受けることになった。

■本研究の目的のため、30人のESL学習者のデータが2つのschool-based assessment tasks (individual presentationgroup discussion) から集められた。

Individual presentationは授業で見た映画を紹介するもので、3~5分で行われ、ビデオ録画された。

Group discussionでは協力者は3~4人のグループに分けられ、授業で読んだ本について与えられたトピックに基づいて議論した。議論は7~9分で行われ、ビデオ録画された。

Individual presentationgroup discussionの間、教師は参加者のそばに座り、scoring sheetを使用して、評価基準に基づき最も低い1~最も高い66つのレベルでそれぞれの協力者を評価した。

■ビデオで録画されたindividual presentationsgroup interactionsconversation analysis conventions (Atkinson & Heritage, 1984) に基づいて書き起こされた。

 

Coding the Data

■初めにProduction units (i.e., T-units, clauses, verb phrases, and words) に基づいてトランスクリプトをコーディングした。

■続いてProduction unitsの頻度を算出し、また、complexity ratio measuresが行われた。

1.       Length of T-units in terms of number of words

T-unitごとの平均語数であり、総語数を総T-unit数で割ることで算出される。この数値は、学習者の中間言語の熟達度を表すとされる。

2.       The number of clauses per T-unit

T-unitごとの平均節数であり、総節数を総T-unit数で割ることで算出される。この数値はgeneral language complexityを表し、この数値が高いほど、スピーチが複雑であるとされる。

3.       The ratio of dependent clauses to the total number of clauses

総節数におけるdependent clausesの割合であり、dependent clausesの総数を総節数で破ることで算出される。この数値は埋め込み節の割合を表している。

4.       The number of verb phrases per T-unit

T-unitごとの動詞節の数であり、動詞節の総数をT-unitの総数で割ることで算出される。

5.       MLU (Mean Length of Utterance)

Dewaele and Furnham (2000) では、発話の長さは中間言語で複雑な構造を算出する能力を反映しているとされている。本研究では、発話者による発話の中で最も長い3つについて、平均語数を算出することでMLUを算出した。

UnitsのコーディングのIntracoder reliabilitiesT-unit.95clause.94dependent clause.94verb phrase.93MLU words.95であった。

 

RESULTS

Complexity and Task Type: Monologic Versus Interactive

2つのタスクで算出されるlanguage outputの複雑さに違いがあるかどうか検証するため、within-subjects analysis of varianceが行われた。

■初めに2つのタスクのlanguage production unitを比較した。結果、4つのproduction unitsのうち4 (T-unit, clauses, verb phrases, words) において2つのタスク間で有意な差が見られた (p < .005)

■このことは、group discussionに比べてindividual presentationで協力者は有意に多くのproduction unitsを産出したということを意味している。

■次に5つのcomplexity measuresの比較を行った。5つのうち3 (length of T-unit, verb phrase ratio, MLU) complexity measuresにおいて2つのタスクの間で有意な差が見られた。最もF値が高かったのがverb phrase ratio (p = .000) であった。

Relationship Between Complexity Measures and Analytic Evaluations of Students’ Speaking Proficiency

Group discussionindividual presentationの採点基準は、英語の言語パフォーマンスの4つの主要なdomains (Pronunciation & Delivery, Communication Strategies, Vocabulary & Language Patterns, Ideas & Organization) における英語の熟達度を6つのレベルで測定している。

■本研究で焦点としているcomplexityについては、4つのdomainsの中でVocabulary & Language Patternsが最も関連していると考えられる。

■結果、presentation taskにおけるdomain scoreの平均は3.500 (2.00~6.00)global scoreの平均は14.200 (8.00~22.00) であった。

discussion taskにおけるdomain scoreの平均は3.13 (2.00~5.00)global scoreの平均は13.033 (9.00~20.00) であった。

grammatical complexity measures2つのタスクのassessment scoresの関係を調査するため、ピアソンの相関係数が算出された。

production unitsとスコアの相関について、2つのタスクの両方で全体のスコアと有意な相関を示したのはclausewordのみであった。これは生徒によってより多くの節や単語が算出されると、2つのタスクの両方で高いglobal scoreを示すということである。

T-unitと動詞節はpresentationにおけるglobal scoreとのみ有意な相関を示した。

Domain scoresの観点では、T-unitvocabulary & language patternsのスコアと有意な相関を示す唯一のproduction unitであることが示された。しかし、これはpresentation taskにおいてのみである。

Complexity measuresについて言うと、MLUのみがgroup discussion taskにおけるglobal scoreと有意な相関を示した。これは生徒がより長い発話をすればするほど、高いglobal scoreを得るということを示している。

 

DISCUSSION

Complexity of Oral Performance in Monologic versus Interactive tasks

■本研究の結果では、discussion taskよりもpresentation task4つのlanguage production unitsなどに見られたように、よりcomplexityが上がるという傾向が見られた。

■また、3つのcomplexity measurespresentation taskにおいて有意に高い結果が得られた。

■このことから、他の要因も2つのタスクにおけるcomplexityの違いに影響を与える可能性があると考えられる。

■本研究で使用した2つのタスクにおけるcomplexityの違いを解釈することができる1つの可能性は、生徒がmonologic presentationの方がgroup discussionに比べてcommunicative pressureを感じにくいということである。

■この結果はRobinson (2005) で述べられた、interactive tasksL2 パフォーマンスのcomplexityに否定的に影響し、それが構造的・語彙的な複雑さを減少させる原因となる、という記述と一致する

 

Complexity Measures and Teacher’s Analytic Evaluations of the Learners’ Speaking Proficiency.

■本研究では、production unitsdiscussion taskのスコアよりもpresentation taskのスコアと関連していることが示された。

5つのcomplexity measuresのうちdomain scoreと相関を示すものが見られなかったことから、これら2つのタスクはgrammatical complexityよりもむしろ他の要因 (complexityよりもaccuracyを優先していた、アイコンタクトなども影響したなど) も教師の評価に影響していることが考えられる。

■このことから、なぜpresentation taskにおいてよりproduction unitがスコアとより関連していたかというと、評価者はgroup interactionにおいては学習者の相互行為スキルにより焦点を当てていたということであると考えられる。

■さらに、2つのタスクを行った条件も言語構造の複雑さと語彙の多様性に影響を与えるかもしれない (本研究はテストのような環境で行ったため、生徒が正確さに焦点を当てた可能性もある)

Discussion taskにおいては、MLUのみがglobal scoreと中程度の相関を示していた。

Iwashita et al. (2008) でも、MLUは他のcomplexityの測定よりも学習者のスピーキングの熟達度と関連していることが示されている。

 

CONCLUSION

■本研究では、school-basedな文脈における学習者のスピーキングの熟達度における、grammatical complexitytask typeanalytic evaluationsの関係を調査した。

■本研究で扱った2つのタスクタイプは質的にも量的にも異なる発話を促すことが示された。

【考察】

今回取り上げた2つの文献は、どちらもタスク条件がoral performanceに与える影響を検証したものである。Pre-task planningやタスクの形態などのタスク条件がoral performance (performancecomplexity, accuracy, fluency) に与える影響を検証した研究は、これらの他にも多く行なわれきている (e.g., Chen & Sun, 2015; Mochizuki & Ortega, 2008; Yuan & Ellis, 2003)Chen and Sun (2015) では、異なる長さのplanning timeperformanceの量と質にどのような影響を与えるか、2つ以上の従属変数を同時に取り上げることができる、多変量分散分析 (MANOVA) を用いて検証している。Mochizuki and Ortega (2008) ではplanningと文法形式の説明が関係詞節の使用 (CAFの観点において) を促すか、 MANOVAを用いて検証した。Yuan and Ellis (2003) では、CAFの各観点についてone-way ANOVAを繰り返し、その後多重比較を行っている。

1つ目の研究として取り上げたNitta & Nakatsuhara (2014) は、decision-making taskの前に行うplanningperformanceにどのような影響を与えるか検証した研究である。分析手法としては、performanceの評価においてはmultifaceted Rasch analysis、アンケートの分析にはノンパラメトリック検定、談話の詳細な分析にはconversation analysisが用いられた。本研究では、これらのそれぞれの分析によって結果が導かれているが、この手法ではperformanceとアンケートによる協力者のタスクに関する認識の関係のような相互の関係は検証することができていない。要因同士の掛け合いによって生じる結果を検証、解釈するために分析を行っていくことも必要ではないかと考えられる。その上で、量的な結果の根拠としてconversation analysisを活用していくことが必要ではないか。

2つ目の研究として取り上げたGan (2012) は、1人で行うmonologic presentation taskとグループで行うgroup discussion taskにおいて、学習者の発話の複雑さがどのように異なるか検証した研究である。分析手法としては、complexityについての研究でしばしば用いられる、productive unitscomplexity ratio measuresを用いて学習者の発話をコーディングしたのちに、within-subjects analysis of variance (ANOVA) を行った。また、grammatical complexity measures2種のタスクのassessment scoresの関係を調査するため、ピアソンの相関係数が算出された。結果としては、協力者はgroup discussionに比べてindividual presentationで協力者は有意に多くのproduction unitsを産出した。また、production unitsdiscussion taskのスコアよりもpresentation taskのスコアと関連していることが示された。そして、5つのcomplexity measuresのうちdomain scoreと相関を示すものが見られなかったことから、これら2つのタスクはgrammatical complexityよりもむしろ他の要因が影響している可能性もあると考察された。このことから、complexityにはタスクのタイプ以外の要因も影響している可能性が残されている。

これらの文献で扱われているようなtask performanceには、論文ないで指摘もなされているように、要因はただ1つではなく複数の要因が影響している可能性が高い。そのため、単一の分析を行うよりも、複数の要因をまとめて考慮することのできる分析手法を用いることが有効であると考えられる。複数の要因を設け、それらの間の相関関係や交互作用を検証していくことが有意義ではないか。そのような研究を行うためには、相関分析や分散分析 (ANOVA)、複数の従属変数を置くことができる多変量分散分析 (MANOVA) などでも分析を行うことができるが、構造方程式モデリング (SEM) を用いて複数の要因を一度に分析していくことも有効であろう。構造方程式モデリングでは、パス図を描き、扱う変数の関係性を図形で示すため、変数の関係性をわかりやすく整理することができる。また、従属変数を複数設けることができるため、oral performanceの評価の観点を複数設け (e.g., complexity, accuracy, fluency)、それらを同時に分析することが可能となる。しかし、構造方程式モデリングのデメリットとしては、100人以上の多くの協力者を必要とすることなどがある。構造方程式モデリングを活用することが難しい場合には、従属変数を複数用いることのできるMANOVAや、要因間の相関関係を分析することのできる相関分析を活用していくことが妥当であろう。

最後にoral performanceの評価については、どのような指標を用いてそのパフォーマンスの採点を行うか、何をもって良いパフォーマンスとして採点するか、ということによって評価の対象、基準となるものが異なるという問題も大きい。1つの指標ではなく、複数の指標を用いて同じoral performanceのデータを分析し、それらの結果の違いから学習者のパフォーマンスの違いを結論づけることもできるだろう。採点が難しいとされるoral performanceであるが、今後の英語教育の中ではますます必要性が増していくものである。評価基準の選定から、分析方法、パフォーマンスに影響を与える要因など、検証すべき点は多い。適切な方法の使用と考察を行い、さらなる研究を行っていくことが重要となる分野であると考える。

 

【参考文献】

Gan, Z. (2012). Complexity measures, task type, and analytic evaluations of speaking proficiency in a school-based assessment context. Language Assessment Quarterly9, 133?151.

Li, L., Chen, J., & Sun, L. (2015). The effects of different lengths of pretask planning time on L2 learners' oral test performance. TESOL Quarterly, 49, 38?66.

Mochizuki, N., & Ortega, L. (2008). Balancing communication and grammar in beginning-level foreign language classrooms: A study of guided planning and relativization. Language Teaching Research, 12, 11?37.

Nitta, R., & Nakatsuhara, F. (2014). A multifaceted approach to investigating pre-task planning effects on paired oral test performance. Language Testing31, 147?175.

Yuan, F., & Ellis, R. (2003). The effects of pretask planning and onLine planning on fluency, complexity and accuracy in L2 monologic oral production. Applied linguistics, 24, 1?27.