ABOUT/CONTACT

SEMINAR

SLAA
（Second Language Acquisition & Assessment Research Group）

FOR STUDENTS

TEASY

LINK

2017年度　　異文化言語教育評価論

【文献まとめ①】

Nitta, R., & Nakatsuhara, F. (2014). A multifaceted approach to investigating pre-task planning effects on paired oral test performance. Language Testing, 31, 147?175.

■本研究は、異なるplanning conditionにおける学習者のinteractionsのプロセスの共通点と相違点についての見識を得るために、伝統的なsummative approachと、よりprocess-orientedなアプローチを調和させることを目的としている。

■さらに、ダイアログ型のパフォーマンスにおける、planningありとなしについてのテスト受験者の感覚を調査することも目的である。

■RQは以下の4つ。

RQ1: pre-task planningは、rating scoreによって測定される、ペアによるoral interactionテスト受験者のパフォーマンスに影響を与えるか。

RQ2: pre-task planningは、discourse analytic measuresで測定されるパフォーマンスに影響するか。

RQ3: pre-task planning timeの有効性とplanningあり・なしの条件での彼ら自身のパフォーマンスについて、テスト受験者はどのように感じるか。

RQ4: 受験者はplanningあり・なしの条件でどのように共同的にパフォーマンスを構築するか。

Method

Participants

■32人の英語専攻の日本人大学生 (平均8.52年の英語教育を受けている / 男性16人, 女性16人)。

■直近のTOEFL IPT (M = 476.41) の結果から判断して、協力者はCEFRでB1レベルであった。

■協力者は自由に同性のペアを組んだ。

Design

■テスト: warm-up task (2分間の自己紹介) × 1, decision making tasks × 2

■Decision making tasksの条件: 3-minute pre-task planning time (+), without a planning time (?)

■それぞれのタスクは5分で行われ、すべてがビデオで録画されていた。

■協力者はすべての手順が終了した直後にタスクとplanning timeに関するアンケートに回答した。

Tasks

■Decision-making tasksはCambridge First Certificate in English (FCE) のpart 3 collaborative taskを使用。

■このタスクは、interactionを維持する能力、考えを交換する能力、賛成または反対する能力、相手に勧める能力、交渉を経て決定に至る能力を測定することを目的としている。

■FCEは3分で行われるタスクであるが、本研究では5分で行われた。

Planning

テスト環境で3分以上のplanning timeは妥当ではないと考えられたため、本研究では3分間のplanning timeが設けられた。

■Planningの形式に決まりはなく、スピーキングテストに備えて自分なりの方法で準備した。

■Planningは個人で行い、辞書やインターネットなど他のものを使用することは禁止されたが、noteをとることは許された。

■用意したnoteについては、スピーキングテストで相手に話す時に見て良いとされた。

■協力者のplanningの様子はビデオで撮影された。

Analysis

Rating scores

■ビデオで録画された32名の協力者のパフォーマンスは、Iwashita et al. (2001) で使用されたfluency, complexity, accuracyからなるrating scalesを改変したものに基づいて採点された。

■2名の評価者が採点を行い、1.5時間の採点者トレーニングを受けた。採点の不一致点は議論した。

■スコアはFACETSプログラムによるmultifaceted Rasch analysisを使用して統計的に分析された。

Discourse analytic measures

Fluency

■Speed: 全体の発話時間から算出した1秒ごとの総語数

■Breakdown: 全体の発話時間から算出したポーズ (0.2秒以上, ターン時の沈黙も含む) の長さの合計

■Repair: 総語数のうちの繰り返し、自己修正、reformulationの数

Complexity

■Syntactic: AS-unitごとの節の数

■Lexical: 語彙の多様性 (Measure of Textual Lexical Diversity)

Accuracy

■Global accuracy: 100語ごとのエラーの数

Interaction

■Turn length: 1ターン内に算出された語数

Questionnaire data

■Weir et al. (2006) の認知処理に関するアンケートが使用された。

■アンケートは、タスクに関する項目、タスク開始前に協力者が考えたことやしたことに関する項目、planningの段階に関する項目、スピーキングを行っている間に起きたことに関する項目の4つの部分からなっていた。

■結果の分析には、ノンパラメトリック検定が使用された。

Conversation analysis

■協力者のco-constructingプロセスにおける、共通点と相違点を調査するためにCAが行われた。

■本研究では、rating scoresとdiscourse analytic measuresの統計的分析の結果を解釈、精緻化するためにCAを使用した。

Results

Score analysis

■能力のある受験者はより上部に、能力の低い学習者はより下部に位置付けられた。

■厳しい評価者、難しいplanningの条件、難しいrating categoriesは上部に、寛大な評価者、簡単なplanningの条件、簡単なカテゴリーは下部に現れる。

■このmapはplanningありの条件よりもplanningなしの条件の方が困難であることを示しており、他の項目に比べてaccuracyが最も難しいことを示している。

■Figure 1を見ると、planningありの条件はplanningなしの条件より簡単であることが示された。

■より詳細な違いの検定方法の1つはfixed chi-squareであり、帰無仮説の検証を含んでいる。

■Fair average scoresの差を見ると0.24と小さいものの、chi-squareの結果、2つの条件間では有意な差があることが示された (χ² = 21.0, p < .01)。

■各rating categoryのplanning timeによる影響については、fair average scoresの差を見ると大きな差はないものの、fluency (χ² = 17.7, p < .01) とcomplexity (χ² = 5.8, p = .02) で有意であり、accuracyについてのp値も有意であった (χ² = 4.0, p = .05)。

Discourse analytic measures

■Pre-task planningがパフォーマンスに与える影響を調査するため、paired t-testが行われた。

■Planning timeは、speed fluency (一秒ごとの単語数) とbreak-down fluency (ポーズ) の有意な低下を導くことが明らかになった。一方、planningはcomplexityとaccuracyには影響していなかった。

■最も注意すべき結果はinteractionについてであり、ほとんどのペアでpanningありの条件で長い発話が行われることが示された。

Questionnaire

■アンケートの結果については、4つの構成分野間でも、planningの条件間でも有意な差は見られなかった。

Conversation analysis

■受験者の発話を繰り返し聞き、書き起こす中で、結果の説明を手助けすることができるような、2つのplanningの条件でのテスト受験者のinteractional patternの特徴が大きく2つ明らかになった。

■(1) planningなしの条件におけるcollaborative interaction

・会話の初めに短い対話が頻繁に見られ、これを行う中で徐々に共同的にinteractionを行う。

・会話の最後でfurther collaborationを行う。

■(2) planningありの条件におけるparallel and asymmetrical interaction

・ Planningなしの条件に比べて、ありの条件では初めから長い発話が行われる。

・会話の中盤で滞りが起きる。

Discussion

■本研究は、テストのスコアとdiscourse analytic measuresの間の複雑な関係性を示した。

■Score analysisの結果、pre-task planningはテスト受験者のスピーチのfluencyとcomplexityをわずかに向上させることが明らかになった。

■Discourse analytic measuresの結果、pre-task planningはbreakdown fluencyの増加とより長い発話を導くことが明らかになった。

■アンケートの結果、テスト受験者はplanning timeを方略的に使用することができておらずplanningなしの条件の方がスピーチをするのが簡単であるとさえ感じていることが示された。

■Conversation analysisはこれらの結果を補足する有益な視点を示した。

Conclusion

■本研究はprocess-oriented analysisを使用し、pre-task planningがパフォーマンスに十分な影響を与えることはできないことを示した。

■Planningありの条件では、特にinteractionの最初でdialogueというよりもmonologuesに類似しているということが明らかになった (planningで考えたことを伝えることに集中してしまう)。

■したがって、planningなしの方が共同的にタスクに取り組むということになった。

■Planning timeを使用することによって、discourse modeを変化させることができる可能性がある。

例えば、planningなしのdialogic taskはinteractional competenceの向上に有効である。

■本研究の結果、planningの有無は会話のパターンに影響を与えることを示した。

■TBLTとlanguage testingはreciprocalな関係にあるが、pre-task planningに関するこれまでの発見は常に効果的に結びついているわけではない。

■本研究で使用したようなmultifaceted approachはpre-task planningとinteraction、共同的に活動するプロセスの間の複雑な関係性を理解するための新しい方法である。

【文献まとめ②】

Gan, Z. (2012). Complexity measures, task type, and analytic evaluations of speaking proficiency in a school-based assessment context. Language Assessment Quarterly, 9, 133?151.

THE STUDY

The Assessment Tasks

■2007年から、香港ではHong Kong Examinations and Assessment Authority (HKEAA) にHong Kong Certificate of Education Examinationにおけるschool-based oral English assessment componentが組み込まれてきた。

■本研究のResearch Questionsは以下2つである。

・ school-based assessmentの文脈でmonologic taskとinteractive taskを区別してどのようにcomplexityを測定するか。

・ school-based assessmentの文脈でgrammatical complexity measuresは生徒のスピーキングの熟達度のanalytic evaluationsとどのように関連しているか。

■これまでのフォーマットとは異なり、このschool-based assessmentは教師が共通の評価基準の枠組みを使用することを確立することでoutputの評価を可能にした。

■結果として、この評価基準の使用する教師はトレーニングを受けることになった。

■本研究の目的のため、30人のESL学習者のデータが2つのschool-based assessment tasks (individual presentationとgroup discussion) から集められた。

■Individual presentationは授業で見た映画を紹介するもので、3~5分で行われ、ビデオ録画された。

■Group discussionでは協力者は3~4人のグループに分けられ、授業で読んだ本について与えられたトピックに基づいて議論した。議論は7~9分で行われ、ビデオ録画された。

■Individual presentationとgroup discussionの間、教師は参加者のそばに座り、scoring sheetを使用して、評価基準に基づき最も低い1~最も高い6の6つのレベルでそれぞれの協力者を評価した。

■ビデオで録画されたindividual presentationsとgroup interactionsはconversation analysis conventions (Atkinson & Heritage, 1984) に基づいて書き起こされた。

Coding the Data

■初めにProduction units (i.e., T-units, clauses, verb phrases, and words) に基づいてトランスクリプトをコーディングした。

■続いてProduction unitsの頻度を算出し、また、complexity ratio measuresが行われた。

1. Length of T-units in terms of number of words

T-unitごとの平均語数であり、総語数を総T-unit数で割ることで算出される。この数値は、学習者の中間言語の熟達度を表すとされる。

2. The number of clauses per T-unit

T-unitごとの平均節数であり、総節数を総T-unit数で割ることで算出される。この数値はgeneral language complexityを表し、この数値が高いほど、スピーチが複雑であるとされる。

3. The ratio of dependent clauses to the total number of clauses

総節数におけるdependent clausesの割合であり、dependent clausesの総数を総節数で破ることで算出される。この数値は埋め込み節の割合を表している。

4. The number of verb phrases per T-unit

T-unitごとの動詞節の数であり、動詞節の総数をT-unitの総数で割ることで算出される。

5. MLU (Mean Length of Utterance)

Dewaele and Furnham (2000) では、発話の長さは中間言語で複雑な構造を算出する能力を反映しているとされている。本研究では、発話者による発話の中で最も長い3つについて、平均語数を算出することでMLUを算出した。

■UnitsのコーディングのIntracoder reliabilitiesはT-unitで.95、clauseで.94、dependent clauseで.94、verb phraseで.93、MLU wordsで.95であった。

RESULTS

Complexity and Task Type: Monologic Versus Interactive

■2つのタスクで算出されるlanguage outputの複雑さに違いがあるかどうか検証するため、within-subjects analysis of varianceが行われた。

■初めに2つのタスクのlanguage production unitを比較した。結果、4つのproduction unitsのうち4つ (T-unit, clauses, verb phrases, words) において2つのタスク間で有意な差が見られた (p < .005)。

■このことは、group discussionに比べてindividual presentationで協力者は有意に多くのproduction unitsを産出したということを意味している。

■次に5つのcomplexity measuresの比較を行った。5つのうち3つ (length of T-unit, verb phrase ratio, MLU) のcomplexity measuresにおいて2つのタスクの間で有意な差が見られた。最もF値が高かったのがverb phrase ratio (p = .000) であった。

Relationship Between Complexity Measures and Analytic Evaluations of Students’ Speaking Proficiency

■Group discussionとindividual presentationの採点基準は、英語の言語パフォーマンスの4つの主要なdomains (Pronunciation & Delivery, Communication Strategies, Vocabulary & Language Patterns, Ideas & Organization) における英語の熟達度を6つのレベルで測定している。

■本研究で焦点としているcomplexityについては、4つのdomainsの中でVocabulary & Language Patternsが最も関連していると考えられる。

■結果、presentation taskにおけるdomain scoreの平均は3.500 (2.00~6.00)、global scoreの平均は14.200 (8.00~22.00) であった。

■discussion taskにおけるdomain scoreの平均は3.13 (2.00~5.00)、global scoreの平均は13.033 (9.00~20.00) であった。

■grammatical complexity measuresと2つのタスクのassessment scoresの関係を調査するため、ピアソンの相関係数が算出された。

■production unitsとスコアの相関について、2つのタスクの両方で全体のスコアと有意な相関を示したのはclauseとwordのみであった。これは生徒によってより多くの節や単語が算出されると、2つのタスクの両方で高いglobal scoreを示すということである。

■T-unitと動詞節はpresentationにおけるglobal scoreとのみ有意な相関を示した。

■Domain scoresの観点では、T-unitがvocabulary & language patternsのスコアと有意な相関を示す唯一のproduction unitであることが示された。しかし、これはpresentation taskにおいてのみである。

■Complexity measuresについて言うと、MLUのみがgroup discussion taskにおけるglobal scoreと有意な相関を示した。これは生徒がより長い発話をすればするほど、高いglobal scoreを得るということを示している。

DISCUSSION

Complexity of Oral Performance in Monologic versus Interactive tasks

■本研究の結果では、discussion taskよりもpresentation taskで4つのlanguage production unitsなどに見られたように、よりcomplexityが上がるという傾向が見られた。

■また、3つのcomplexity measuresでpresentation taskにおいて有意に高い結果が得られた。

■このことから、他の要因も2つのタスクにおけるcomplexityの違いに影響を与える可能性があると考えられる。

■本研究で使用した2つのタスクにおけるcomplexityの違いを解釈することができる1つの可能性は、生徒がmonologic presentationの方がgroup discussionに比べてcommunicative pressureを感じにくいということである。

■この結果はRobinson (2005) で述べられた、interactive tasksはL2 パフォーマンスのcomplexityに否定的に影響し、それが構造的・語彙的な複雑さを減少させる原因となる、という記述と一致する

Complexity Measures and Teacher’s Analytic Evaluations of the Learners’ Speaking Proficiency.

■本研究では、production unitsはdiscussion taskのスコアよりもpresentation taskのスコアと関連していることが示された。

■5つのcomplexity measuresのうちdomain scoreと相関を示すものが見られなかったことから、これら2つのタスクはgrammatical complexityよりもむしろ他の要因 (complexityよりもaccuracyを優先していた、アイコンタクトなども影響したなど) も教師の評価に影響していることが考えられる。

■このことから、なぜpresentation taskにおいてよりproduction unitがスコアとより関連していたかというと、評価者はgroup interactionにおいては学習者の相互行為スキルにより焦点を当てていたということであると考えられる。

■さらに、2つのタスクを行った条件も言語構造の複雑さと語彙の多様性に影響を与えるかもしれない (本研究はテストのような環境で行ったため、生徒が正確さに焦点を当てた可能性もある)。

■Discussion taskにおいては、MLUのみがglobal scoreと中程度の相関を示していた。

■Iwashita et al. (2008) でも、MLUは他のcomplexityの測定よりも学習者のスピーキングの熟達度と関連していることが示されている。

CONCLUSION

■本研究では、school-basedな文脈における学習者のスピーキングの熟達度における、grammatical complexity、task type、analytic evaluationsの関係を調査した。

■本研究で扱った2つのタスクタイプは質的にも量的にも異なる発話を促すことが示された。

【考察】

今回取り上げた2つの文献は、どちらもタスク条件がoral performanceに与える影響を検証したものである。Pre-task planningやタスクの形態などのタスク条件がoral performance (performanceのcomplexity, accuracy, fluency) に与える影響を検証した研究は、これらの他にも多く行なわれきている (e.g., Chen & Sun, 2015; Mochizuki & Ortega, 2008; Yuan & Ellis, 2003)。Chen and Sun (2015) では、異なる長さのplanning timeがperformanceの量と質にどのような影響を与えるか、2つ以上の従属変数を同時に取り上げることができる、多変量分散分析 (MANOVA) を用いて検証している。Mochizuki and Ortega (2008) ではplanningと文法形式の説明が関係詞節の使用 (CAFの観点において) を促すか、 MANOVAを用いて検証した。Yuan and Ellis (2003) では、CAFの各観点についてone-way ANOVAを繰り返し、その後多重比較を行っている。

1つ目の研究として取り上げたNitta & Nakatsuhara (2014) は、decision-making taskの前に行うplanningがperformanceにどのような影響を与えるか検証した研究である。分析手法としては、performanceの評価においてはmultifaceted Rasch analysis、アンケートの分析にはノンパラメトリック検定、談話の詳細な分析にはconversation analysisが用いられた。本研究では、これらのそれぞれの分析によって結果が導かれているが、この手法ではperformanceとアンケートによる協力者のタスクに関する認識の関係のような相互の関係は検証することができていない。要因同士の掛け合いによって生じる結果を検証、解釈するために分析を行っていくことも必要ではないかと考えられる。その上で、量的な結果の根拠としてconversation analysisを活用していくことが必要ではないか。

2つ目の研究として取り上げたGan (2012) は、1人で行うmonologic presentation taskとグループで行うgroup discussion taskにおいて、学習者の発話の複雑さがどのように異なるか検証した研究である。分析手法としては、complexityについての研究でしばしば用いられる、productive unitsとcomplexity ratio measuresを用いて学習者の発話をコーディングしたのちに、within-subjects analysis of variance (ANOVA) を行った。また、grammatical complexity measuresと2種のタスクのassessment scoresの関係を調査するため、ピアソンの相関係数が算出された。結果としては、協力者はgroup discussionに比べてindividual presentationで協力者は有意に多くのproduction unitsを産出した。また、production unitsはdiscussion taskのスコアよりもpresentation taskのスコアと関連していることが示された。そして、5つのcomplexity measuresのうちdomain scoreと相関を示すものが見られなかったことから、これら2つのタスクはgrammatical complexityよりもむしろ他の要因が影響している可能性もあると考察された。このことから、complexityにはタスクのタイプ以外の要因も影響している可能性が残されている。

これらの文献で扱われているようなtask performanceには、論文ないで指摘もなされているように、要因はただ1つではなく複数の要因が影響している可能性が高い。そのため、単一の分析を行うよりも、複数の要因をまとめて考慮することのできる分析手法を用いることが有効であると考えられる。複数の要因を設け、それらの間の相関関係や交互作用を検証していくことが有意義ではないか。そのような研究を行うためには、相関分析や分散分析 (ANOVA)、複数の従属変数を置くことができる多変量分散分析 (MANOVA) などでも分析を行うことができるが、構造方程式モデリング (SEM) を用いて複数の要因を一度に分析していくことも有効であろう。構造方程式モデリングでは、パス図を描き、扱う変数の関係性を図形で示すため、変数の関係性をわかりやすく整理することができる。また、従属変数を複数設けることができるため、oral performanceの評価の観点を複数設け (e.g., complexity, accuracy, fluency)、それらを同時に分析することが可能となる。しかし、構造方程式モデリングのデメリットとしては、100人以上の多くの協力者を必要とすることなどがある。構造方程式モデリングを活用することが難しい場合には、従属変数を複数用いることのできるMANOVAや、要因間の相関関係を分析することのできる相関分析を活用していくことが妥当であろう。

最後にoral performanceの評価については、どのような指標を用いてそのパフォーマンスの採点を行うか、何をもって良いパフォーマンスとして採点するか、ということによって評価の対象、基準となるものが異なるという問題も大きい。1つの指標ではなく、複数の指標を用いて同じoral performanceのデータを分析し、それらの結果の違いから学習者のパフォーマンスの違いを結論づけることもできるだろう。採点が難しいとされるoral performanceであるが、今後の英語教育の中ではますます必要性が増していくものである。評価基準の選定から、分析方法、パフォーマンスに影響を与える要因など、検証すべき点は多い。適切な方法の使用と考察を行い、さらなる研究を行っていくことが重要となる分野であると考える。

【参考文献】

Gan, Z. (2012). Complexity measures, task type, and analytic evaluations of speaking proficiency in a school-based assessment context. Language Assessment Quarterly, 9, 133?151.

Li, L., Chen, J., & Sun, L. (2015). The effects of different lengths of pretask planning time on L2 learners' oral test performance. TESOL Quarterly, 49, 38?66.

Mochizuki, N., & Ortega, L. (2008). Balancing communication and grammar in beginning-level foreign language classrooms: A study of guided planning and relativization. Language Teaching Research, 12, 11?37.

Nitta, R., & Nakatsuhara, F. (2014). A multifaceted approach to investigating pre-task planning effects on paired oral test performance. Language Testing, 31, 147?175.

Yuan, F., & Ellis, R. (2003). The effects of pre‐task planning and on‐Line planning on fluency, complexity and accuracy in L2 monologic oral production. Applied linguistics, 24, 1?27.